Home
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Why language models hallucinate(为什么语言模型会出现幻觉)

本文译自 OpenAI 博客:https://openai.com/index/why-language-models-hallucinate/ Language models hallucinate because standard training and evaluation procedures reward guessing over acknowledging uncertaint
2025-09-06
Machine Learning > Deep Learning
#幻觉

Adam 和 AdamW 原理详解

本篇文章参考视频,感谢up 指数加权平均 拥有前 6 天的收入,如何更准确地预测第 7 天的收入? 简单思路 取前 6 天收入的平均值,每天收入的权重为 1/6。 改进:距离现在越近的值权重越大 调整前 6 天的权重,距离今天越近的数据权重越大。 指数加权平均的思想 设置初始条件 $V_0 = 0$,$\beta = 0.7$,则每一天的指数加权平均值为前
2025-09-04
Machine Learning > Deep Learning
#Adam #AdamW

学习率与 Batch Size 的关系

参考文章当Batch Size增大时,学习率该如何随之变化?Adam的epsilon如何影响学习率的Scaling Law?重新思考学习率与Batch Size的关系(一):现状 当Batch Size增大时,每个Batch的梯度将会更准,因此每次更新梯度的幅度可以更大,也就是增大学习率,以求更快达到终点,缩短训练时间。那么学习率增大多少才是最合适的? 平方根缩放One weird trick
2025-09-01
Machine Learning > Deep Learning
#学习率 #batch size

VeRL 源码解读

参考文章:https://zhuanlan.zhihu.com/p/27676081245ReMAX算法解读:https://zhuanlan.zhihu.com/p/662191782 1. verl.trainer.ppo.ray_trainer.py apply_kl_penalty 函数,计算 PPO 的 token-level kl reward,对应: 123456789101
2025-08-22
Machine Learning > Reinforcement Learning
#verl

旋转位置编码(RoPE)原理详解

RoPE作者苏剑林提出RoPE时的想法以及求解过程:https://spaces.ac.cn/archives/8265 本篇文章参考视频,感谢up 旋转矩阵一个例子旋转位置编码的核心是通过由 sin 和 cos 函数构成的二维旋转矩阵对二维向量进行旋转,$\theta$ 是旋转角度。比如针对 x 轴上的 (1, 0) 向量,旋转 $\theta$ 角,其长度不会改变,旋转后的向量等于原向
2025-08-19
Machine Learning > Deep Learning
#RoPE

Hexo文章url设置方法

hexo文章的url在博客根目录的_config.yml中进行配置,默认配置如下: 1permalink: :year/:month/:day/:title/ #年/月/日/文章路径 这里的:title为source/_post下的文章相对路径,但是这样很容易造成url中文乱码,和不同浏览器因为字符集的问题导致url失效。因此建议尽量不使用默认配置,推荐使用如下两种方案: 自定义ur
2025-08-14
Hexo
#Hexo

香农熵、交叉熵和KL散度之间的联系

信息量对于一个事件来说,其信息量有三个特征: 发生的概率越小,表示其蕴含的信息量越大 发生的概率越大,表示其蕴含的信息量越小 对于独立的事件来说,它们的信息量是可以相加的 因此,信息量的定义如下所示: 一个事件发生概率的倒数取log即为一个事件的信息量。 式中概率的倒数表示信息量与事件的概率成反比。 取log是由于独立事件的联合概率为各个事件发生概率的乘积,取log可以使得独立事件
2025-03-20
Machine Learning > Reinforcement Learning
#Entropy #Cross Entropy #KL散度

Transformer中的Self-Attention未引入非线性操作

注意力机制自注意力的输出与输入的张量形状相同,均为(批量大小batch_size,时间步的数目或词元序列的长度num_step,隐藏层大小hidden_size)。 自注意力机制(Self-Attention)未显式引入非线性操作(如ReLU、Sigmoid等)的主要原因可以归结为以下几点: 1. 核心设计目标:关联建模而非非线性变换 自注意力机制的核心功能是建模序列中元素之间的关联性。它通过
2025-03-11
Machine Learning > Deep Learning
#Attention Detail

nn.embedding原理详解

nn.embeddingnn.Embedding 是 PyTorch 中用于处理序列数据中的词嵌入(word embeddings)的核心模块。它本质上是一个查找表,将输入的离散型数据(通常是整数形式的单词索引)映射为连续型的数据表示(即词向量)。这种转换在自然语言处理(NLP)、推荐系统等领域中非常常见。 函数解释当你调用 nn.Embedding(vocab_size, num_hiddens
2025-03-06
Machine Learning > Deep Learning
#Embedding #Torch

从零实现PositionalEncoding与MultiHeadAttention

沐神的动手学深度学习里的PositionalEncoding与MultiHeadAttention从零实现,包括封装好的d2l库中的函数实现。
2025-03-06
Machine Learning > Deep Learning
#Attention #Positional Encoding
1234

搜索

正在载入天数... 载入时分秒...
Hexo Fluid