ly's blog

Why language models hallucinate（为什么语言模型会出现幻觉）

本文译自 OpenAI 博客：https://openai.com/index/why-language-models-hallucinate/ Language models hallucinate because standard training and evaluation procedures reward guessing over acknowledging uncertaint

2025-09-06

Machine Learning > Deep Learning

#幻觉

Adam 和 AdamW 原理详解

本篇文章参考视频，感谢up 指数加权平均拥有前 6 天的收入，如何更准确地预测第 7 天的收入？简单思路取前 6 天收入的平均值，每天收入的权重为 1/6。改进：距离现在越近的值权重越大调整前 6 天的权重，距离今天越近的数据权重越大。指数加权平均的思想设置初始条件 $V_0 = 0$，$\beta = 0.7$，则每一天的指数加权平均值为前

2025-09-04

Machine Learning > Deep Learning

#Adam #AdamW

学习率与 Batch Size 的关系

参考文章当Batch Size增大时，学习率该如何随之变化？Adam的epsilon如何影响学习率的Scaling Law？重新思考学习率与Batch Size的关系（一）：现状当Batch Size增大时，每个Batch的梯度将会更准，因此每次更新梯度的幅度可以更大，也就是增大学习率，以求更快达到终点，缩短训练时间。那么学习率增大多少才是最合适的？平方根缩放One weird trick

2025-09-01

Machine Learning > Deep Learning

#学习率 #batch size

VeRL 源码解读

参考文章：https://zhuanlan.zhihu.com/p/27676081245ReMAX算法解读：https://zhuanlan.zhihu.com/p/662191782 1. verl.trainer.ppo.ray_trainer.py apply_kl_penalty 函数，计算 PPO 的 token-level kl reward，对应： 123456789101

2025-08-22

Machine Learning > Reinforcement Learning

#verl

旋转位置编码（RoPE）原理详解

RoPE作者苏剑林提出RoPE时的想法以及求解过程：https://spaces.ac.cn/archives/8265 本篇文章参考视频，感谢up 旋转矩阵一个例子旋转位置编码的核心是通过由 sin 和 cos 函数构成的二维旋转矩阵对二维向量进行旋转，$\theta$ 是旋转角度。比如针对 x 轴上的 (1, 0) 向量，旋转 $\theta$ 角，其长度不会改变，旋转后的向量等于原向

2025-08-19

Machine Learning > Deep Learning

#RoPE

Hexo文章url设置方法

hexo文章的url在博客根目录的_config.yml中进行配置，默认配置如下： 1permalink: :year/:month/:day/:title/ #年/月/日/文章路径这里的:title为source/_post下的文章相对路径，但是这样很容易造成url中文乱码，和不同浏览器因为字符集的问题导致url失效。因此建议尽量不使用默认配置，推荐使用如下两种方案: 自定义ur

2025-08-14

Hexo

#Hexo

香农熵、交叉熵和KL散度之间的联系

信息量对于一个事件来说，其信息量有三个特征：发生的概率越小，表示其蕴含的信息量越大发生的概率越大，表示其蕴含的信息量越小对于独立的事件来说，它们的信息量是可以相加的因此，信息量的定义如下所示：一个事件发生概率的倒数取log即为一个事件的信息量。式中概率的倒数表示信息量与事件的概率成反比。取log是由于独立事件的联合概率为各个事件发生概率的乘积，取log可以使得独立事件

2025-03-20

Machine Learning > Reinforcement Learning

#Entropy #Cross Entropy #KL散度

Transformer中的Self-Attention未引入非线性操作

注意力机制自注意力的输出与输入的张量形状相同，均为（批量大小batch_size，时间步的数目或词元序列的长度num_step，隐藏层大小hidden_size）。自注意力机制（Self-Attention）未显式引入非线性操作（如ReLU、Sigmoid等）的主要原因可以归结为以下几点： 1. 核心设计目标：关联建模而非非线性变换自注意力机制的核心功能是建模序列中元素之间的关联性。它通过

2025-03-11

Machine Learning > Deep Learning

#Attention Detail

nn.embedding原理详解

nn.embeddingnn.Embedding 是 PyTorch 中用于处理序列数据中的词嵌入（word embeddings）的核心模块。它本质上是一个查找表，将输入的离散型数据（通常是整数形式的单词索引）映射为连续型的数据表示（即词向量）。这种转换在自然语言处理（NLP）、推荐系统等领域中非常常见。函数解释当你调用 nn.Embedding(vocab_size, num_hiddens

2025-03-06

Machine Learning > Deep Learning

#Embedding #Torch

从零实现PositionalEncoding与MultiHeadAttention

沐神的动手学深度学习里的PositionalEncoding与MultiHeadAttention从零实现，包括封装好的d2l库中的函数实现。

2025-03-06

Machine Learning > Deep Learning

#Attention #Positional Encoding