ly's blog

多模态大模型理解视觉token原理

DeepSeekV3.2的回答⬇️ ViT 中的视觉 token 不像文本 token 那样有一个固定的、离散的“词汇表”（比如 “apple” -> 123, “cat” -> 456）。视觉 token 是连续、高维的向量。多模态大模型能够“理解”这些视觉 token，关键在于一个核心操作：对齐。下面我们分步拆解这个过程： 1. 理解两种 Token 的本质区别文本 Tok

2025-10-21

Machine Learning > Deep Learning

#视觉token理解

LLM长上下文预训练方法

DeepSeekV3.2的回答⬇️ 从短上下文开始训练，然后逐步扩展——是当前业界最主流、最有效的方法。直接从头开始训练128K的模型在计算上是非常奢侈且低效的。下面我来详细解释这个渐进式扩展的过程、原因和具体技术。核心方法：渐进式训练这就像教一个人读书：你不会一开始就让他读一整本《战争与和平》，而是先让他读短文、故事，再到章节，最后读整本书。对于LLM，这个过程通常被称为 “渐进式训练

2025-10-21

Machine Learning > Deep Learning

#长上下文

Why language models hallucinate（为什么语言模型会出现幻觉）

本文译自 OpenAI 博客：https://openai.com/index/why-language-models-hallucinate/ Language models hallucinate because standard training and evaluation procedures reward guessing over acknowledging uncertaint

2025-09-06

Machine Learning > Deep Learning

#幻觉

Adam 和 AdamW 原理详解

本篇文章参考视频，感谢up 指数加权平均拥有前 6 天的收入，如何更准确地预测第 7 天的收入？简单思路取前 6 天收入的平均值，每天收入的权重为 1/6。改进：距离现在越近的值权重越大调整前 6 天的权重，距离今天越近的数据权重越大。指数加权平均的思想设置初始条件 $V_0 = 0$，$\beta = 0.7$，则每一天的指数加权平均值为前

2025-09-04

Machine Learning > Deep Learning

#Adam #AdamW

学习率与 Batch Size 的关系

参考文章当Batch Size增大时，学习率该如何随之变化？Adam的epsilon如何影响学习率的Scaling Law？重新思考学习率与Batch Size的关系（一）：现状当Batch Size增大时，每个Batch的梯度将会更准，因此每次更新梯度的幅度可以更大，也就是增大学习率，以求更快达到终点，缩短训练时间。那么学习率增大多少才是最合适的？平方根缩放One weird trick

2025-09-01

Machine Learning > Deep Learning

#学习率 #batch size

VeRL 源码解读

参考文章：https://zhuanlan.zhihu.com/p/27676081245ReMAX算法解读：https://zhuanlan.zhihu.com/p/662191782 1. verl.trainer.ppo.ray_trainer.py apply_kl_penalty 函数，计算 PPO 的 token-level kl reward，对应： 123456789101

2025-08-22

Machine Learning > Reinforcement Learning

#verl

旋转位置编码（RoPE）原理详解

RoPE作者苏剑林提出RoPE时的想法以及求解过程：https://spaces.ac.cn/archives/8265 本篇文章参考视频，感谢up 旋转矩阵一个例子旋转位置编码的核心是通过由 sin 和 cos 函数构成的二维旋转矩阵对二维向量进行旋转，$\theta$ 是旋转角度。比如针对 x 轴上的 (1, 0) 向量，旋转 $\theta$ 角，其长度不会改变，旋转后的向量等于原向

2025-08-19

Machine Learning > Deep Learning

#RoPE

Hexo文章url设置方法

hexo文章的url在博客根目录的_config.yml中进行配置，默认配置如下： 1permalink: :year/:month/:day/:title/ #年/月/日/文章路径这里的:title为source/_post下的文章相对路径，但是这样很容易造成url中文乱码，和不同浏览器因为字符集的问题导致url失效。因此建议尽量不使用默认配置，推荐使用如下两种方案: 自定义ur

2025-08-14

Hexo

#Hexo

香农熵、交叉熵和KL散度之间的联系

信息量对于一个事件来说，其信息量有三个特征：发生的概率越小，表示其蕴含的信息量越大发生的概率越大，表示其蕴含的信息量越小对于独立的事件来说，它们的信息量是可以相加的因此，信息量的定义如下所示：一个事件发生概率的倒数取log即为一个事件的信息量。式中概率的倒数表示信息量与事件的概率成反比。取log是由于独立事件的联合概率为各个事件发生概率的乘积，取log可以使得独立事件

2025-03-20

Machine Learning > Reinforcement Learning

#Entropy #Cross Entropy #KL散度

Transformer中的Self-Attention未引入非线性操作

注意力机制自注意力的输出与输入的张量形状相同，均为（批量大小batch_size，时间步的数目或词元序列的长度num_step，隐藏层大小hidden_size）。自注意力机制（Self-Attention）未显式引入非线性操作（如ReLU、Sigmoid等）的主要原因可以归结为以下几点： 1. 核心设计目标：关联建模而非非线性变换自注意力机制的核心功能是建模序列中元素之间的关联性。它通过

2025-03-11

Machine Learning > Deep Learning

#Attention Detail