Home
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

多模态大模型理解视觉token原理

DeepSeekV3.2的回答⬇️ ViT 中的视觉 token 不像文本 token 那样有一个固定的、离散的“词汇表”(比如 “apple” -> 123, “cat” -> 456)。视觉 token 是连续、高维的向量。多模态大模型能够“理解”这些视觉 token,关键在于一个核心操作:对齐。 下面我们分步拆解这个过程: 1. 理解两种 Token 的本质区别 文本 Tok
2025-10-21
Machine Learning > Deep Learning
#视觉token理解

LLM长上下文预训练方法

DeepSeekV3.2的回答⬇️ 从短上下文开始训练,然后逐步扩展——是当前业界最主流、最有效的方法。直接从头开始训练128K的模型在计算上是非常奢侈且低效的。 下面我来详细解释这个渐进式扩展的过程、原因和具体技术。 核心方法:渐进式训练这就像教一个人读书:你不会一开始就让他读一整本《战争与和平》,而是先让他读短文、故事,再到章节,最后读整本书。 对于LLM,这个过程通常被称为 “渐进式训练
2025-10-21
Machine Learning > Deep Learning
#长上下文

Why language models hallucinate(为什么语言模型会出现幻觉)

本文译自 OpenAI 博客:https://openai.com/index/why-language-models-hallucinate/ Language models hallucinate because standard training and evaluation procedures reward guessing over acknowledging uncertaint
2025-09-06
Machine Learning > Deep Learning
#幻觉

Adam 和 AdamW 原理详解

本篇文章参考视频,感谢up 指数加权平均 拥有前 6 天的收入,如何更准确地预测第 7 天的收入? 简单思路 取前 6 天收入的平均值,每天收入的权重为 1/6。 改进:距离现在越近的值权重越大 调整前 6 天的权重,距离今天越近的数据权重越大。 指数加权平均的思想 设置初始条件 $V_0 = 0$,$\beta = 0.7$,则每一天的指数加权平均值为前
2025-09-04
Machine Learning > Deep Learning
#Adam #AdamW

学习率与 Batch Size 的关系

参考文章当Batch Size增大时,学习率该如何随之变化?Adam的epsilon如何影响学习率的Scaling Law?重新思考学习率与Batch Size的关系(一):现状 当Batch Size增大时,每个Batch的梯度将会更准,因此每次更新梯度的幅度可以更大,也就是增大学习率,以求更快达到终点,缩短训练时间。那么学习率增大多少才是最合适的? 平方根缩放One weird trick
2025-09-01
Machine Learning > Deep Learning
#学习率 #batch size

VeRL 源码解读

参考文章:https://zhuanlan.zhihu.com/p/27676081245ReMAX算法解读:https://zhuanlan.zhihu.com/p/662191782 1. verl.trainer.ppo.ray_trainer.py apply_kl_penalty 函数,计算 PPO 的 token-level kl reward,对应: 123456789101
2025-08-22
Machine Learning > Reinforcement Learning
#verl

旋转位置编码(RoPE)原理详解

RoPE作者苏剑林提出RoPE时的想法以及求解过程:https://spaces.ac.cn/archives/8265 本篇文章参考视频,感谢up 旋转矩阵一个例子旋转位置编码的核心是通过由 sin 和 cos 函数构成的二维旋转矩阵对二维向量进行旋转,$\theta$ 是旋转角度。比如针对 x 轴上的 (1, 0) 向量,旋转 $\theta$ 角,其长度不会改变,旋转后的向量等于原向
2025-08-19
Machine Learning > Deep Learning
#RoPE

Hexo文章url设置方法

hexo文章的url在博客根目录的_config.yml中进行配置,默认配置如下: 1permalink: :year/:month/:day/:title/ #年/月/日/文章路径 这里的:title为source/_post下的文章相对路径,但是这样很容易造成url中文乱码,和不同浏览器因为字符集的问题导致url失效。因此建议尽量不使用默认配置,推荐使用如下两种方案: 自定义ur
2025-08-14
Hexo
#Hexo

香农熵、交叉熵和KL散度之间的联系

信息量对于一个事件来说,其信息量有三个特征: 发生的概率越小,表示其蕴含的信息量越大 发生的概率越大,表示其蕴含的信息量越小 对于独立的事件来说,它们的信息量是可以相加的 因此,信息量的定义如下所示: 一个事件发生概率的倒数取log即为一个事件的信息量。 式中概率的倒数表示信息量与事件的概率成反比。 取log是由于独立事件的联合概率为各个事件发生概率的乘积,取log可以使得独立事件
2025-03-20
Machine Learning > Reinforcement Learning
#Entropy #Cross Entropy #KL散度

Transformer中的Self-Attention未引入非线性操作

注意力机制自注意力的输出与输入的张量形状相同,均为(批量大小batch_size,时间步的数目或词元序列的长度num_step,隐藏层大小hidden_size)。 自注意力机制(Self-Attention)未显式引入非线性操作(如ReLU、Sigmoid等)的主要原因可以归结为以下几点: 1. 核心设计目标:关联建模而非非线性变换 自注意力机制的核心功能是建模序列中元素之间的关联性。它通过
2025-03-11
Machine Learning > Deep Learning
#Attention Detail
1234

搜索

正在载入天数... 载入时分秒...
Hexo Fluid