Home
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

共计 31 篇文章


2025

09-06
Why language models hallucinate(为什么语言模型会出现幻觉)
09-04
Adam 和 AdamW 原理详解
09-01
学习率与 Batch Size 的关系
08-22
VeRL 源码解读
08-19
旋转位置编码(RoPE)原理详解
08-14
Hexo文章url设置方法
03-20
香农熵、交叉熵和KL散度之间的联系
03-11
Transformer中的Self-Attention未引入非线性操作
03-06
nn.embedding原理详解
03-06
从零实现PositionalEncoding与MultiHeadAttention
1234

搜索

正在载入天数... 载入时分秒...
Hexo Fluid