分类 - Machine Learning - ly's blog

共计 11 篇文章

2025

Why language models hallucinate（为什么语言模型会出现幻觉）

Adam 和 AdamW 原理详解

学习率与 Batch Size 的关系

VeRL 源码解读

旋转位置编码（RoPE）原理详解

香农熵、交叉熵和KL散度之间的联系

Transformer中的Self-Attention未引入非线性操作

nn.embedding原理详解

从零实现PositionalEncoding与MultiHeadAttention

机器学习之树模型