K1tyoo' Log

大语言模型

Tue, 14 Jan 2025 00:00:00 GMT

语言模型发展历程

涌现能力(Emergent Ability) 指的是当模型扩展到一定规模时，模型的特定任务性能突然出现显著跃升的趋势。具体来说包括三种 - 上下文学习、指令遵循和逐步推理的能力。

扩展法则

扩展法则(Scaling Law) 指的是在大语言模型中，模型的性能随着模型规模(N)、数据规模(D)和计算算力(C)的增长而呈现可预测的提升趋势。也就是在给定算力(FLOPs)的情况下，如何对其余参数进行合理的分配能够使得模型的性能最好。

记住几个核心结论：1) 对于仅编码器的模型来说，三种因素满足 $C\approx 6ND$；2) 固定模型的总参数量，调整层数/深度/宽度对模型的性能影响很小；3) 当单个因素不受另外两个因素制约的时候，模型的性能与每个因素都呈现幂律关系；4) 为了提升模型性能，模型规模和数据规模需要同步放大。

推理阶段扩展法则

增加并行搜索计算量 - 模型采样多个输出(Best-of-N、Beam Search、Lookahead Search)，通过奖励模型(Verifier)来选择最优的输出。训练奖励模型有两种方法：

结果奖励模型(ORMs) - 只关心最终答案
过程奖励模型(PRMs) -

增加串行修改计算量 - 模型给出一个初始输出，然后巡礼哪一个 Revision 模型基于该输出进行修正/调整输出的概率分布，直到得到一个最佳输出。

分词(Tokenization)

分词可视化网址 - https://tiktokenizer.vercel.app/

分词指的是将输入文本转换成若干词元(Token)，且保证每个词元拥有相对完整和独立的语义。

字符粒度 - 单个字符视为一个词元，词表较小，但是无法表述语义信息；
词粒度 - 单个词视为一个词元，词的含义得到保留但是稀有词的长尾效应较大，且无法处理单词变化；
子词粒度(subword) - 常用词保持原状，生僻词拆分成子词以共享 token 节省空间，较为常用。

目前最常用的子词粒度算法是 Byte-level BPE(B-BPE)，其核心思想是通过滑动窗口来统计字节对而找到最频繁的连续字节对，然后将它们合并成一个新的字节对，重复这个过程直到达到预设的子词数量。

词表是由词元到索引的映射组成的字典，即 {'<pad>': 0, 'hello': 1, 'world': 2}。

词嵌入(Embedding)

分词过程结束之后，会得到一个优化后的词表，然后我们使用嵌入层将每个词元映射为一个稠密向量，全部映射完成之后得到一个可学习的参数矩阵/查找表，其大小为 [vocab_size, embed_dim]。

"hello world"
    ↓ 分词
['hello', 'world']
    ↓ 映射为 ID - 由词表确定
[1, 2]
    ↓ 查找嵌入(lookup) - 大小为(2, 5)
[[0.1234, -0.5678, 0.9012, -0.3456, 0.7890],
 [-0.1111,  0.2222, 0.3333, -0.4444, 0.5555]]

Word2Vec

基于分布式假设，即语义相近的文本在向量空间中的距离也相近。其模型的本质是具有一个隐藏层的网络，最后取输入层到隐藏层的权重矩阵作为词的分布式表示。

word2vec 包含两种任务类型：

CBOW - 上下文窗口内的词元向量平均值作为输入，目标词元作为输出，最大化目标词元的条件概率；
Skip-Gram - 目标词元作为输入，上下文窗口内的词元作为输出，最大化上下文词元的条件概率。

由于要进行条件概率的计算，所以涉及 softmax 操作，但是该操作在词汇量较大的时候计算效率低，因此引入了两种优化算法：

层级 Softmax(Hierarchical Softmax) - 构建一个树形结构来代替隐藏层到 softmax 层的映射，根据词频构建哈夫曼树，高频词在浅层，低频词在深层。将输出词的概率分布建模为从根节点到叶子结点的路径选择(多分类 -> 二分类)，复杂度从 $\small O(V)$ 降低到 $\small O(\log V)$；
负采样(Negative Sampling) - 从噪声分布中随机采样负样本(词表中词频较大的无关词)，并且使用词频的 0.75 次方作为权重，以平衡高频词和低频词的采样概率。目标是最大化正例的概率，同时最小化负例的概率。在更新的过程中也仅更新正例和负例的权重。

负采样的训练目标为：

$$ \small \min \left[ -\log \sigma(v^{\prime}_{w_o^\text{T}} h)

\sum_{w_j \in \mathcal{W}{\text{neg}}} \log \sigma(-v^{\prime}{w_j^\text{T}} h)\right] $$

其中 $h$ 是中心词的词向量，$v'{w_o}$ 是正例上下文词的词向量，$\mathcal{W}{\text{neg}}$ 是噪声分布。

FastText

FastText 在 Word2Vec 的基础上进行了改进，引入了子词嵌入，即将输入文本拆分成子词，然后将子词嵌入向量进行平均得到输入文本的嵌入向量，有效提升了模型对 OOV 和形态变化的处理。

在 n-gram 序列的构建上采用了滑动窗口的方式，假设窗口大小为 3，对于输入文本 "hello"，其序列为：

<he, hel, ell, llo, lo>

并且为了避免显示存储所有子词的词向量，使用哈希函数将 n-gram 序列映射到固定大小的哈希表中。

预训练任务

语言建模(NTP)

给定一个词元序列 $\small u= {u_1, \cdots, u_{T}}$，语言建模的任务为基于当前位置之前的词元序列 $\small {u_{<t}}$ 以自回归的方式对目标词元进行预测，形式化表达为：

$$ \small L_{\text{LM}}(u)=\sum_{t=1}^{T}\log P(u_t|u_{<t}) $$

代表性的模型为 GPT 和 LLaMA 等。

前缀语言建模(Prefix LM) - 专为前缀解码器架构而设计，本质是利用前缀信息来预测后缀的词元，并且只有后缀中的词元计入总损失。形式化表达为：

$$ \small L_{\text{prefix}}=\log P(u_{\text{prefix}}|u_{\text{suffix}})=\sum_{t=k+1}^{T}\log P(u_t|u_{<t}) $$

该架构对因果解码器的掩码机制进行了修改，即对输入(前缀)部分采用双向注意力机制进行编码，而对输出部分利用单向的掩码注意力进行自回归地预测。与编码器-解码器架构不同的是，其在编码和解码的过程中是参数共享的，代表性的模型为 ChatGLM 和 U-PaLM。

去噪自编码(DAE)

输入序列经过一系列的随机替换和删除操作之后形成损坏的文本 $u_{\char92 \tilde{u}}$，模型的目标就是根据损坏的文本来恢复被替换或删除的词元片段 $\tilde{u}$。形式化表达为：

$$ \small L_{\text{DAE}}=\log P(\tilde{u}|u_{\char92 \tilde{u}}) $$

代表性的模型为 BERT 和 T5 等。

混合去噪器(MoD)

混合去噪器将语言建模任务和去噪自编码任务进行了统一，包括三种去噪器(Denoiser)：S-去噪器、R-去噪器、X-去噪器。其中 S 与前缀语言建模任务一致。而 R 和 X 与去噪自编码任务一致，区别在于屏蔽片段(Span)的跨度和损坏比例上有所区别。R 屏蔽序列中约 15% 的词元，且每个被屏蔽的片段仅包含 3 到 5 个词元。而 X 则采用更长的片段(12 个词元以上)或更高的损坏比例(50%)。

为了引导模型针对不同类型的输入选择相应的去噪器，输入句子会以特殊词元([R], [S], [X])作为开头。这种标记方式引导模型识别输入中使用的去噪器，并对该去噪器损坏的词元进行还原。代表性的模型为 UL2 和 PaLM2 等。

指令微调

指令微调(Instruction Tuning) 指的是用自然语言形式的数据对预训练模型进行参数微调，使得模型具备指令遵循的能力，能够完成各类预先设置的任务，并且可以在零样本的情况下完成诸多下游任务。

指令微调最重要的一环是指令数据的构建，即 [指令+输入+输出] 对，例如下面的翻译任务：

{
  "instruction": "将下述中文翻译为英文",
  "input": "中国的首都是北京。",
  "output": "China's capital city is Beijing."
}

主要有三种构建方式 - 在已有的 NLP 数据集上添加指令、人类专家编写的指令数据集以及通过大模型来生成指令数据集(Self-Instruct)。

数据合成

生产合成 Prompt - 1）Self-Instruct - 首先为每条样本精细地附加任务描述，然后针对每个描述设计若干种子提示词，随机抽样后输入大规模模型，由其基于种子提示生成新的问题；2）启发式规则 - 收集具有多样任务描述的原始数据集，对其进行结构化改写，以合成不同格式与风格的 Prompt；
生产合成 Answer - 采用性能优异的模型生成参考答案，比如可先由 GPT-4 生成高质量回答，然后用 Self-Consistency 投票进一步筛选，用筛选之后的数据集来微调小模型；
工业界做法 - 1）通过 Best-of-N 对同一个 Prompt 采样多个路径，然后通过人工或者奖励模型挑选最佳路径作为 Response。2）构造 Chosen 和 Rejected 偏好数据，然后进行 SFT 或 DPO。

数据过滤

IFD 过滤 - 通过比较模型在有无指令作为上下文时的响应的困惑度之比，得到每个样本的 IDF 分数。分数越高，说明样本信息含量越丰富；
MoDS 过滤 - 基于质量、覆盖度和必要性三个维度综合筛选指令数据集，旨在从海量数据中挑选最有价值的小规模子集：
- 质量 - 选出内容准确、无明显噪声或格式问题的样本；
- 覆盖度 - 选出在任务类型、主题领域、指令风格等方面具有多样性的样本；
- 必要性 - 利用初步调优后的模型，找出其"表现欠佳"的指令样本，纳入最终子集。

参数高效微调

Adapter Tuning

Adapter Tuning 指的是在模型中引入适配器(瓶颈网络架构)从而不需要训练整个模型，只需要更新适配器参数即可，不同的任务可以使用不同的适配器。形式化表示为：

$$ x=x+\sigma(x\cdot W_\text{up})\cdot W_{\text{down}} $$

其中 $W_{\text{down}}\in \mathbb{R}^{k\times r}$、$W_\text{up}\in \mathbb{R}^{r\times k}$、$r \ll k$。

具体来说，首先将特征向量压缩到较低维度，然后使用激活函数进行非线性变换，最后恢复到初始维度。并且使用残差连接来保证梯度的传递。

LoRA

LoRA 指的是在预训练模型的参数矩阵的旁路添加低秩分解矩阵来近似每层的参数更新。形式化表示为：

$$ \small W=W_0+\Delta W=W_0+BA $$

其中 $\small W_0\in \mathbb{R}^{d\times k}$、$\small B\in \mathbb{R}^{d\times r}$、$\small A\in\mathbb{R}^{r\times k}$、 $\small r \ll \min(d,k)$，且矩阵 $\small A$、$\small B$ 分别通过高斯、零初始化。

具体来说，模型在前向传播的过程中，原始参数矩阵保持不变，而引入的低秩矩阵会被更新。训练完成之后将二者合并得到新的参数矩阵。推理阶段，相较于 Adapter 的串行来说，并行推理速度会更快。

人类对齐

人类对齐(Human Alignment)指的是大语言模型的行为与人类价值观、人类真实意图和社会伦理相一致。我们希望对齐之后的大模型是有用的、诚实的、无害的(3H 标准)。

RLHF

(1)监督微调 - 使用标注数据(Demonstration data) $\small {(q,o)}$ 训练基于 GPT-3 的微调模型 $\small \pi^{\text{SFT}}$

(2)奖励模型训练 - 使用筛选的偏好数据(Comparison data) $\small{(q,o_w,o_l)}$ 训练奖励模型 $\small r_\varphi(q,o_w)$

基于 Bradley-Terry 模型，给出人类偏好片段 $\small o_w$ 超过 $\small o_l$ 的概率：

$$ \small P(o_w\succ o_l\mid q)=\frac{\exp(r_\varphi(q,o_w))}{\exp(r_\varphi(q,o_w))+\exp(r_\varphi(q,o_l))} $$

采用交叉熵损失定义目标函数，希望偏好/非偏好输出之间的奖励差值较大：

$$ \small \min-\mathbb{E}{(q,o_w,o_l)\sim D}\left[\log \underbrace{\sigma(r\varphi(q,o_w)-r_\varphi(q,o_l))}_{\text{Bradley-Terry 模型}}\right] $$

奖励模型是在移除了最后非嵌入层的 SFT 模型上训练的，使其接受一个 Prompt 和 Response，并输出一个标量奖励。通常做法是在最后加上一个线性层。

(3)PPO 优化 - 初始策略为 $\small \pi^{\text{SFT}}$，结合奖励模型和 KL 惩罚优化策略从而最大化奖励模型的输出期望

$$ \small \max\mathbb{E}{q\sim D{RL}} \mathbb{E}{o\sim \pi^{RL}\theta(q)}\frac{1}{|o|} \sum_{t=1}^{|o|}\overbrace{\left[r_\varphi(q,o_{\le t})-\beta\underbrace{ ~\log \frac{\pi_{\theta}^{\text{RL}}(o_t\mid q,o_{<t})}{\pi^{\text{SFT}}(o_t\mid q,o_{<t})}}{\text{KL 惩罚}}\right]}^{\text{最终奖励}} + \min\gamma ~\underbrace{\mathbb{E}{q\sim D_{RL}}\log \pi_{\theta}^{\text{RL}}(o_t \mid q, o_{<t})}_{\text{预训练目标函数}} $$

加入 KL 惩罚是希望模型的优化目标不会太过偏离微调结果，减少奖励模型对 OOD 数据的敏感性以及避免 Reward Hacking 问题，需要注意分布之间的 KL 散度是逐词元计算(Per-Token KL Penalty)。加入预训练目标函数是希望模型能够保留基础能力，避免遗忘预训练知识(减轻对齐税)。

但是 KL 散度的优化是二阶问题，通过引入 Clip 机制裁剪策略更新的概率比，直接限制策略变化范围，将它转换为一阶优化问题。此时目标函数变为：

$$ \small \max\mathbb{E}{q\sim D{RL}} \mathbb{E}{o\sim \pi{\theta_{old}}^{\text{RL}}} \frac{1}{|o|} \sum_{t=1}^{|o|}\min \left[\frac{\pi_\theta^{\text{RL}}(o_t\mid q_t,o_{<t})}{\pi_{\theta_{\text{old}}}^{\text{RL}}(o_t\mid q_t,o_{<t})}A_t, \text{clip}\left(\frac{\pi_\theta^{\text{RL}}(o_t\mid q_t,o_{<t})}{\pi_{\theta_{\text{old}}}^{\text{RL}}(o_t\mid q_t,o_{<t})}, 1-\varepsilon, 1+\varepsilon\right)A_t\right] $$

其中 $\small A_t$ 是优势函数，定义为实际奖励与基准奖励的差值：

$$ \small A_t=r(q_t, o_t) - V(o_t) $$

其中实际奖励通过奖励模型输出得到，而基准奖励则由可学习的价值模型 $\small V$ 提供，其用于降低方差并稳定策略更新。通过引入广义优势估计(GAE)，单步优势函数进一步扩展为多步优势的指数加权平均(Per-Token)：

$$ \small A_t^{\text{GAE}} = \sum_{l=0}^{T-t} (\gamma \lambda)^l \delta_{t+l}, \quad \delta_t = r(q_t, o_t) + \gamma V(o_{t+1}) - V(o_t) $$

在实践中，通常使用奖励模型来初始化价值模型，并且采用时序差分误差作为目标函数：

$$ \small \min \mathbb{E}t\left[r(q_t,o_t)+\gamma V(o{t+1})-V(o_t)\right]^2 $$

引入 Clip 机制的好处是可以通过优势函数的正负来判断是否更新策略，而优势函数通过对比模型回答内容的实际奖励是否高于基准奖励来实现策略更新的定向调节。如果高于基准奖励，则指导模型增大当前输入下相应输出的概率(增大策略在这个状态下采取对应动作的概率)，反之减小。

GRPO

由于价值模型是与策略模型是类似规模的，且都要进行参数更新，因此会引入较大的内存和计算负担。且价值模型本身的作用就是输出基准奖励用来调整策略。

GRPO 的思想是消除价值模型，并将相同问题不同输出的归一化奖励作为基准奖励。形式化表达为：

$$ \small \begin{aligned} &\max \mathbb{E}{[q\sim D{RL}, {o_i}i^G \sim \pi{\theta_{\text{old}}}]} \frac{1}{G}\sum_{i=1}^{G}\frac{1}{|o_{i}|}\sum_{t=1}^{|o_{i}|} \

&\left{\min\left[\frac{\pi_{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{\mathrm{old}}}(o_{i,t}|q,o_{i,<t})}\hat{A}{i,t},\text{clip}\left(\frac{\pi{\theta}(o_{i,t}|q,o_{i,<t})}{\pi_{\theta_{\mathrm{old}}}(o_{i,t}|q,o_{i,<t})},1-\varepsilon,1+\varepsilon\right)\hat{A}{i,t}\right]-\beta~\mathbb{D}{KL}\left[\pi_{\theta}||\pi_{\text{sft}}\right]\right} \ \end{aligned} $$

使用无偏差估计方法来计算 KL 散度：

$$ \small \mathbb{D}{\text{KL}}[\pi\theta||\pi_{\text{sft}}]=\frac{\pi_{\text{sft}}(o_{i,t}|q,o_{i,<t})}{\pi_\theta(o_{i,t}|q,o_{i,<t})}-\log\frac{\pi_{\text{sft}}(o_{i,t}|q,o_{i,<t})}{\pi_\theta(o_{i,t}|q,o_{i,<t})}-1 $$

此时优势函数有两种估计方法：

结果奖励模型(ORMs) - 使用每个输出的最后一个词元计算奖励值，然后使用下述公式更新：

$$ \small \hat{A}_{i,t}=\frac{r_i-\text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})} $$

过程奖励模型(PRMs) - 使用每个输出的每个词元计算奖励值，然后使用下述公式更新：

$$ \small \hat{A}{i,t}=\sum{\text{index}(j) \geq t}\frac{r_i^{\text{index}(j)}-\text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})} $$

DPO

上述两种对齐方法都依赖显式奖励模型，且需要复杂的策略优化过程(多阶段)。而 DPO 提出我们可以直接绕过奖励模型直接优化人类偏好策略，从而将多阶段学习转换为端到端学习。

根据 KL 约束下的最优策略表达式反解得到关于策略的奖励函数：

$$ \small \pi_r(o\mid q)=\frac{1}{Z(x)}\pi_{\text{sft}}(o\mid q)\exp \left(\frac{1}{\beta}r(q, o)\right) \iff r_\pi(q,o) =\beta \log \frac{\pi(o\mid q)}{\pi_{\text{sft}}(o\mid q)}+\beta \log Z(x) $$

其中 $\small Z(x)$ 是配方函数。然后将关于策略的奖励函数 $ \small r_\pi(q,o)$ 代入奖励模型目标函数得到(奖励模型的重参数化)：

$$ \small \begin{aligned} \text{objective}(\theta)&= -\mathbb{E}{[o_w \succ o_l]}\left[\log \sigma(r{\pi_{\theta}}(q, o_w)-r_{\pi_{\theta}}(q, o_l))\right] \ &= -\mathbb{E}{[o_w \succ o_l]}\left[\log \sigma\left(\beta \log \frac{\pi{\theta}(o_w\mid q)}{\pi_{\text{sft}}(o_w\mid q)}-\beta \log \frac{\pi_{\theta}(o_l\mid q)}{\pi_{\text{sft}}(o_l\mid q)}\right)\right] \end{aligned} $$

从上述公式可以看出 DPO 通过隐式定义奖励函数 $\small r_{\pi_{\theta}}(q, o)$ 使其与策略函数 $\small \pi_{\theta}$ 关联，将强化学习的策略优化问题转换为直接优化策略参数 $\small \theta$ 的监督学习问题。

提示工程

提示工程(Prompt Engineering)指的是通过在提示词中写入有价值的信息从而提示大语言模型的现有能力。提示工程指南收集了非常多的方法。Prompting Guide 101有非常多的实践方法。

上下文学习

上下文学习(In-Context Learning)指的是大语言模型在推理阶段无需参数更新，仅通过在输入中添加任务示例即可快速适应并完成新任务的能力。

思维链

思维链(Chain-of-Thought)指的是在给定的示例中添加具体推理步骤使得模型能够应对复杂推理问题。

如果仅是使用 "Let's think step by step." 而不提供示例，则为 Zero-shot CoT。

思维链的生成方法

基于采样的方法(CoT-SC) - 使用模型生成多条推理路径和对应的答案，然后选取多数答案为最终答案；
基于验证的方法 - 比对真实答案和生成答案训练分类器，并对整个推理路径和中间推理步骤进行验证。

通过思维链的生成方法，能够有效避免单一推理路径不稳定以及推理错误累积现象。

拓展的推理结构

思维树(ToT) - 在每个推理步骤(节点)中，"前瞻" 剩余的步骤并计算分数，“后验” 已生成内容的一致性；
思维图(GoT) - 生成中间推理步骤的同时汇聚其他节点的推理步骤，通过交叉验证来得到最终输出。

检索增强生成

检索增强生成(Retrieval-Augmented Generation)指的是通过检索与问题相似的外部数据来增强提示词，指导模型生成正确结果。有助于解决大模型知识的局限性、幻觉以及数据安全性问题。主要包含三个步骤：

索引 - 将文档库进行拆分并分块，转换成嵌入向量并存储到向量数据库中，从而构建向量索引；
检索 - 将输入内容和向量数据库中的内容进行相似度检索，选取若干最优相关片段；
生成 - 将选取到的片段拼接到输入中提供给大模型，生成回答。

推荐查看 - RAG techniques

智能体

智能体(Agent)指的是基于大语言模型的智能代理，能自主理解任务、规划步骤并调用工具以完成复杂目标。它主要包含四个部分：

规划 - 子任务分解、反思与完善(ReAct、Reflexion)；
记忆 - 长期记忆(RAG)、短期记忆(上下文学习)；
工具使用 - 调用外部 API 补全模型权重信息、使用预训练模型；
行动 - 与环境交互并更改环境的状态。

多智能体系统是指通过多个自主或半自主的智能体进行协作、竞争或角色分工，以动态交互和互补能力解决复杂任务，并提升生成结果的可靠性、一致性和创造性。

推荐查看 - Building effective agents

模型部署

模型量化

后训练量化(PTQ) - 量化已经训练好的模型参数

GPT-Q - 通过分层优化和 Hessian 矩阵补偿，在量化过程中动态调整权重(对某一权重量化后，需要调整其他权重来补偿误差)。开销较高，适用超大参数模型；
AWQ - 通过分析激活分布识别权重的重要性，对关键权重通道保留更高精度。并采用逐通道缩放技术确定最佳缩放因子。开销较低，能够低资源部署。

量化感知训练(QAT) - 在训练过程中将量化模块添加到模型中

LLM-QAT 同时量化权重、激活和 KV Cache，旨在增强吞吐量的同时支持更长的序列。

投机采样

在自回归模型的 token-by-token 模式中，串行输出会导致推理较慢。投机采样(Speculative Decoding)的思想就是通过小模型生成候选序列，大模型评估候选序列是否符合自身分布。通过批处理概率计算，有效减少了自回归模型对于词元生成的串行依赖(生成 39 个词元只前向计算了 9 次)。

候选序列 - 小模型生成候选序列 $[x_1, \cdots, x_\gamma] \sim q(x)$，概率为 $q(x)=\prod_{t=1}^{\gamma}(x_t \mid x_{<t})$；
并行验证 - 把候选序列和前缀拼接输入给大模型，大模型并行计算每个位置的条件概率 $p(x_t\mid x_{<t})$；
接受规则 - 对每个位置 $t$，大模型以概率 $1-\frac{p(x_t)}{q(x_t)}$ 拒绝采样。并从 $p^{\prime}(x)=\text{norm}(\max(0, p(x)-q(x)))$ 分布中重新采样。如果接受小模型输出，则用大模型采样下一个词元。重复候选序列的步骤(注意进行拼接)。

若 $p(x) < q(x)$，则表示小模型和大模型的输出分布不同，需要一定概率拒绝采样。并从正常分布 $p(x) > q(x)$ 中重新采样使结果符合大模型输出分布。

多模态基础模型

多模态的核心是在语言模型中通过可训练的 连接模块(Connection Module) 来注入视觉特征，通过自回归预测下一个文本令牌。

CLIP

CLIP(Contrastive Language-Image Pretraining)是由 OpenAI 提出的第一个 多模态预训练算法。它首次将图像和文本映射到同一个高维空间(多模态嵌入空间)，使得跨模态的相似度计算成为可能。

CLIP 采用 对比学习(Contrastive Learning) 预训练，即训练两个编码器 - 图像编码器和文本编码器。

在训练过程中，将每个批量的 图像-文本对 传入模型，得到若干个图像特征向量和文本特征向量。我们希望正确的图像-文本对的特征向量相似度尽量高(对角线)，而不是一对的相似度尽量低。这里相似度的计算方式为余弦相似度。此外由于不同编码器输出的特征向量长度不一样，因此使用线形映射统一向量长度。训练完成后可以通过 Prompt 实现零样本推理能力(在庞大数据集的基础上，对没有见过的样本效果还是不行)。

在推理过程中，以 ImageNet 为例，对一千个类别标签，分别生成一千个对应的文本，比如 A photo of a #Class，然后通过 CLIP 匹配相似度最高的图像和文本。

Flamingo

Flamingo 是由 DeepMind 提出的多模态大模型，它的核心目标是实现 跨模态的少样本学习，即通过大量图文交织的数据来确保模型的少样本、上下文学习能力。

感知重采样器 - 类似于 DETR，学习一组固定数量的潜在输入查询，这些查询通过交叉注意力机制与视觉特征进行交互。从而 将变长的视觉向量压缩为定长的多模态语义向量。

门控交叉注意力单元 - 在原先固定的模型结构的每一层上添加门控交叉注意力单元，它通过门控机制控制视觉和文本的信息流，使得浅层提取基础特征，深层提取丰富特征(随着训练过程和层数的加深，门控值也逐渐变大)。

BLIP-2

BLIP-2(Bootstrapping Language-Image Pre-training)是由 Salesforce Research 提出的多模态预训练模型，它的核心目标是通过 轻量级模块连接冻结的视觉编码器与大语言模型，实现跨模态理解与生成任务。

Q-Former - 将视觉特征映射到语言模型能够理解的的语义特征，由 Image & Text Transformer 两个子模块构成，它们共享相同的自注意力层。

表示学习阶段 - 引入可学习的 Query 与 Image Encoder 输出特征进行交互，通过联合优化三个预训练目标来学习高质量的跨模态对齐表示。

图文对比任务(ITC) - 计算来自 Image Transformer 的 Query 特征和 Text Transformer 的 Text 特征之间的相似度，且通过 InfoNCE 损失函数进行对比训练；
图生文任务(ITG) - 训练 Q-Former 模块能够根据图像生成自然语言描述，使得 Query 能够提取包含文本信息的视觉特征；
图文匹配任务(ITM) - 将 Image Transformer 输出的每个 Query 特征输入到一个二分类器中，将结果平均之后获得对应的 logit，且通过交叉熵损失函数进行训练。

生成学习阶段 - 将一阶段提取的视觉特征映射到大模型输入特征的相同维度，作为前缀传入大模型，指导模型生成与图像相关的文本。

LLaVA

LLaVA 的核心是通过多模态对齐和协同推理，来实现端到端的生成式学习系统(基于多模态输入，生成连贯的问答、描述、推理输出)。并且通过指令微调的方式来增强模型的零样本、少样本学习能力。

它的主要架构为 Llama、CLIP-ViT-L、线形投影层。采用二阶段指令微调：

预训练阶段用来进行模态特征对齐 - 只更新线形投影层，冻结视觉编码器和语言模型权重；输入的构造 - 对于图像 $\small X_v$，随机采样一个问题 $\small X_q$，要求助手简要描述图像，真是答案 $\small X_a$ 是原始标题；
端到端微调阶段用来适应多样化的指令要求 - 只更新语言模型和线形投影层，冻结视觉编码器权重。

指令跟随数据集构建过程 - 将带有 Caption 和 Bbox 信息的 COCO 数据集提供给 GPT-text-only 让它输出三种指令数据，分别是对话数据、描述数据和复杂推理数据，形成 LLaVA-Instruct-158K 数据集。

大模型幻觉

高效训练技术

3D 并行训练

数据并行(Data Parallelism) - 该方法将完整的模型参数和优化器状态同步至所有参与训练的 GPU，将训练数据均匀地划分成多个批次，每个 GPU 处理一个批次，然后各 GPU 同步执行前向/反向传播。计算完成后通过 All-Reduce 操作对各 GPU 的梯度进行平均，确保所有设备基于统一的梯度进行更新。

流水线并行(Pipeline Parallelism) - 该方法将模型的不同层的参数分配到不同的 GPU 上，每个设备负责一部分前向和反向计算，该方法可以有效解决单个设备显存不足的情况；

张量并行(Tensor Parallelism) - 该方法将计算过程中的参数矩阵进行按列/行分块，分别分配到不同的 GPU 上，然后并行地执行矩阵乘法，最后将结果进行合并。需要注意针对不同的算子类型采用不同的切分方法。

推荐查看 - 深入理解 Megatron-LM 系列

零冗余优化器(ZeRO)

该方法由 DeepSpeed 团队提出，旨在解决数据并行中的模型冗余问题。其通过分片存储策略，将模型参数、优化器状态和梯度分散到不同的 GPU 上，从而减少单设备的显存需求。

ZeRO-1 - 将优化器状态平摊到每台设备上，而模型参数和梯度各自保留；
ZeRO-2 - 在 ZeRO-1 的基础上，将梯度也平摊到每台设备上；
ZeRO-3 - 在 ZeRO-2 的基础上，将模型参数也平摊到每台设备上。

激活重计算

激活重计算也称为梯度检查点(Gradient Checkpointing)，该技术在前向计算的过程中保留部分激活值，在反向传播的过程当中重新激活需要的激活值，从而达到节约显存的目的。

混合精度训练

混合精度训练指的是同时使用半精度浮点数(2 个字节)和单精度浮点数(4 个字节)进行运算，以实现显存开销减半、训练效率翻倍的效果。即在前向/反向传播中使用半精度计算，在参数更新的时候使用单精度计算。

常见的半精度浮点数表示方式为 FP16，包含 1 位符号位、5 位指数位、10 位尾数位。进一步 Google 研究人员开发出了 BF16，其包含 1 位符号位、8 位指数位、7 位尾数位，表示范围可以达到 $10^{38}$ 数量级，在模型训练中被广泛使用。

Credit

Transformer

Mon, 13 Jan 2025 00:00:00 GMT

注意力机制

RNN 中的注意力机制由于串行架构的存在还是计算复杂度过高。因此我们对 RNN 的注意力计算公式进行改进，引入 Query、Key、Value 的概念。其中 Query 为查询信息，Key 为知识库，Value 为知识库中每个知识的释义。形式化表示为：

$$ w_{ij}=\alpha{(q_{i},k_j)} \ c_i=\sum_{j=1}^{t}w_{ij}v_j $$

即通过评分函数 $\alpha(\cdot)$ 计算 Query 对每一个 Key 的相似度，然后将相似度矩阵与对应的 Value 聚合起来得到上下文向量，表示查询中的哪些部分是对输入是有影响的。

用查字典来举例：我们需要查询的信息为 "中国"，计算完对字典中每个词的相似度之后，得到相似度最大的两个词 "华夏"、"唐宋"。然后将这两个词对应的信息聚合起来，来代表 "中国" 这个词，即这两个词对 "中国" 的影响是最大的。

Transformer

缩放点积注意力

自注意力(Self-Attention) 指的是 计算同一段序列中不同令牌之间的注意力，通过该机制可以对序列中的每一个令牌进行上下文建模。

上图表示了如何计算第一个令牌与其余令牌的注意力，并将其汇总为上下文向量。这里有几点需要注意：

缩放参数 $\small \sqrt{d_k}$ 是防止 softmax 梯度饱和，且 softmax 是在注意力分数矩阵的 列维度 上进行计算；
$\small Q$、$\small K$、$\small V$ 矩阵是同一段序列通过不同的权重矩阵 $W^q$、$W^k$、$W^v$ 加权得到；
每一个 $q$、$k$、$v$、$y$ 的维度都是 $d$，即单个令牌的词向量维度。

多头注意力

单头无法表征序列的所有信息，通过引入不同的头在 同一时刻关注序列中的不同部分，从而学习到不同的上下文信息。

上图表示了如何计算第二个头所对应的注意力、并将其汇总得到第二个头的上下文向量。然后将所有头的上下文向量拼接起来，这里需要注意拼接之后的向量是 高维向量，需要压缩使得输入和输出维度保持不变。

实践中需要设计的超参数为头的个数 $h$，每个头对应的 $q$、$k$、$v$、$y$ 的维度都是 $\frac{d}{h}$；
不同头之间的计算都是并行的，但是十分占用显存。

逐位前馈神经网络

将注意力层输出的特征进一步进行非线性变换，提升模型的表达能力。逐位指的是 每个词元的特征重计算都是独立的。

上图右侧的计算表示 "深" 这个特征通过权重矩阵加权之后得到另一个更好的特征。这里使用的是两层 FFN，且权重矩阵 $\small W_1$ 和 $\small W_2$ 是共享的，这就类似于 RNN 的思想，因此就能够很好的处理变长序列。

绝对位置编码

自注意力机制具有 置换不变形，无法捕捉序列中的顺序关系。因此引入位置编码对序列信息进行位置建模。

原始的 Transformer 使用的是基于 正余弦 的绝对位置编码(Sinusoid) - 即根据正余弦函数来生成 对应位置的唯一位置嵌入，并将其加到令牌的词向量上。对于维度大小为 $d$ 的词向量，它的编码方式为：

$$ \small \begin{cases} p_{k, 2i} = \sin\left(k/10000^{2i / d}\right) \ p_{k, 2i+1} = \cos\left(k/10000^{2i / d}\right) \end{cases} $$

其中 $p_{k,2i}$ 和 $p_{k,2i+1}$ 是位置 $k$ 的词向量的第 $2i$ 和 $2i+1$ 个分量、$d$ 是词向量的维度。将该结果加到词向量对应位置上形成最终的模型输入。

作者也使用了可学习的位置编码，发现使用 Sinusoid 编码可以让模型拥有更好的长度外推能力。

编码器 / 解码器

原始 Transformer 模型分别堆叠了六层编码器(Encoder)和解码器(Decoder)。且每层输入和输出的维度都是 (batch, time, dimension)，即批量大小、序列长度、词向量维度。

解码器是 自回归模型，也叫 Next-token prediction。在训练阶段，使用自回归模型会有弊端。因为提供了输入序列和目标序列，使得模型在训练的时候 "作弊"，即参考目标序列直接获得下一个单词。

因此提出 掩码多头注意力。即通过对注意力分数矩阵进行遮掩，使得模型在训练阶段 只能参考历史信息。具体来说通过下述规则进行遮掩(下三角遮掩)：

$$ \small a_{ij}=\begin{cases} 0 & \text{if } j \leq i \ -\infty & \text{if } j > i \end{cases} $$

这样，在使用 softmax 计算上下文向量的时候，由于出现了极大的负值，导致对应位置的指数趋近于 0，从而屏蔽了未来信息，保持了解码器的自回归属性。

为了保证输入序列长度一致，会在输入向量中添加 [pad] 来对齐长度。而在计算注意力矩阵的时候需要忽略这些信息，实践中通过获取 q/k 的非填充重叠部分作为掩码添加到注意力矩阵中即可(与下三角掩码原理一致)。Causal Attention 中需要用到两个掩码，其余只需要用到对齐掩码。

并且引入 交叉注意力(Cross Attention) 处理来自编码器的 K/V 和来自解码器的 Q。需要注意传入的 K/V 是编码器最后一层的输出，且传入到解码器的每一层当中。但是解码器的 Q 是当前层计算的结果。

激活函数

GeLU 全称为 Gaussian Error Linear Unit，它利用高斯分布的累积分布函数来调节输入信息的激活程度，使得中间区域的输入梯度更为平滑，起到正则化的作用。

$$ \small \begin{aligned} \text{GeLU}(x)&=x\cdot \Phi(x) \ &= x\cdot \frac{1}{2}\left(1+\text{erf}(\frac{x}{\sqrt{2}})\right) \end{aligned} $$

其中 $\Phi(x)$ 是累积分布函数、$\text{erf}(\cdot)$ 表示误差函数。

SwiGLU 全称为 Swish-Gated Linear Unit，它将 Swish 的平滑与 GLU 的门控机制结合起来使得梯度能够有有效传播，适用于深度模型。

$$ \small \text{SwiGLU}(x)=\text{Swish}(xW_1+b_1)\odot(xW_2+b_2) $$

在 Llama3.1 中的代码实现为：

self.w2(F.silu(self.w1(x)) * self.w3(x)) # 没有添加 bias

注意力模块的优化

自注意力模块是二次复杂度 $\small O(n^{2})$，因为它要对序列中的任意两个词向量都要计算相似度，得到一个 $n^2$ 大小的注意力矩阵。

Sparse Attention

从注意力矩阵的角度来说，就是除了相对距离不超过 $k$ 的、相对距离为 $k$ 的倍数的注意力都设置为 0。这样注意力就具有了 局部紧密相关和远程稀疏相关 的特性。

该方法的不足之处就是需要人工选择保留的注意力区域，不利于扩展。但是由于将每个词元的注意力压缩在了较小的空间中(每个词元只能看到训练长度的词元)，能一定程度上缓解长度外推问题。

Linear Attention

制约注意力性能的关键因素是 softmax 函数。如果没有该函数，去掉缩放系数的注意力公式实际上就是三个矩阵连乘，复杂度仅有 $O(n)$。一个自然的想法就是拿掉 softmax 函数，并用一般函数 $\text{sim}(\cdot)$ 进行替代。此时注意力公式为：

$$ \small \text{Attn}(q_i,k_j,b_j)=\frac{\sum_{j=1}^{n}\text{sim}(q_i,k_j)v_j}{\sum_{j=1}^{n}\text{sim}(q_i,k_j)} $$

为了保留注意力相似的分布特征，需要保证 $\small \text{sim}(q_i,k_j) \geq0$ 恒成立。

线形注意力就是用 核函数 代替这个一般函数，即 $\small \text{sim}(q_i, k_j) = \phi(q_i)^{\text{T}}\phi(k_j)$。此时注意力公式为：

$$ \small \text{Attn}(q_i, k_j, v_j) = \phi(q_i)\cdot \left[\phi(k_j)^{\text{T}}v_j\right] $$

其中核函数选择 $\small\phi(x)=\text{elu}(x)+1$。

KV Cache

自回归模型中的 Causal Decoder 在 token-by-token 递归生成的时候，每个时刻都需要重复计算历史时刻的 K/V，即在缩放点积注意力中重复计算了。

KV Cache 指的是 缓存之前的结果，仅计算当前时刻的 K/V，然后与之前的结果连接起来即可。但是会导致反复读取显存、带宽瓶颈。后续的 MQA、GQA、MLA 都是围绕如何减少 KV Cache 的同时尽可能地保证效果。目的就是要实现在更少的设备上推理更长的上下文，或者在相同的上下文长度下让推理的批量大小更大，从而实现更快的推理速度或者更大的吞吐总量。

KV Cache 占用显存分析：

存储 kv_length 个 k/v 值，形状为 [b, head_num, kv_seq_len, head_dim]，假设输入序列长度为 $s$，输出序列长度为 $n$，层数为 $l$，隐藏层维度为 $h$，并且以 FP16 来保存 Cache，那么峰值显存占用为 $\small 4blh(s+n)$。

Multi-Query Attention(MQA)

动机 - 当 KV Cache 中存储的历史信息越来越多的时候，反复进行读取会导致带宽瓶颈；
思想 - 让 所有的 Attention Head 都共享同一个 K/V，它将 KV Cache 压缩 $1/h$；
该技术在 PaLM、StarCode、Gemini 等模型中使用。

Group-Query Attention(GQA)

动机 - MQA 对 KV Cache 的压缩太过严重，会影响模型的学习效率以及最终效果；
思想 - 将 Attention Head 分成 $g$ 个组，每组共享同一个 K/V，它将 KV Cache 压缩 $g/h$；
该技术在 Llama2/3、DeepSeek-V1、ChatGLM2/3 等模型中使用。

通常设置 $g=8$ 保证单机八卡中的每张卡负责计算一组 K/V。

Multi-Head Latent Attention(MLA)

工程文章 - https://zhuanlan.zhihu.com/p/714761319

在推理的过程中，MHA 会为每个令牌缓存 $\small 2dn_hd_h$ 个元素，而在模型部署阶段，大量的 KV Cache 会导致能同时处理的 Batch 变小和支持的最大序列长度变短；

将 Key、Value 进行低秩联合压缩，其中 $\small d$ 为嵌入维度、$\small n_h$ 为注意力头的数量、$\small d_h$ 为每个注意力头的维度、$\small c_t^{KV} \in \mathbb{R}^{d_c}$ 是 KV 的压缩潜在向量、$\small d_c \ll (d_hn_h)$ 表示 KV 的压缩维度、$\small W^{DKV} \in \mathbb{R}^{d_c \times d}$ 是下投影矩阵、$\small W^{UK}$，$\small W^{UV} \in \mathbb{R}^{d_hn_h \times d_c}$ 分别是 Key 和 Value 的上投影矩阵。

$$ \small \begin{aligned} c_t^{KV}&=W^{DKV}h_t \ k_t^{C}&=W^{UK}c_t^{KV} \ v_t^{C}&=W^{UV}c_t^{KV} \end{aligned} $$

在推理的过程中，MLA 方法只需要缓存 $\small c_t^{KV}$，只有 $\small d_cl$ 个元素，其中 $\small l$ 表示层数。同时 $\small W^{UK}$ 和 $\small W^{UV}$ 可以合并到 $\small W^{Q}$ 和 $\small W^{O}$ 中，因此不需要在注意力计算中真正获得 Key 和 Value。

为了在训练过程中进一步减少激活内存，还可以对 Query 进行低秩压缩：

$$ \small \begin{aligned} c_t^{Q}&=W^{DQ}h_t \ q_t^{C}&=W^{UQ}c_t^{Q} \end{aligned} $$

其中 $\small c_t^{Q} \in \mathbb{R}^{d_c^{\prime}}$ 是 Query 的压缩潜在向量、$\small d_c^{\prime} \ll (d_hn_h)$ 表示 Query 的压缩维度、$\small W^{DQ} \in \mathbb{R}^{d_c^{\prime} \times d}$ 是下投影矩阵、$\small W^{UQ} \in \mathbb{R}^{d_hn_h \times d_c^{\prime}}$ 是上投影矩阵。

但是 RoPE 与低秩的 KV Cache 并不兼容，回忆一下 RoPE 的公式：

$$ \small (\mathcal{R}_m q)^{\text{T}}(\mathcal{R}_n k) = q^{\text{T}}\mathcal{R}_m^{\text{T}}\mathcal{R}n k = q^{\text{T}}\mathcal{R}{n-m} k $$

如果 Query 和 Key 中间有一个跟位置相关的矩阵，那么 $W^{UK}\mathcal{R}_{m-n}W^Q$ 就不能合并成一个固定的投影矩阵。MLA 给出的解决办法是用额外的多头 Query 和共享的 Key 去结合 RoPE：

$$ \small \begin{gathered}\left[q_{t,1}^R;q_{t,2}^R;\ldots;q_{t,n_h}^R\right]=q_t^R=\mathrm{RoPE}(W^{QR}c_t^Q)\k_t^R=\operatorname{RoPE}(W^{KR}h_t)\q_{t,i}=[q_{t,i}^C;q_{t,i}^R]\k_{t,i}=[k_{t,i}^C;k_t^R]\o_{t,i}=\sum_{j=1}^t\mathrm{softmax}j\left(\frac{q{t,i}^\text{T}k_{j,i}}{\sqrt{d_h+d_h^R}}\right)v_{j,i}^C\u_t=W^O[o_{t,1};o_{t,2};\ldots;o_{t,n_h}]\end{gathered} $$

其中 $\small d_n^{R}$ 是单个头的维度，$\small W^{QR} \in \mathbb{R}^{d_hn_h \times d^\prime_c}$，$\small W^{KR} \in \mathbb{R}^{d_h \times d}$ 是用来生成额外的解耦多头 Query 和共享 Key 的矩阵，推理的时候需要把额外的共享 Key 也缓存了，所以总共需要缓存的元素为 $\small d_c + d_n^{R}l$ 个。

Flash Attention / 单机多卡

原始的注意力计算过程中，最大的中间过程结果就是注意力分数矩阵，而最终的上下文向量反而很小。反复读取大尺寸注意力矩阵会导致 HBM 带宽瓶颈。

Flash Attention 通过 矩阵分块 和 算子融合 等方法，将中间计算结果保留在大带宽的 SRAM 中，获得最终结果再写回小带宽的 HBM 中，从而避免了带宽瓶颈。

上图左侧是原始数值稳定版本的 softmax 实现，右侧是将输入分块后，分别计算 softmax 并融合的实现。具体来说对于 Key/Value 的每一块，计算它们和所有 Query 的注意力矩阵，并保存在 SRAM 中。当计算得到最终上下文向量的时候在将结果写回 HMB 中。

HBM IO 复杂度对比：

Vanilla Attention - $\small O(Nd+N^{2})$；
Flash Attention - $\small O(N^2d^2/m) \ll O(N^2) \ll O(Nd+N^2)$。

算子融合指的是通过将上图右侧的整个计算过程融合成一个高效的算子，从而减少中间数据的存储。

Ring Attention / 多机多卡

混合专家模型(MoE)

核心思想 - 每个专家在训练的过程中学习不同的信息，然后在推理的过程中只有与特定任务最相关的专家被使用。

首先通过门控函数 / 路由网络 计算出每个专家的权重，该权重表示每个专家对当前词元的关注程度。通常是一个简单的神经网络，将输入 $\mathbf{u}_t^{l}$ 通过 $\text{softmax}$ 映射为概率分布：

$$ s_{i,t}=\text{softmax}_i(\mathbf{u}_t^{l}\mathbf{e}_i^{l}) $$

其中 $\mathbf{e}i^{l}$ 表示第 $l$ 层第 $i$ 个专家的可学习权重，最后的结果 $s{i,t}$ 表示第 $i$ 个专家对第 $t$ 个词元的关注程度。

然后从 N 个专家中保留 top-k 个最高权重的专家参与计算，其余权重置零(稀疏激活)：

$$ \small g_{i,t}=\begin{cases}s_{i,t},&s_{i,t}\in\text{Topk}({s_{j,t}|1\leqslant j\leqslant N},K) \0,&\text{otherwise}&&\end{cases} $$

最后将路由权重与所有专家的输出进行聚合并加上残差连接作为最终的输出：

$$ \small \mathbf{h}t^l=\sum{i=1}^N\left[g_{i,t} \cdot \text{FFN}_i(\mathbf{u}_t^l)\right]+\mathbf{u}_t^l $$

传统的 MoE 存在以下问题：

单个专家涵盖多种知识，无法充分同时利用；
多个专家涵盖通用的冗余知识，阻碍了 MoE 的理论性能上限。

DeepSeekMoE 通过 划分更细粒度的专家 以及 利用单个专家存储通用知识 来达到单个专家的高度专业化。形式化表达为：

$$ \small \begin{aligned}&\mathbf{h}t^l=\textcolor{blue}{\sum{i=1}^{K_s}\text{FFN}i\left(\mathbf{u}t^l\right)}+\textcolor{blue}{\sum{i=K_s+1}^{mN}}\left[g{i,t}\cdot\text{FFN}i(\mathbf{u}t^l)\right]+\mathbf{u}t^l,\&g{i,t}=\begin{cases}s{i,t},&s{i,t}\in\text{Topk}({s_{j,t}|K_s+1\leqslant j\leqslant mN},mK-K_s),\0,&\text{otherwise},&&\end{cases}\end{aligned} $$

具体来说，将 $\small N$ 个专家划分为 $ \small mN$ 个专家，即将隐藏层的维度乘上 $ \small 1/m$，同时选取 $\small mK-K_s$ 个专家保证参数量与传统 MoE 模型相当。然后隔离出单个专家 $\small K_s$ 来存储通用知识。

归一化

Post / Pre - Norm

Post-Norm - 归一化放置在残差计算之后：

$$ \small \text{Post-Norm}(x)=\text{Norm}(x+\text{Sublayer(x)}) $$

训练时间较快、网络容易调优、输出层梯度较大引发的训练不稳定。

Pre-Norm - 归一化放置在子层计算中：

$$ \small \text{Pre-Norm}(x)=x+\text{Sublayer}(\text{Norm}(x)) $$

训练稳定、效果不如 Post-Norm、缓解梯度消失(爆炸)问题。

RMSNorm

RMSNorm 沿着 输入特征的通道维度 进行归一化操作，相较于层归一化而言，它仅保留缩放参数：

$$ \small \hat{z}= \frac{x}{\text{RMS}(x)} \cdot \gamma, \quad \text{RMS}(x)=\sqrt{\frac{1}{d}\sum_{i=1}^{d}x_i^2 + \epsilon} $$

其中 $x$ 为输入特征、$\gamma$ 为缩放参数。并且计算的是输入特征平方的均值。

位置编码

相对位置编码

假设输入向量由词向量 $\small E_{x_i}$ 和位置向量 $\small U_i$ 组成，对注意力分数计算公式 $\small q_i^{\text{T}}k_j$ 进行因式分解得到：

$$ \small A_{i,j}^{\text{abs}}=\underbrace{E_{x_{i}}^{\text{T}}W_q^{\text{T}}W_kE_{x_j}}{\text{内容相关项}}+\underbrace{E{x_{i}}^{\text{T}}W_q^{\text{T}}W_{k}U_{j}}{\text{内容-位置耦合项}}+\underbrace{U{i}^{\text{T}}W_q^{\text{T}}W_kE_{x_j}}{\text{位置-内容耦合项}}+\underbrace{U{i}^{\text{T}}W_{q}^{\text{T}}W_{k}U_{j}}_{\text{位置相关项}} $$

可以发现只有最后一项包含 $\small U_i$ 和 $\small U_j$，理论上包含相对位置 $(j-i)$ 的信息，但因为 $\small W_q$ 和 $\small W_k$ 的非线形变换，导致相对位置信息被破坏了。

Transformer-XL 位置编码

$$ \small A_{i,j}^{\text{rel}}=E_{x_{i}}^{\text{T}}W_q^{\text{T}}W_{k,E}E_{x_j}+E_{x_{i}}^{\text{T}}W_q^{\text{T}}W_{k,R}\textcolor{blue}{R_{i-j}}+\textcolor{blue}{u^{\text{T}}}W_{k,E}E_{x_j}+\textcolor{blue}{v^{\text{T}}}W_{k,R}\textcolor{blue}{R_{i-j}} $$

其中 $\small R$ 为相对位置编码矩阵、$u$ 和 $v$ 都是可学习参数。并且由于 $\small R_{i-j}$ 的编码空间与输入空间 $\small E$ 不一定相同，所以将 $\small W_k$ 矩阵替换为了 $\small W_{k,E}$ 和 $\small W_{k,R}$。

T5 位置编码

如果认为输入信息和位置信息是应该独立/解耦的，那么内容-位置耦合项和位置-内容耦合项应该被移除，并且加上一个可训练的偏置项：

$$ \small A_{i,j}^{\text{rel}}=E_{x_{i}}^{\text{T}}W_{q}^{\text{T}}W_{k,E}E_{x_{j}}+r_{i-j} $$

ALiBi

在 softmax 之前，将注意力分数的计算改为如下格式：

$$ \small q_m^{\text{T}}k_n-\lambda(m-n) $$

其中 $\small m-n$ 是 Query 和 Key 之间的位置偏移、$\small \lambda=2^{(-8m/k)}$ 是每个注意力头 $\small k$ 的惩罚系数。当 Query 和 Key 的位置偏移越大，它对注意力分数的惩罚就越大。

RoPE

为 Query 和 Key 设置了单独的旋转矩阵 $\small \mathcal{R}$。考虑一个二维的情况：

$$ \small \mathcal{R}_mq= \begin{pmatrix} \cos m\theta & -\sin m\theta \ \sin m\theta & \cos m\theta \end{pmatrix} \begin{pmatrix} q_0 \ q_1 \end{pmatrix} \quad $$

由于内积满足线形叠加性，因此任意偶数维的 RoPE，都可以表示为二维形式的拼接：

$$ \small {\underbrace{\begin{pmatrix} \cos m\theta_0 & -\sin m\theta_0 & 0 & 0 & \cdots & 0 & 0 \ \sin m\theta_0 & \cos m\theta_0 & 0 & 0 & \cdots & 0 & 0 \ 0 & 0 & \cos m\theta_1 & -\sin m\theta_1 & \cdots & 0 & 0 \ 0 & 0 & \sin m\theta_1 & \cos m\theta_1 & \cdots & 0 & 0 \ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \ 0 & 0 & 0 & 0 & \cdots & \cos m\theta_{d/2-1} & -\sin m\theta_{d/2-1} \ 0 & 0 & 0 & 0 & \cdots & \sin m\theta_{d/2-1} & \cos m\theta_{d/2-1} \ \end{pmatrix}}{\boldsymbol{\mathcal{R}}m} \begin{pmatrix}q_0 \ q_1 \ q_2 \ q_3 \ \vdots \ q{d-2} \ q{d-1}\end{pmatrix}} $$

也就是说，给位置 $m$ 的向量 $q$ 乘上矩阵 $\small \mathcal{R}_m$、位置 $n$ 的向量 $k$ 乘上矩阵 $\small \mathcal{R}_n$，并用变换后的序列做注意力，那么就自动包含相对位置信息了，因为如下恒等式成立：

$$ \small (\boldsymbol{\mathcal{R}}_m \boldsymbol{q})^{\text{T}}(\boldsymbol{\mathcal{R}}_n \boldsymbol{k}) = \boldsymbol{q}^{\text{T}} \boldsymbol{\mathcal{R}}_m^{\text{T}}\boldsymbol{\mathcal{R}}n \boldsymbol{k} = \boldsymbol{q}^{\text{T}} \boldsymbol{\mathcal{R}}{n-m} \boldsymbol{k} $$

由于 $\small \mathcal{R}_m$ 的稀疏性，直接使用矩阵乘法来计算会很浪费算力。因此使用下述方法来实现 RoPE：

$$ \small \begin{pmatrix}q_0 \ q_1 \ q_2 \ q_3 \ \vdots \ q_{d-2} \ q_{d-1} \end{pmatrix}\otimes\begin{pmatrix}\cos m\theta_0 \ \cos m\theta_0 \ \cos m\theta_1 \ \cos m\theta_1 \ \vdots \ \cos m\theta_{d/2-1} \ \cos m\theta_{d/2-1} \end{pmatrix} + \begin{pmatrix}-q_1 \ q_0 \ -q_3 \ q_2 \ \vdots \ -q_{d-1} \ q_{d-2} \end{pmatrix}\otimes\begin{pmatrix}\sin m\theta_0 \ \sin m\theta_0 \ \sin m\theta_1 \ \sin m\theta_1 \ \vdots \ \sin m\theta_{d/2-1} \ \sin m\theta_{d/2-1} \end{pmatrix} $$

其中 $\otimes$ 是逐位相乘。在 $\small \theta_i$ 的选择上，沿用了和 Sinusoidal 位置编码的方案，即 $\small \theta_i = 10000^{-2i/d}$。

RoPE 不带有显式的远程衰减，通过不同频率的三角函数有效区分了长程和短程。并且直接作用于 $\small Q$、$\small K$，不改变注意力计算的形式，与 Flash Attention 更为契合。容易 Scale Up。

长度外推优化

长度外推问题指的是模型在推理阶段无法处理比训练阶段更长的输入序列的现象(Train Short, Test Long)，从而导致模型无法捕捉全局的上下文信息，造成信息丢失或模糊的建模结果。

推理的时候用到了没训练过的位置编码(绝对/相对)；
推理的时候注意力机制处理的词元数量远超训练时的数量。

注意力机制理论上可以处理任意长序列，但是越多的词元去平均注意力就会导致注意力分布越均匀，也就不能很好地表征词元之间的关系。

Position Interpolation

NTK-aware

YaRN

解码策略

贪婪采样的改进策略

贪心搜索(Greedy Search) - 在每个采样步骤中选择概率最高的词元作为下一个词元。但是该方法容易陷入局部最优，生成重复、不自然的句子；
束搜索(Beam Search) - 在每个采样步骤中选取概率最高的 $k$ 个句子，并最终选取整体概率最高的生成回复。其中 $k$ 称为束宽度。详细可以查看循环神经网络 / 束搜索中的部分。

各类解码参数：

长度惩罚(Length Penalty) - 通过将句子概率除以其长度的指数幂 $\alpha$，缓解束搜索倾向于生成较短的句子(每生成一个单词，都会乘以一个小于 1 的概率，使得句子的总体概率逐渐变小)；
出现惩罚(Presence Penalty) - 将生成词元的 logits 减去惩罚项 $\alpha$ 来降低该词元之后出现的概率；
频率惩罚(Frequency Penalty) - 将生成词元的 logits 减去其出现次数乘以惩罚项 $\alpha$ 来降低该词元之后出现的概率。

随机采样的改进策略

温度采样(Temperature Sampling) - 通过调整 logits 的温度系数，从而保证采样过程的随机性，其越小，概率分布越极端，反之越平坦；
Top-k 采样(Top-k Sampling) - 从概率最高的 $k$ 个词元中进行采样，但是不考虑整体概率分布，无法适应不同的上下文语境；
Top-p 采样(Top-p Sampling) - 从一个符合特定概率条件的最小词元集合中进行采样，要求其中包含的所有词元的累积概率大于或等于预设阈值 $p$。

语言模型

预训练模型确立了 预训练-微调 的范式。通过大量无标注文本建立模型的基础能力，然后通过有标注数据进行下游任务的微调。

GPT / Decoder

模型结构 - 12 层、768 词向量维度、12 个头、40,000 词表大小(B-BPE)、512 tokens 上下文长度；
训练范式 - 标准语言模型训练、SFT 特定任务微调(多任务学习损失)；
实验数据 - 4.6GB 数据集、117M 参数量。

GPT-2

模型结构 - 48 层、1600 词向量维度、25 个头、50,257 词表大小、1024 tokens 上下文长度；
训练范式 - 多任务学习、通过 Prompt 实现 Zero-Shot 微调(使用无监督预训练做有监督任务)；
实验数据 - 40GB 数据集、1.5B 参数量。

GPT-3

模型结构 - 96 层、12,288 词向量维度、96 个头、50,257 词表大小、2048 tokens 上下文长度；
训练范式 - 大规模上下文学习、Few-Shot 微调；
实验数据 - 570GB 数据集、175B 参数量。

BERT / Encoder

下面的模型结构均是 base 设置。

模型结构
- 12 层、768 词向量维度、12 个头、30,522 词表大小(WP)、512 tokens 上下文长度；
- 在输入维度上加入 Segment Embedding，用来区分不同的句子、双向 Transformer。假设输入为 [CLS] 句子A [SEP] 句子B [SEP]，SE 为句子 A 的所有词元分配一个固定的嵌入向量(0)，句子 B 分配另一个嵌入向量(1)，从而区分两个句子。
训练范式
- MLM - 训练过程将输入遮掩 15%。然后预测遮掩的部分；
- NSP - 判断两个句子是否是上下文关系(50% 正/负样本)。
微调的时候不会出现 [MASK]，会出现训练推理失配问题，可以采用 Scheduled Sampling 解决。即将确定要遮掩的词元，80% 替换成 [MASK]、10% 替换成随机 token、10% 保持不变。
实验数据 - 102 种语言、16GB 数据集、110M/340M 参数量。

RoBERTa

模型结构 - 12 层、768 词向量维度、12 个头、50,265 词表大小(BPE)、512 tokens 上下文长度；
训练范式 - 去掉 NSP 任务、引入 动态掩码 的机制，即每个回合输入句子的 mask 位置都不同；
实验数据 - 160G 数据集、125M/355M 参数量。

ALBERT

模型结构
- 12 层(参数共享)、128 词向量维度、12 个头、30,000 词表大小(SP)、512 tokens 上下文长度；
- 将 输入向量分解成两个较小的矩阵，维度分别为 $(v, s)$ 和 $(s,d)$，其中 $s \ll d$；
训练范式 - 使用 SOP 任务预测句子顺序是否正确；
实验数据 - 16G 数据集、12M/18M 参数量。

T5

将所有的自然语言处理任务都转换成文本-文本的形式，并用一个统一的模型。其输入是带有任务前缀的文本序列，输出是对应任务的结果。

模型结构 - 编码器(解码器) 各 6 层、512 词向量维度、8 个头、32,000 词表大小(SP)、512 tokens 上下文长度；
训练范式 - Span Corruption(随机遮掩连续 span，预测被遮掩的文本)、多任务统一学习(分类、翻译、摘要等任务均转换成文本生成任务)；
实验数据 - 750GB 的 C4 数据集、220M/770M 参数量。

架构分析

还有一种特殊的解码器结构 Prefix Decoder，它允许模型对输入序列中的一部分(“前缀”部分)使用双向注意力，而对其余部分(生成部分)保持传统的单向自注意力。这种设计结合了 Encoder-Decoder 模型的上下文理解能力和 Decoder-Only 模型的高效生成能力。

视觉模型

ViT

首先将输入图像 $\small[H,W,C]$ 划分成若干 2D 块然后展平得到 $\small[N, (P^2 \times C)]$。以 ViT-B/16 为例，将输入图像 (224, 224) 按固定大小 (16, 16) 划分为 (224/16)^2=196 个块。将每个块 (16, 16, 3) 通过线性映射转换为长度为 16x16x3=768 的向量。实际通过卷积核为 16x16，步长为 16 的卷积层实现。此时输入为 (196, 768)。

在嵌入向量的前端添加一个可学习的类别嵌入，在编码器输出时可作为图像的特征表示。预训练阶段，MLP 分类器将该类别嵌入作为输入(预训练阶段 MLP 只有一个隐藏层，而微调阶段 MLP 只有一个线形层)。为了保留图像的位置信息，引入了可学习的 1D 位置编码，直接叠加在嵌入向量上。最终输入为 (197, 768)。

微调阶段使用更高分辨率的图像，且保持每一个块的尺寸不变。但是输入序列的有效长度变长，导致预训练阶段的位置编码不再匹配，因此使用 2D 插值调整位置编码。

Swin Transformer

Swin Transformer 引入基于卷积神经网络的归纳偏置：

局部性 - 只计算窗口和移动窗口内的注意力，同时跨窗口连接；
层次化 - 通过分层结构，提取不同尺度的特征。

该模型的每一个阶段都采用两层移动窗口的设置。第一层划分窗口的自注意无法捕捉全局的特征信息。因此第二层将窗口进行滑动，这样原本的四个区域就变成了九个区域。且新窗口包含之前窗口的边界，能够建立不同窗口的连接。

为了高效地计算，首先将九个区域调整为四个区域，其中三个区域包含来自不同区域的 patch。当两个来自不同区域的 patch 交互时，在它的位置上增加一个比较大的负值，进行 softmax 时候该位置便会趋于 0。

首先将输入图像划分成不重叠的 patch，每个 patch 的大小为 $4\times 4$，可以使用 $4\times4\times3=48$ 维的向量表示。因此网络的输入特征维度时 $\frac{H}{4}\times \frac{W}{4} \times 48$。

在第一个阶段，首先使用线形嵌入(Linear Embedding)层将每个 patch 的特征维度映射进行映射。然后使用多组连续的 Swin Transformer 模块处理，如上图 (b) 所示。分别使用了基于窗口和移动窗口的多头自注意力机制。在后三个阶段，每个阶段首先使用图像块合并(Patch Merging)层产生分层表示。通过合并相邻的 $2\times2$ patch 使得特征的维度不断发生变化。

Image GPT

首先将输入图像进行下采样，将其转换为 1D 序列；然后进行模型预训练，采用两种预训练方法：

Next pixel prediction 是一种自回归的预训练方法，该方法根据前面的像素值预测下一个像素值(采用光栅顺序)，并最终对图像的概率密度进行整体建模。它训练的目标是最小化负对数似然：

$$ L_{\mathrm{AR}}=\mathbb{E}{x\sim X}[-\log p(x{\pi_i}|x_{\pi_1},x_{\pi_2},\cdots,x_{\pi_{i-1}},\theta)] $$

Masked pixel prediction 首先遮掩输入序列若干位置的值，并对这些值进行预测。它训练的目标是最小化遮掩位置元素的负对数似然：

$$ L_{\mathrm{MASK}}=\mathbb{E}M\sum{i\in M}[-\log p(x_i|x_{[1,n]\setminus M})] $$

通过预训练，模型学习到输入序列的分层特征表示。

微调阶段同时优化 $L_{GEN}+L_{CLF}$，其中 $L_{GEN}$ 代表 AR 或 MASK 损失、$L_{CLF}$ 代表分类损失。该方法也被称为带有 辅助训练目标 的微调(Fine-tuning with auxiliary training objective)。

Credit

循环神经网路

Sat, 11 Jan 2025 00:00:00 GMT

动机

RNN 是一类用来对 序列数据 进行建模的模型。如果使用 MLP 或 CNN 来建模的话，会有如下问题：

固定的输入大小，不适用于变长序列；
无法捕捉长距离 / 时间依赖性；
模型复杂度过高导致的参数爆炸。

语言模型

语言模型基于 马尔可夫假设，即根据词序列中若干个连续的上下文来预测下一个词出现的概率。若上下文长度固定为 2，则称为 2 元语言模型，即用前两个词来预测当前词。

$$ w_i|w_{i-1},w_{i-2}\sim \hat{p}(w_i|w_{i-1},w_{i-2}) $$

该模型使用独热编码来表示词表中的每个词，称为 词向量。若词表为 ['apple', 'banana']，则每个词的词向量表示为：

apple:  [1, 0, 0]
banana: [0, 1, 0]

这种表示虽然简单，但缺点也是显而易见的：

随着 词表(Vocabulary) 增加，单个编码是 高维稀疏 的，不利于计算；
词向量彼此之间正交，无法通过余弦相似度进行距离度量。

在后续的技术中，词向量通过词嵌入模型转换为低维的稠密向量，代表性工作就是 word2vec。

但是语言模型随着上下文长度的增加，也会导致参数爆炸的问题，且时间依赖性建模是固定的上下文长度。

那么如何优化该模型呢？我们可以引入两个归纳偏置：

局部依赖性假设 - 除去当前时刻，将历史时刻的信息都编码到一个 隐状态(Hidden State) 中。

$$ \begin{aligned} p(x_1,\cdots,x_T)&=\prod_{i=1}^{T}p(x_t|x_1,\cdots,x_{t-1}) \ &=\prod_{i=1}^{T}g(s_{t-2},x_{t-1}) \end{aligned} $$

其中 $s_{t-2}$ 就是 $t-1$ 前所有信息的隐状态。

时间平稳性假设 - 特征在任意时刻都是有效的，也就是参数共享。

$$ p(x_{t_1+\tau},\cdots,x_{t_n+\tau})=p(x_{t_1},\cdots,x_{t_n}) $$

可以发现 RNN 跟 CNN 十分相似：

CNN 是空间上的局部性(感受野) / RNN 是时间上的局部性(马尔可夫假设)；

CNN 是空间上的参数共享 / RNN 是时间上的参数共享。

将这两个先验知识强行加给 MLP 就得到了 RNN，即语言模型的参数化建模。

循环神经网络

循环单元

参数共享体现在任意时刻 $W$、$U$、$V$ 都是一样的，且对应 MLP 不同的层的权重；
局部依赖体现在任意时刻的隐状态只依赖前一个时刻的隐状态与当前的输入。

双向循环神经网络

引入两组隐状态 $h^{1}$ 和 $h^{2}$ ，分别表示顺时间和逆时间的状态。Bert 是该类模型 / 双向建模的代表，其好处是信息更完备了。

深度循环神经网络

如果建模隐状态对应的层数超过两层，就称为深度循环神经网络。其中第 $l$ 层的第 $t$ 个时刻的隐状态形式化表示为：

$$ h_t^{l}=\text{tanh}(W_lh_{t-1}^{l}+U_lh_{t}^{l-1}) $$

即来自上一层相同时刻的隐状态以及当前层上一个时刻的隐状态的融合。

RNN 用于语言模型

隐状态的计算公式为：

$$ h_t=\text{tanh}(Wh_{t-1}+Ux_{t}) $$

使用 RNN 来建模语言模型的好处和坏处如下：

理论上可以建模长时间依赖，实际上隐状态信息会随着时间逐渐更新，导致历史信息被遗忘了；
RNN 会将历史状态的信息压缩到固定大小的隐状态中；
参数会因为权重共享机制的存在不会爆炸。

循环神经网络架构

自回归模型

自回归(Auto-regressive) 模型指的是根据之前的令牌来预测下一个令牌。形式化表示为：

$$ \begin{aligned} p(y_1,\cdots,y_{T})&=\prod_{t=1}^{T}p(y_t|y_1,\cdots,y_{t-2},y_{t-1}) \ &=\prod_{t=1}^{T}g(s_{t-2},y_{t-1}) \end{aligned} $$

注意该模型也将历史信息编码为隐状态。在训练时，模型通常使用真实的目标序列作为输入；而在推理时，它使用自己生成的输出作为下一步的输入。这种训练和推理的失配可能导致模型在推理时表现不佳，因为它未曾见过只依赖于自身生成的输入的情境。

Scheduled Sampling 通过在训练中逐步引入模型自身生成的输出，来减轻这种失配。具体来说，它是一种混合策略，在训练过程中根据一个预设的概率选择输入：

教师强制 - 以高概率(例如 0.9)使用真实的目标序列；
模型生成 - 以低概率(例如 0.1)使用模型生成的输出作为输入。

随着训练的进行，教师强制的概率逐渐降低，而模型生成的概率逐渐增高。

序列到序列模型

序列到序列(Sequence to Sequence) 模型可以看作 给定输入序列，去生成输出序列的联合概率分布。它是 编码器-解码器(Encoder-Decoder) 架构的，编码器负责将输入文本压缩成固定长度的上下文向量，并且期望这个上下文向量能很好的概括输入信息。解码器负责通过这个上下文向量得到输出文本。其中编码器、解码器可以是任意的神经网络架构。

我将该过程看作瓶颈层的计算过程，首先将特征进行压缩方便特征提取，然后再将特征 "还原”。注意力机制通过关注输入的特定部分来提取需要的特征。

形式化表达为：

$$ \begin{aligned} p(y_1,\cdots,y_{T^{\prime}}|x_1,\cdots,x_T)&=\prod_{t=1}^{T^{\prime}}p(y_t|c,y_1,\cdots,y_{t-1}) \ &= \prod_{t=1}^{T^{\prime}}g(y_t|c,s_{t-2},y_{t-1}) \end{aligned} $$

其中 $c$ 是单一的上下文向量、$y_{t-1}$ 是 $t-1$ 时刻的输出作为当前时刻 $t$ 的输入、$s_{t-2}$ 是历史时刻的隐状态。

该模型的缺点也十分明显：

将长序列压缩到一个上下文向量必然会导致信息损失；
长序列在梯度回传的时候会导致梯度消失；
在自然语言任务中，输入与输出序列可能是偏序关系，无法使用 RNN 建模;
传统序列到序列模型仅依赖最后一个编码器状态，会造成信息瓶颈。

束搜索

自回归模型和序列到序列模型都会有一个问题，就是当我们得到了词表中的概率分布之后如何进行采样？若是沿用分类任务中的贪心思想，取条件概率最大的作为当前的输出，并不能保证得到联合概率最大的最优输出序列。

一个自然的做法就是在第一个时刻，选取条件概率最大的 $k$ 个令牌作为候选输出序列的第一个令牌，然后在接下来的每个时刻，继续选择组合中条件概率最大的 $k$ 个，直到组合结果达到序列长度。

展开来说就是将 <bos> 作为 decoder 第一个时刻的输入，然后选取词表中概率最大的两个令牌 A、C。然后将 A、C 作为 decoder 第二个时刻的输入，分别得到概率最大的 B、E 令牌。依此类推得到最终序列。

时间反向传播

最下方的公式计算任意时刻对 $U$ 的偏导数，例如第四个时刻 $L_4$ 对第一个时刻 $U$ 的偏导数。我们可以发现只有 $h_t$ 对 $h_s$ 不是直接依赖关系，需要通过链式法则得到 Jocobian 矩阵的乘积：

$$ \begin{aligned} \frac{\partial h_t}{\partial h_s}&=\frac{\partial h_t}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial h_{t-2}}\cdots \frac{\partial h_{s+1}}{\partial h_s}\ &=\prod_{k=s+1}^{t}W^{\text{T}}\text{diag}\left[f^{\prime}(Wh_{k-1})\right] \end{aligned} $$

若只考虑相邻时刻的偏导数，通过柯西不等式得到：

$$ \begin{aligned} \Vert \frac{\partial h_t}{\partial h_{t-1}}\Vert &\leq \Vert\overbrace{ \frac{\partial h_t}{\partial h_{t-1}} \frac{\partial h_{t-1}}{\partial h_{t-2}} \cdots \frac{\partial h_{s+1}}{\partial h_s} }^{\text{长期依赖}}\Vert\ &\leq \Vert W^{\text{T}}\Vert \Vert \text{diag}\left[f^{\prime}(Wh_{t-1})\right]\Vert \ &\leq \sigma_{\text{max}}\gamma \end{aligned} $$

$\sigma_{\text{max}}$ 表示权重矩阵 $W^{\text{T}}$ 中最大的特征值(特征值分解)；
$\gamma$ 表示 $\Vert \text{diag}\left[f^{\prime}(Wh_{t-1})\right]\Vert$ 的上界，依赖于激活函数 $f$ 偏导数的上界。例如 $|\text{tanh}^{\prime}(x)| \leq 1$。

若考虑所有时刻，则可以得到：

$$ \begin{aligned} \Vert\frac{\partial h_t}{\partial h_s} \Vert &\leq \Vert \prod_{k=s+1}^{t} W^{\text{T}}\text{diag}\left[f^{\prime}(Wh_{k-1})\right]\Vert \ &\leq (\sigma_{\text{max}}\gamma)^{t-s} \end{aligned} $$

通过这个公式我们可以发现，当 $(t-s)$ 越来越大，整个结果会因为 $\sigma_{\text{max}}\gamma$ 大于(小于) 1 从而引发梯度爆炸(消失)问题。原因就是在时间上的参数共享机制(共享参数 $W$)会导致连乘的发生。

一个很自然的解决办法就是将 $(t-s)$ 分成均匀的长度，然后在每个长度内进行参数更新，这会带来真实梯度的近似，也就是 截断时间反向传播(Truncated BPTT) 的思想。

梯度消失

长短期记忆单元(LSTM)

形式化表示为：

$$ \text{C}_t= \text{F}t \odot \text{C}{t-1} + \text{I}_t \odot \tilde{\text{C}}_t \ \text{H}_t= \text{O}_t \odot \text{tanh}(\text{C}_t) $$

通过上述公式可以发现遗忘门 $\text{F}t$ 控制了前一时刻的记忆单元状态 $\text{C}{t-1}$ 在当前状态 $\text{C}_t$ 中的保留程度，若 $\text{F}_t$ 接近 1，则保留大部分信息，梯度也能顺利传播。输入门 $\text{I}_t$ 和候选单元 $\tilde{\text{C}}_t$ 共同决定了新信息的流入。

我们来展开记忆单元的计算公式：

$$ \begin{aligned} \text{C}t&=\text{F}t\odot \text{C}{t-1}+ \text{I}t \odot\tilde{\text{C}}t \ &= \text{F}t\odot \text{F}{t-1} \odot \text{C}{t-2} + \text{F}t \odot \text{I}{t-1} \odot \tilde{\text{C}}{t-1}+\text{I}t \odot\tilde{\text{C}}t \ &= \sum{\tau=0}^{t}(\underbrace{\text{F}t\odot \cdots \odot \text{F}{\tau+1}}{\text{遗忘门连续点乘}} )\odot \text{I}{\tau} \odot \tilde{\text{C}}_{\tau} \end{aligned} $$

通过上述公式可以发现记忆单元依赖于多个时刻的遗忘门，也是通过该设计来确保该模型能够在长时间序列中保留重要的信息，使得梯度可以在时间戳之间流动，避免了梯度消失问题。

门控循环单元(GRU)

形式化表示为：

$$ \text{H}_t=\text{Z}t\odot \text{H}{t-1}+(1-\text{Z}_t)\odot\tilde{\text{H}}_t $$

重置门用来捕捉序列中的短期依赖关系，更新门用来捕捉序列中的长期依赖关系。

门控循环单元是长短期记忆单元的简化版本，它将遗忘门和输入门整合成了更新门，将输出门替换为重置门。在实际效果中，它能保持和长短期记忆单元相似的精度，但是训练和推理速度更快。

梯度爆炸

梯度裁剪

梯度裁剪(Gradient Clipping) 指的是当梯度超过某一个阈值的时候，就对它进行归一化操作。

$$ \hat{\bold{g}} \leftarrow \frac{\text{threshold}}{\Vert\bold{\hat{g}} \Vert}\hat{\bold{g}} $$

实践中在计算梯度之后进行裁剪：

...
loss.backward()
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

丢弃法

如果将传统 Dropout 应用到 RNN 中会导致如下问题：

参数共享 - 在每个时刻独立应用 Dropout，会导致权重不一样，破坏了时序一致性；
梯度噪声累计 - 随机的 Dropout 可能在时间维度上引入噪声累计，导致训练不稳定。

正确的做法是在序列处理前采样一次 Mask，然后所有时间戳上使用相同的 Mask，即舍弃相同的神经元。

层归一化

层归一化(Layer Normalization) 是沿着隐状态通道维度进行归一化操作，形式化地表示为：

$$ \hat{z}_{t}=\frac{z_t-\mu_t}{\sqrt{\sigma_t^2+\epsilon}}\odot \gamma + \beta $$

其中 $\mu_t$ 和 $\sigma_t$ 是时刻 $t$ 单个特征通道的均值和方差，缩放参数 $\gamma$ 和偏移参数 $\beta$ 在所有时刻都是共享的。

注意力机制的 RNN

从脑科学的角度出发，注意力指的是大脑的一种功能，负责分配认知处理资源，以便集中注意力于特定的信息或刺激上。深度学习中的注意力只实现了选择式注意力，即 将注意力根据任务的相关性动态地分配到输入中的不同部分 以得到更好的性能。

在循环神经网络中，注意力机制使得 decoder 的每一个状态都能够看见 encoder 的全局输入信息，从而引导模型算出输入中每一个令牌对当前状态的相关性，也就将注意力分配到了输入中的不同部分。这里需要注意的是每一个时刻状态分配的注意力是不一样的(动态分配)。

那么如何计算呢？一个自然的想法就是通过一个简单的神经网络算出来，形式化地表示为：

$$ \begin{aligned} e_{ij}&=\alpha{(s_{i-1},x_j)} \ &=v_{\alpha}^{\text{T}}\text{tanh}(W_{\alpha}s_{i-1}+U_{\alpha}h_j) \end{aligned} $$

其中 $s_{i-1}$ 表示当前时刻之前的历史时刻的隐状态、$x_j$ 表示输入序列中第 $j$ 个令牌，$e_{ij}$ 对于第 $i$ 个状态而言，输入序列的第 $j$ 个令牌有没有贡献。

我们至下而上地理解上图中的公式，首先使用双向 RNN 作为 encoder 来对 $x_j$ 进行增强得到 $h_j$；然后计算相关性 $e_{ij}$，通过 softmax 函数进行相关性分配得到 $\alpha_{ij}$；将分配比率与增强信息进行汇总得到上下文向量 $c_i$，然后传入到 decoder 中的 RNN 进行下一个状态 $s_i$ 的计算。

上下文向量可以看作输入序列中的哪些部分对我当前状态来说是有用的。与序列到序列模型中的单一向量不同，注意力机制使得每个状态对应的上下文向量都不一样。

注意力机制克服了梯度消失的问题，并且特别适合长序列任务。我们可以通过 对齐矩阵(Alignment Matrix) 查看输入序列与输出序列元素之间的相关性。

Google’s NMT System

Google 神经机器翻译系统是之前所学知识的集大成者，利用了残差连接、双向循环神经网络(序列到序列模型)、注意力机制、逐层的分布式训练。

记忆力增强的 RNN

记忆增强的 RNN 通过引入 外部可读写记忆模块，扩展传统 RNN 的记忆容量，解决它在处理长序列时的梯度消失和有限状态容量的问题。核心目标是通过动态存储和检索关键信息，增强模型对长期依赖的捕捉能力。

神经图灵机(NTM)

Neural Turing Machine(NTM) 是一种结合神经网络与图灵机概念的架构，通过引入可微分的注意力机制实现对外部记忆的读写操作。它的核心目标是赋予神经网络显式的记忆存储能力，使其能够像图灵机一样通过读写头(Read/Write Heads)与外部记忆交互，从而解决复杂序列任务。

它主要包含以下组件：

控制器(Controller) - 通常为 LSTM 或 MLP，负责生成读写操作的参数；
外部记忆矩阵(Memory) - $M_t \in \mathbb{R}^{N\times D}$，其中 $N$ 是记忆槽数量，$D$ 是每个记忆向量的维度；
读写头(Read/Write Head) - 通过注意力权重 $w_t\in \mathbb{R}^{N}$ 访问记忆，支持内容寻址和位置寻址。

读操作 - 控制器生成查询向量 $k_t \in \mathbb{R}^D$ 和强度因子 $\beta_t \in \mathbb{R}^{+}$。然后将查询向量与外部记忆矩阵计算内容相似度(余弦相似度)，并生成内容寻址权重：

$$ w_t=\frac{\exp (\beta_t K[k_t, M_t(i)])}{\sum_{j}\exp(\beta_tK[k_t, M_t(j)])} $$

将内容寻址权重与外部记忆融合生成读取出来的向量：

$$ r_t \leftarrow \sum_{i}^R w_t(i)M_t(i) $$

写操作 - 控制器生成擦除向量 $e_t\in [0,1]^{D}$ 和添加向量 $a_t\in \mathbb{R}^D$。然后对外部记忆进行擦除和添加：

$$ \tilde{M}t(i) \leftarrow M{t-1}(i)\odot[1-w_t(i)e_t] \quad M_t(i) \leftarrow \tilde{M}_{t-1}(i)w_t(i)a_t $$

可微分神经计算机(DNC)

状态空间的 RNN

状态空间模型(State Space Model) 与 RNN 结合旨在 通过线性系统理论建模长程依赖关系，同时保留 RNN 的序列处理能力。它的核心目标是通过状态方程描述隐状态的动态变化，捕捉序列的全局依赖关系。

状态空间模型(SSM)

为适配 RNN 的离散时间步，需要将连续方程离散化。使用 零阶保持(ZOH) 的方法经过一系列计算之后：

$$ \begin{aligned} \bar{A}&=\exp(\Delta_tA_t) \ \bar{B}&=(\Delta_tA_t)^{-1}(\exp(\Delta_tA_t)-I)\cdot \Delta_tB_t \end{aligned} $$

在线形时不变(LTI)系统的前提下，离散模型在采样时刻与连续系统具有完全相同的输入-输出行为。

Mamba

Mamba 是一种 动态选择性状态空间模型，通过输入相关的状态转移机制解决传统 SSM 的静态参数限制。

传统 SSM 的参数 $A$、$B$、$C$、$\Delta$ 是静态的，而 Mamba 将它们变为输入的函数：

$$ A_t=\text{Linear}_A(x_t) \quad B_t=\text{Linear}B(x_t) \quad \Delta_t=\text{SoftPlus}(\text{Linear}\Delta(x_t)) $$

当 $A$ 为对角矩阵的时候，连续方程的离散化简化为：

$$ \begin{aligned} \bar{A}&=\exp(\Delta_t\cdot \text{diag}(A_t)) \ \bar{B}&=\Delta_tB_t\odot \frac{\exp{(\Delta_tA_t)}-1}{\Delta_tA_t} \end{aligned} $$

动态参数导致模型失去卷积并行性，Mamba 将循环计算 $h_t=\bar{A}h_{t-1}+\bar{B}x_t$ 转换为并行的类前缀和操作。将离散化、扫描、投影等步骤融合成单个 CUDA 内核，减少内存读写操作。将隐状态分块存储于SRAM/寄存器，避免全局内存访问瓶颈。

Credit

束搜索 / 动手学深度学习

优化算法

Fri, 10 Jan 2025 00:00:00 GMT

定义

优化算法的通项公式：

$$ \underset{\theta}{\arg\min}\mathcal{R}(\mathcal{D};\theta)=\sum_{i=1}^n\mathcal{L}(y_i, f(x_i; \theta))+\Omega(\theta) $$

其目标是找到一个参数 $\theta$ 使得结构风险 $\mathcal{R}$ 最小，形式化表达为：

$$ \theta^{(t+1)} \leftarrow \theta^{(t)} - \eta \Delta^{(t)} \underbrace{\left[ \nabla_{\theta}\mathcal{R}\left( \mathcal{D}; \theta^{(t)} \right) \right]}_{\text{gradient}} $$

其中 $\Delta$ 是一个更新量，表示梯度的函数。

神经网络设计的基本思想就是通过在高维空间中找到一个相对平缓的梯形图(Landscape)使得在一个较好初始点的情况下能够通过优化算法找到全局最小值。

一阶优化方法

梯度(Gradient)

通过一阶泰勒展开去近似

一阶方法的不足

高维空间中鞍点较多，仅使用梯度一个信号可能无法达到极小值；

二阶优化方法

二阶优化方法指的是利用目标函数的二阶导数信息来进行参数更新的优化算法，其使用二阶泰勒展开来近似局部目标函数：

$$ \hat{\mathcal{R}}(\theta) = \mathcal{R}(\theta^t) + \textcolor{red}{\nabla_{\theta}} \mathcal{R}(\theta^t)(\theta - \theta^t) + \frac{1}{2} (\theta - \theta^t)^T \textcolor{blue}{H} (\theta - \theta^t) $$

海森(Hessian)矩阵

海森矩阵刻画了梯形图的曲率特征，确保了优化的稳定性。其元素为：

$$ H_{ij}=\frac{\partial}{\partial\theta_j}g_i $$

将其进行特征值分解可以得到：

$$ H=Q\Lambda Q^{T}, \hspace{0.2cm} H^{-1}=Q\Lambda^{-1}Q^{T} $$

其中 $\Lambda$ 为对角矩阵，其对角元素为矩阵 $H$ 的特征值。若特征值全大于 0，则矩阵 $H$ 为正定矩阵，则目标函数在局部存在唯一最小值。若特征值有正有负，则存在鞍点。

牛顿法

将二阶泰勒展开进行求导并取 0 可得到当前 局部区域 的最优参数 $\theta^*$：

$$ \nabla_{\theta}\hat{\mathcal{R}}(\theta^{})=\nabla_\theta\mathcal{R}(\theta^{t})+\textcolor{blue}{H}(\theta^{}-\theta^{t})=0 $$

然后进行参数更新：

$$ \theta^{t+1}=\theta^{t}-\textcolor{blue}{H^{-1}}\nabla_{\theta}\mathcal{R}(\theta^{t}) $$

因为求的是局部最优参数，所以还是需要迭代更新来获得使得全局目标函数最小的参数。

该方法的收敛速度快于梯度下降，但是计算 $H^{-1}$ 需要 $O(d^2)$ 的时间以及 $O(d^3)$ 的空间， $d$ 是参数的维度。

BFGS

该方法是一种拟牛顿法， $H^{-1}$ 避免高效开销。

给定一个初始点 $x^{0} \in \mathcal{X}$ 以及单位阵 $H_0=I$，步骤为：

计算二阶牛顿的梯度方向 - $\Delta^t=-H_{t-1}\nabla f(x^{t-1})$；
更新初始点 - $$x^t = x^{t-1}+\eta^{t}\Delta^t$$；
计算近似值 - $H_t=H_{t-1}+\frac{zz^T}{z^Tv}-\frac{H_{t-1}vv^TH_{t-1}}{v^{T}H^{t-1}v}$

其中 $v=x^t-x^{t-1}$，$z=\nabla f(x^t) - \nabla f(x^{t-1})$。

随机方法

自适应方法

非凸优化

卷积神经网络

Thu, 09 Jan 2025 00:00:00 GMT

动机

卷积神经网络源于对生物视觉系统的模拟，即不同的视细胞能够看到的视野不一样，通过叠加视野来形成最终的视觉图像。相较于 MLP 处理图像的高参数量、空间信息损失来说，卷积神经网络在保留空间架构的同时，实现了效率和准确度的协同提升。

CNN 中归纳偏置主要体现在以下方面：

平移不变形 - 物体特征（局部区域）的识别不会因为位置的改变而发生变化；
空间上的权重共享 - 不同位置使用的是同一个卷积核，平等对待每一块局部区域；
局部连接 - 局部区域已经足够进行物体识别，因此后一层神经元仅于前一层的特定区域的神经元相连。

卷积层

卷积的数学本质是空间位置滑动的内积。

2D 卷积 / 互相关

$$ \begin{aligned} S(w,h,d)&=(I\star K)(w,h,d) \ &=\sum_{k=1}^{c}\sum_{i=1}^{k}\sum_{j=1}^{k}I(w+i,h+j,k)K(i,j,k) \end{aligned} $$

$I$ 表示从原始图像上提取的局部区域；
$K$ 表示卷积核，维度与输入图像一致；
$d$ 表示 输出特征维度 / 卷积核个数。

输入特征维度为 $(w,h,c)$、卷积核维度为 $(k,k,c,d)$。则输出特征维度为 $(w-k+1,w-k+1,d)$。参数量为 $(k^2c+1)\cdot d$。

通过公式可以看出 卷积神经网络在空间维度上是局部连接的，但是在通道维度上是全连接的。

感受野

感受野(Receptive field) 指的是输出特征上的一个元素在输入特征上映射的区域大小。随着层数的叠加，感受野也会逐渐变大，直到看完整个输入图像(深层特征中的单个元素会对应原始图像中更大的区域)。

填充和步长

填充(Padding) - 对输入特征采用 0 填充、控制输出特征空间尺寸；
步长(Stride) - 调节特征的下采样速度 / 特征提取精度。

如果加上步长和卷积，此时输出特征空间维度为 $\lfloor (w-k+2p)/s \rfloor + 1$。

FLOPs 计算过程

标准卷积层计算公式：

$$ \text{FLOPs}=k^{2}\times w_{2}\times h_{2} \times c \times d $$
全连接层计算公式： $$ \text{FLOPs}=2\times n\times m $$

$n$ 和 $m$ 表示输入特征维度和输出特征维度，$h_2$ 和 $w_2$ 表示输出特征的空间维度。最后将每层的结果相加就得到最终的 FLOPs。

CAM 可视化技术

Class Activation Mapping 通过生成热力图，来表明输入图像中与预测类别最相关的区域。最后一层卷积层 + 全局平均池化层 + MLP 层保证了 每个通道的特征映射对最终分类的结果都有直接贡献。

具体步骤为：

对于输入的一张图像，经过卷积层和全局平均池化层之后，得到每个通道的特征向量；
全连接层的权重 $W$ 表示每个通道对各个类别的贡献程度。通过将这些权重与对应的特征向量加权求和，可以得到一个与输入图像尺寸相同的二维激活图；
将这个激活图进行上采样和归一化，叠加到原始图像上，形成热力图，显示出模型关注的区域。

还有一种不依赖于特定网络结构、基于梯度信息的 Grad-CAM 改进方案。

池化层

最大 / 平均池化

池化(Pooling) 操作也是基于窗口扫描，与卷积操作不同的地方在于它是取窗口内的最大值 / 平均值。

池化层一般会减小特征的空间维度，但不会减少通道维度；
池化层的使用能够减少参数量，避免过拟合的风险。但会丢失空间信息；
由于池化层对空间信息的过渡压缩，后续基于 CNN 的模型都很少使用该技术了。

空间金字塔池化

空间金字塔池化(Spatial Pyramid Pooling) 指对输入特征在不同尺度进行池化操作，然后将这些不同尺度的特征拼接在一起，以捕获多尺度的信息。避免 单一尺度导致的信息损失。

这里需要注意一点的是经过池化操作得到的特征向量是在 通道维度 进行拼接。

全局平均池化

全局平均池化(Global Average Pooling) 将每个特征的 空间维度 压缩为单一的数值 / 平均化，然后将这些数值连接起来。这样就将 高维的特征转换成了低维的特征向量。维度变化为 $(w,h,c) \rightarrow (1,1,c)$。

全局平均池化有如下优点 / 缺点：

大幅减少参数数量、在不依赖位置空间的前提下捕捉全局特征；
通过平均压缩了空间信息，不适用于利用空间位置的分割、检测等任务。

分层表示学习

在 CNN 中，我们通过堆叠多个卷积层和池化层来逐渐提取图像的高级特征，实现 层次化的特征学习 。浅层提取到的是图像的低级特征，如边缘、纹理等，而深层提取到的是图像的高级特征，如物体的形状、结构等。

卷积种类

1x1 卷积

1x1 卷积指卷积核大小为 1。与传统卷积不同的是，它仅在通道维度上进行操作，不改变特征的空间尺寸。且能显著降低参数量，并且通过跨通道融合信息、引入更多的非线形性；

瓶颈层(Bottleneck Layer) - $1\times1 \rightarrow 3\times 3 \rightarrow 1\times 1$ 设计，即降维 -> 提取特征 -> 恢复维度 / 升维。

组卷积

组卷积(Group Convolution) 最先是由 AlexNet 提出的，主要思想是将输入特征沿 通道维度 分成多个组，然后对每个组执行标准卷积操作，最后将结果合并。通过组卷积，网络可以处理具有更多通道数的特征，这为小型网络提供更多特征提取的机会。

转置卷积 / 反卷积

转置卷积 / 反卷积(Transpose Convolution) 主要用于 上采样(Upsampling) 操作，即将特征的空间尺寸扩大。对于需要恢复图像细节或扩大特征的尺寸的任务来说非常重要 / U-Net。

它的操作步骤可以表示为：

插值步骤 - 在输入特征的元素之间通过网络自主学习如何填充 0，扩大特征尺寸；
卷积步骤 - 在插值的结果上运用标准卷积操作。

空洞卷积

空洞卷积(Dilated Convolution) 通过引入 Dilation Rate 使得 同样大小的卷积核能够获得更大的感受野，避免下采样带来的空间信息损失。当扩张率为 1 时，退化为标准卷积；当扩张率为 4 时，表示 在卷积核中间 插入三个 0。

深度可分离卷积

深度可分离卷积(Depthwise Separable Convolution) 是一种高效的卷积操作，他是分组卷积的一种特殊形式(分组数等于通道数 / 每个组只有一个特征)。它通过 分解标准卷积 操作大幅减少参数量，由两个部分组成：

深度卷积(Depthwise convolution) - 使用多组不同的卷积核对输入特征进行标准卷积操作；
逐点卷积(Pointwise convolution) - 使用 $1\times 1$ 卷积对深度卷积的输出特征的每个位置进行卷积。

标准卷积计算量：

$$ k\times k \times c \times d \times w_2 \times h_2 $$

深度可分离卷积计算量：

$$ k \times k \times d \times w_2 \times h_2 + d\times n \times w_2 \times h_2 $$

如何理解这个公式呢？深度卷积的通道数为 1，所以上方公式左侧 $c=1$；逐点卷积卷积核大小为 1，所以上方公式右侧 $k=1$ 。

可变形卷积

可变形卷积(Deformable Convolution) 是指在卷积核所处理的每一个输入位置上增加了一个方向向量，等价于卷积核变为任意形状，从而在训练过程中扩大感受野，适应输入图像的未知变化。

形式化的表示为在位置信息上加入了可学习偏移项：

$$ y(p_0)=\sum_{p_n\in\mathcal{R}}w(p_n)\cdot x(p_0+p_n+\Delta p_n) $$

而输入特征 $x(p)$ 则是通过双线形插值得到。

实用训练技巧

批归一化 / 组归一化

批归一化通过减去均值除以方差引入先验 / 逐通道，假设 各个通道表示的特征一样重要。又因为过度归一化而引入两个可学习参数，但会导致数据分布发生细微偏移。形式化表示为：

$$ \hat{z}^{(l)}=\frac{z^{(l)}-\text{E}[x]}{\sqrt{\text{Var}[x]+\epsilon}}\odot\gamma + \beta $$

其中 $z^{(l)}$ 表示第 $l$ 层的净输入、$\gamma$ 表示缩放参数、$\beta$ 表示偏移参数。

训练阶段

使用当前小批次 $(b,w,h)$ 的均值和方差进行归一化，通道的每一维都有独立的 $\gamma$ 和 $\beta$；
计算并更新每一层的 移动平均(EMA) 均值和方差，以便在推理的时候使用。

推理阶段

使用在训练阶段得到的移动平均进行归一化。

移动平均

我们直接看动手学深度学习 / 批量规范化的代码：

import torch
from torch import nn
from d2l import torch as d2l


def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
    if not torch.is_grad_enabled():
        # 预测模式下，直接使用传入的移动平均所得的均值和方差
        X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
    else:
        mean = X.mean(dim=(0, 2, 3), keepdim=True)
        var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)
        # 训练模式下，用当前的均值和方差做标准化
        X_hat = (X - mean) / torch.sqrt(var + eps)
        # 更新移动平均的均值和方差
        moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
        moving_var = momentum * moving_var + (1.0 - momentum) * var
    Y = gamma * X_hat + beta  # 缩放和移位
    return Y, moving_mean.data, moving_var.data

虽然主流卷积神经网络依赖这一项技术，但是如果将使用了 BN 的预训练模型适配到新的数据集上的时候，BN 会因为数据分布的不同而导致训练不稳定。解决办法有：

动态更新批归一化层的均值和方差；
使用 层归一化 或 实例归一化 等不依赖统计量的技术。

组归一化 解决了批归一化因批量太小而导致估计不准确的问题，它通过将通道维度分离成 G 个组，每组独立进行归一化操作。

数据增强

复杂数据增强库：https://github.com/albumentations-team/albumentations

经典的数据增强技术包括：

Color / PAC / Scale Jittering
Random Scale / Crop
Horizontal / Vertical Flip
Shift / Rotation / Reflection
Label Shuffle
Noise

高级的数据增强技术包括：

Mixup - 对两条训练样本进行线形插值来生成新的样本
CutMix - 将一张图片的切割部分混合到另外一张图片上
AutoAugment - 搜索最佳的数据增强策略组合

经典卷积架构

Recipe is all you need：

TorchVision

Timm

VGG

VGG 采用了连续的 $3\times 3$ 小尺寸卷积核，通过层叠多个类似卷积层来提升网络的深度。它的特点包括：

小尺寸卷积核 - 更少的参数量达到与大尺寸卷积核相同的有效感受野；
层叠效应 - 两个 $3\times 3$ 的卷积层的有效感受野相当于 $5\times 5$ 的卷积层，三个相当于 $7\times 7$ 的卷积层。

Inception Series

Incption 系列采用了一种贪婪的做法，通过不同大小的卷积核提取不同空间信息(必要的时候进行填充)，最后将输出在通道维度上拼接起来。

该网络主要由 Inception 模块 组成，后续的版本迭代也是基于基础模块进行设计改良：采用小卷积核、批归一化等

ResNet / ResNeXt

ResNet 通过引入 残差学习 解决了深度网络训练难的问题，成功训练了超过 100 层的网络。指的是在网络中引入 "残差连接" 使得输入与通过若干层的输出相加，这样做的好处是：

缓解了梯度消失问题，梯度能够根据连接传递到浅层网络；
能够很好的学习输入的恒等映射、保留原始特征。

该网络主要由 残差模块 组成，其中每个模块瓶颈层。包含 5 个阶段：

ResNext 在残差模块的基础上添加了多条并行路线 / 扩大宽度，类似 Inception 模块，相较于 ResNet 有更好的 FLOPs / Accuracy 权衡。

DenseNet

DenseNet 在 ResNet 的基础上进一步提高了特征的重用性，相较于 "残差连接" 的相加，该网络使用 "密集连结" 操作来对输入进行拓展，使得每一层都与前面所有层相连接。这样做的好处是：

使得每一层的特征都能够被充分利用；
促进了梯度的流动，缓解了梯度消失问题。

该网络主要由 Dense 模块 和 Transition 层 组成，其中前者通过增长率定义输出与输入之间通道数的关系，后者通过卷积和池化控制输出特征的通道数量和尺寸。

ConvNeXt

[强推] 论文地址：A ConvNet for the 2020s

ConvNeXt 从 ResNet-50/200 出发，逐步 "现代化" 它的设计，使得它的性能能够接近基于 Transofmer 的视觉模型。

上述架构为 ConvNext-B。作者还设计了其他参数量的模型 ConvNext-S、ConvNext-L 等。

模型的压缩和量化

量化(Quantization) - 权重量化和激活量化。目的都是将浮点数转换为整数，只是量化的对象不同。

剪枝(Pruning) - 结构化剪枝和非结构化剪枝，区别在于前者剪的是权重连接，后者剪的是整个结构单元。

知识蒸馏(Knowledge Distillation) - 教师-学生模型，学生模型教师的输出(软标签)来获得类似的表现。

The Lottery Ticket Hypothesis

动机 - 网络剪枝虽可以大幅减少参数量，但剪枝后得到的子网络很难从头开始训练。

彩票假设提出，在一个随机初始化的密集网络中存在一个稀疏子网络("中奖彩票")，可以通过适当的剪枝来达到与原始网络相似甚至更好的性能。关键在于网络的初始化。具体的实现步骤为：

训练原始网络至收敛；
移除低权重幅值的连接(剪枝)；
重置剩余权重至初始值，重新训练。

通过迭代式的剪枝和重新训练，直至网络收敛。

轻量级卷积架构

在同等精度下，轻量级网络具有以下优势：

更有效的分布式训练 - 参数量越小，服务器之间的通信开销越少，分布式训练的可扩展性越好；
将新模型导出到客户端的开销更少 - 一些公司会使用 架空更新(over-the-air update)，即定期将新模型更新到产品中。网络更新需要大量的数据传输；
可以部署到 FPGA 和嵌入式设备上 - FPGA 的内存通常少于 10MB，小模型不会受到带宽限制。

SqueezeNet

SqueezeNet 在参数量减少了 50 倍，模型尺寸减少了 510 倍的情况下，达到了与 AlexNet 的同等精度。

该网络主要由 Fire 模块 组成，分成两个部分：

Squeeze - 使用 $1\times 1$ 的卷积核进行特征压缩，减少通道数；
Expand - 使用 $1\times 1$ 和 $3\times 3$ 的卷积核分别进行特征扩展，恢复部分特征信息。

SENet

SENet 通过 通道注意力机制 对特征通道间的相关性进行建模，包括 Squeeze 过程 和 Excitation 过程：

Squeeze 过程对输入特征沿着通道维度进行全局平均池化，用于提取特征的一阶统计量；
Excitation 过程通过两层 MLP 计算通道之间的相关性分数，并且引入了 $r$ 倍降采样。

最后沿着输入特征的通道维度乘以相关性分数得到最终的输出特征。该模块可以 即插即用到任意卷积神经网络 中。

通道注意力机制的 Pytorch 实现代码如下：

import torch.nn as nn

class SELayer(nn.Module):
    def __init__(self, channel, reduction=16):
        super(SELayer, self).__init__()
        self.avgpool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channel, channel//reduction,bias=False),
            nn.ReLU(inplace=True),
            nn.Linear(channel//reduction,channel, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x):
        batch_size, channels, height, width = x.size()
        y = self.avgpool(x).view(batch_size, channels)
        y = self.fc(y).view(batch_size, channels, 1, 1)
        return x * y.expand_as(x)

ShuffleNet

ShuffleNet 通过组卷积和 通道打乱机制 建立不同组之间的信息沟通，解决了每个组的输出只与组内的特征有关导致的表征问题。

Channel Shuffle 的 Pytorch 实现代码：

class ChannelShuffle(nn.Module):
    def __init__(self, groups=3):
        super(ChannelShuffle, self).__init__()
        self.groups = groups

    def forward(self, x):
        batch_size, channels, height, width = x.size()
        assert channels % self.groups == 0
        group_channels = channels // self.groups
        x = x.view(batch_size, self.groups, group_channels, height, width)
        x = x.permute(0, 2, 1, 3, 4).contiguous()
        x = x.view(batch_size, channels, height, width)

        return x

MobileNet Series

MobileNet v1

该网络使用深度可分离卷积代替普通卷积，在准确率轻微下降的情况下极大地减少了模型的参数量和计算量，从而使得模型可以部署在移动端。并且模型的大部分参数来源于逐点卷积。

MobileNet v2

作者认为深度卷积部分的卷积核训练后容易变得稀疏(大部分值为 0)是由于映射到低维空间的特征经过 ReLU 后会损失较多信息。而每一个模块的输入都是上一个模块应用 ReLU 之后的结果，因此深度可分离模块会导致信息损失。

一个很自然的想法就是取消模块最后的激活函数并且通过增加输入特征的通道数来增加信息量。

Linear bottleneck - 去除模块最后的逐点卷积处的 ReLU 激活函数，相当于应用线性激活；
Inverted residual block - 在深度卷积之前添加逐点卷积增加输入特征的通道数。

残差模块和倒置残差模块的区别在于前者先降维后升维度，后者先升维后降维。

轻量化卷积算子汇总

上图描述了各类卷积算子对输入特征在空间维度和通道维度的影响，以及对应的复杂度分析。

高级卷积架构

Spatial Transformer Network

Spatial Transformer Networks(STN) 是一种可以动态学习空间变换的模块，能够自动对输入数据进行几何变换从而提高模型在处理空间维度不变性的任务的表现。

主要由三个部分组成：

定位网络(Localization Network) - 接受输入图像并输出变换参数；
网格生成器(Grid Generator) - 接受变换参数输出网格坐标，表示输出图像相较于输入的位置；
采样器(Sampler) - 使用网格从输入图像上提取像素值。

Non-local Neural Network

传统卷积神经网络虽然能够有效地提取局部区域的特征，但它在捕捉远距离像素或不同区域之间的关系时显得力不从心。该网络通过引入全局的相似性度量来捕捉长距离依赖关系，它的基本思想是对所有特征的每个位置进行加权聚合。但很明显这种对每一帧的像素之间建模以及对若干帧不同像素之间的建模的复杂度是非常高的，后续基于 Transofmer 的工作都是利用 patch 计算相似度。

EfficientNet

Credit

多层感知机

Wed, 08 Jan 2025 00:00:00 GMT

感知机模型

感知机是一个简单的 两类线形分类模型，它是多层感知机的基本单元：

其中 $\text{sgn}$ 表示单位跃迁函数，其根据输入的正负返回 1 或者 0。我们也可以加上偏置 $b$，来增加模型的表达能力(改变原先必然过圆心的决策边界)。

参数学习

感知机的学习算法是一种 错误驱动 的在线学习算法。

定义训练集为 ${(x^{(n)},y^{(n)})}_{n=1}^N\subset\mathbb{R}^d\times{-1,+1}$，初始化权重向量 $w\leftarrow 0$，然后每次每次分错一个样本时，即模型预测标签和原标签符号相反的时候，数学表达为 $yw^{\top}x<0$，就用这个样本来更新权重：

$$ w\leftarrow w+yx $$

根据感知机收敛定理可以知道，如果训练集线形可分，则权重更新的次数不超过 $(\frac{R}{\gamma})^{2}$。

数据集必须线形可分才能保证收敛；
只能表达与、或、非基本组件、不能表达非线性的异或。

激活函数

激活函数 $g(\cdot)$ 对神经元的输出进行 非线性变换，增强网络的表达能力。

一个激活函数是饱和的意味着 $\lim_{|z|\to\infty}|\nabla g(z)|=0$；
一个激活函数是 零中心化 的意味着它的输出是在零点附近的。

多层感知机

多层感知机是一种 前馈神经网络，它由 输入层、隐藏层、输出层 组成。我们知道，通过与、或、非基本元件的组合可以表达任意复杂的布尔表达式(这也正是多层的由来)。但是可表达并不代表该模型是可学习的，因为 默认的感知机模型的激活函数是没有梯度的，无法通过反向传播算法收敛。

$z_i^{(l)}$ 表示第 $l$ 层第 $i$ 个神经元，其为 $(l-1)$ 层的神经元与权重的加权和加上偏置 $b_i$。称为 净输入；
$a_i^{(l-1)}$ 表示第 $l$ 层第 $i$ 个神经元激活之后的值。称为 激活值；
$\theta_{ij}^{(l)}$ 表示第 $l$ 层的神经元与 $(l+1)$ 层神经元之间的权重，其中 $i$ 表示 $(l+1)$ 层的第 $i$ 个神经元，$j$ 表示第 $l$ 层的第 $j$ 个神经元。

若是分类问题，则最后一层使用 softmax 函数。若是回归问题，则不使用激活函数。

Softmax 回归

令 $z=w^\top x$。给定训练集 $\mathcal{D}={(x_i,y_i)}_{i=1}^m\in{1,2,\cdots,k}$ 。第 $i$ 个样本属于类别 $j$ 的后验概率为：

$$ \hat{y} = p(y_i=j | x_i) = \begin{bmatrix} p(y_{i} = 1 | x_{i}; w) \ p(y_{i} = 2 | x_{i}; w) \ \vdots \ p(y_{i} = k | x_{i}; w) \end{bmatrix} = \frac{1}{\sum_{j=1}^{k} \exp(z_j^{(l)})} \begin{bmatrix} \exp(z_1^{(l)}) \ \exp(z_2^{(l)}) \ \vdots \ \exp(z_k^{(l)}) \end{bmatrix} $$

其中分母项为输出的所有类别概率之和。使用 softmax 的好处是能够 将离散的连续值转换为和为 1 的概率，概率最高的就是输入样本的类别。但是坏处是涉及指数运算，会有数值稳定性问题，解决方法就是减去输入中最大的值：

$$ p(y_i=j|x_i)=\frac{\exp (z_i-z_u)}{\sum_{j=1}^k\exp(z_j-z_u)},\hspace{0.2cm}u=\arg\max(z_j) $$

下面通过多伯努利变量的最大似然估计来得出交叉熵损失函数。假设所有样本独立，且样本 $i$ 属于类别 $j$ 的后验概率为 $P(y_i=j\mid x_i;w)$，那么 $m$ 个样本在所有类别上的联合概率为：

$$ \prod_{i=1}^m\prod_{j=1}^kP(y_i=j | x_i;w)^{I{y_i=j}} $$

$I{y_i=j}$ 表示当样本 $i$ 的真实类别为 $j$ 的时候，返回 1。

举例来说，训练集有 2 个样本，总共有 3 类。假设第一个样本为第一类，第二个样本为第三类，那么联合概率为：
$$
p(y_1=1\mid x_1)\times p(y_2=3\mid x_2)
$$
其余结果都因为 $I{y_i=j}$ 而被忽略。

那么参数 $w$ 在训练集 $\mathcal{D}$ 上的似然函数为：

$$ p(\mathcal{D}|w)=\prod_{i=1}^m\prod_{j=1}^kP(y_i=j | x_i,w)^{I{y_i=j}} $$

最大化似然函数等价于最小化负对数似然函数：

$$ \begin{aligned} \arg\min_{w}-\log p(\mathcal{D}|w)&=-\frac{1}{m}\sum_{i=1}^m\left[\sum_{j=1}^k I{y_i=j}\cdot\log P(y_i=j|x_i;w)\right] \ &=-\frac{1}{m}\sum_{i=1}^m\left[\sum_{j=1}^k I{y_i=j}\cdot\log \frac{\exp(z_i^{(l)})}{\sum_{j=1}^{k}\exp {(z_j^{(l)})}}\right] \end{aligned} $$

实际上就和多分类问题的交叉熵损失一致了。

Softmax 参数学习

多层感知机参数学习

多层感知即的参数学习是基于反向传播算法(BackPropagation)，它的主要思想是利用链式法则来求每一层参数的偏导数。主要分为以下三步：

前馈计算每一层的净输入 $z^{(l)}$ 和激活值 $a^{(l)}$ 直到最后一层；
反向传播计算每一层的误差项 $\delta^{(l)}$；
计算每一层参数的偏导数，并更新参数。

记 $a^{(l)}=g(z^{(l)})$，那么净输入和激活值的计算为：

$$ z^{(l)}=w^{(l)}a^{(l-1)}+b^{(l)} \quad a^{(l)}=g(w^{(l)}a^{(l-1)}+b^{(l)}) $$

根据链式法则 $\nabla \mathcal{L} \rightarrow \nabla z^{(l+1)}_j \rightarrow \nabla a^{(l)}_i \rightarrow \nabla z^{(l)}_i$ 我们可以得到误差项的递推公式，从而求出损失函数对隐藏层中单个神经元的误差：

$$ \begin{aligned} \delta^{(l)}{i}&=\frac{\partial}{\partial z{i}^{(l)}} \mathcal{L}(w,b) \ &=\sum_{j=1}^{s_{(l+1)}}\frac{\partial \mathcal{L}(w,b)}{\partial z_{j}^{(l+1)}} \cdot \frac{\partial z_{j}^{(l+1)}}{\partial a_{i}^{(l)}} \cdot \frac{\partial a_{i}^{(l)}}{\partial z_{i}^{(l)}} \ &= \sum_{j=1}^{s_{(l+1)}}\delta^{(l+1)}{j} \cdot \frac{\partial}{\partial a{i}^{(l)}} \underbrace{\left[\sum_{i=1}^{s_{(l)}} w_{ji}^{(l+1)} a_{i}^{(l)}+b_{j}^{(l+1)}\right]}{净输入计算公式} \cdot g^{\prime}(z{i}^{(l)}) \ &= \sum_{j=1}^{(l+1)}\delta_{j}^{(l+1)} w^{(l+1)}{ji} g^{\prime}(z{i}^{(l)}) \end{aligned} $$

延续上面的计算方法，我们可以得到损失函数对参数 $w$ 和 $b$ 的偏导数：

$$ \begin{aligned} \frac{\partial}{\partial w_{ij}^{(l)}}\mathcal{L}(w,b)&=\frac{\partial \mathcal{L}(w,b)}{\partial z_i^{(l+1)}}\cdot \frac{\partial z_i^{(l+1)}}{\partial w_{ij}^{(l)}}=a_j^{(l)}\delta_i^{(l+1)} \ \frac{\partial}{\partial b_i^{(l)}}\mathcal{L}(w,b)&=\frac{\partial\mathcal{L}(w,b)}{\partial z_i^{(l+1)}}\cdot \frac{\partial z_i^{(l+1)}}{\partial b_i^{(l)}}=\delta_i^{(l+1)} \end{aligned} $$

最后就是根据梯度下降的公式进行参数更新直至模型收敛。

自动微分

自动微分的基本原理是所有的数值计算都可以分解为一些基本操作，包括加减乘除和一些初等函数等，然后利用链式法则来自动计算一个复合函数的梯度。

上图描述的是复合函数 $f(x;w,b)={1} / ({\exp\left[-(wx+b)\right]+1})$ 的计算图，表示将复合函数拆分成 6 个基本操作 $h$。计算完成后按照链式法则计算梯度。

实用训练技巧

小批量随机梯度下降

小批量随机梯度下降算法的改进在于将梯度转换为随机梯度，梯度的计算是在一个 小批量随机采样 的 $m$ 条样本上进行，而不是默认的整个样本集(每个 epoch 对数据集进行 shuffle，然后按顺序进行无放回采样，引入随机性，且能保证每条样本都能读到)。

$$ \frac{1}{m}\sum_{i=1}^{m}\frac{\partial}{\partial w^{(l)}{ij}}\mathcal{L}(\cdot) \quad \rightarrow \quad \frac{1}{m}\frac{\partial}{\partial w^{(l)}{ij}}\mathcal{L}(\cdot) $$

这样做的好处就是能够逃离鞍点且计算效率更高，但它不能很好地逃离局部极值。

而 SGD with Momentum 很好的解决了这一点，它在计算的时候考虑了梯度在 时间上的滑动平均：

$$ \begin{aligned} w_{ij}^{(l)}&=\boldsymbol{w}{ij}^{(l)} -\eta\Delta\\Delta&=\beta\Delta+(1-\beta)\frac{\partial}{\partial w{ij}^{(l)}}\mathcal{L}(w) \end{aligned} $$

其中 $\beta$ 是冲量参数，一般取 0.9。后续许多算法的改进(RMSProp、Adam)多数都借鉴了冲量的思想。

迭代(iteration)和回合(epoch)的概念：

$$ \text{epoch}=\frac{m}{b} \times \text{iteration} $$

其中：$m$ 表示样本数量，$b$ 表示批量大小。可以看出一个回合包含多轮迭代，一个回合遍历了一遍完整数据集。

梯度消失和爆炸

梯度消失 指反向传播的时候激活函数的梯度太小，导致传播的时候网络浅层的权重无法更新。解决办法为：

使用 ReLU 激活函数、合适的归一化方法、He 初始化。

梯度爆炸 指反向传播的时候深层网络梯度非常大，参数更新非常迅速，导致训练不稳定。解决办法为：

使用梯度裁剪、Adam 优化算法、Xavier 初始化。

学习率衰减 / 预热

学习率是基于梯度算法中的一个重要超参数，它决定了模型收敛的稳定性和速度。

学习率太大会导致参数更新过快，从而错过最优解；
学习率太小会导致参数更新过慢，从而训练时间过长；

经验想法是说一开始保持较大的学习率来保证收敛速度，在收敛到接近最优点的时候采用较小的学习率。

学习率衰减 指的是学习率按照迭代周期 / 回合进行衰减，常用的衰减方法有：

固定步长衰减(StepLR) - 每隔固定回合将学习率乘上衰减系数(0.1)；
余弦衰减(CosineAnnealingLR) - 学习率按余弦曲线从初始值平滑下降到最小值；
自适应衰减(ReduceLRonPlateau) - 监控验证集指标，当它不再改善的时候自动降低学习率。

增大学习率是为了跳出鞍点或局部极值，减少学习率是为了防止震荡。

学习率预热 指的是一种在训练初期(总回合的 5% ~ 10%)逐渐增大学习率的策略，目的是避免模型在初始阶段因参数随机初始化后直接使用较大学习率导致的训练不稳定问题。

避免初始梯度爆炸；
稳定归一化方法中的统计量；
提升大模型训练效率和稳定性。

权重衰减

权重衰减指的是在每次参数更新的时候，引入一个衰减系数：

$$ w_t \leftarrow(1-\beta)w_{t-1}-\eta\nabla_t\mathcal{L}(w_{t-1}) $$

$\beta$ 表示衰减系数，通常为 0.0005。

在 SGD 当中，权重衰减相当于 $\ell_2$ 正则化。但在 Adam 中，设置衰减系数会造成权重衰减与自适应学习率耦合，导致效果不佳。可以使用 AdamW 优化器。

丢弃法

Dropout 是一种随机正则化方法，它的动机是包含大量神经元的网络的参数其实是饱和的。很容易过拟合，所以可以在训练过程中 随机丢弃一部分神经元(对隐藏层输出置 0)，从而减少模型的复杂度，防止过拟合。

具体来说，Dropout 会以概率 $p$ 随机丢弃一部分神经元，其余神经元的输出乘以 $\frac{1}{1-p}$。从而 保持整体期望值不变。它背后的思想实际上是集成学习。

而在测试 / 正常使用的时候，不再随机置 0 的原因：确保模型的输出稳定且充分利用训练时学到的所有信息。

参数初始化

预训练初始化 - 使用大规模训练的网络的参数作为起点；
高斯分布初始化 - 使用高斯分布对每个参数进行初始化；
Xavier 初始化 - $\text{var}(w)=1/n_{in}$，适配 sigmoid 函数；
He / Kaiming 初始化 - $\text{var}(w)=2/n_{in}$，适配 ReLU 函数。

多层感知机的可表达性

Shallow MLP - 单隐藏层（浅层）MLP 只要宽度足够，可以以任意精度逼近 任意连续函数；
Role of Depth - 深层网络通过逐层非线性变换，逐步提取 从低级到高级的特征；
Role of Width - 提升网络每一层的特征表达能力，允许同时捕捉更多模式，但 无法捕捉层次信息
Linear Regions - 输入空间被划分成多个线性区域。线性区域数量随深度指数增长 / 宽度多项式增长；
Convex Polytopes - 多层叠加后，网络的决策边界由多个超平面交叠形成的 凸多面体 组合而成。

通用逼近定理表示神经网络的学习能力可以去近似一个给定的连续函数，但是没有说明如何找到这个函数以及是否是最优的。

MLP-Mixer

MLP-Mixer 是一种基于多层感知机的视觉模型，它仅通过 MLP 实现图像特征的高效提取和融合。它先将输入图像分成若干 patch，对每个 patch 通过全连接层转换为特征嵌入，经过若干 Mixer 层处理后，通过全局平均池化和输出全连接层进行分类。

Mixer 层由两种 MLP 层组成，分别是 Token-mixing 和 Channel-mixing。

Token-mixing - 融合每个通道的空间信息，如 MLP1 所示：

$$ \mathbf{U}{*,i}=\mathbf{X}{,i}+\mathbf{W}_2\sigma\left(\mathbf{W}1\operatorname{LayerNorm}(\mathbf{X}){,i}\right),\quad\mathrm{~for~}i=1\ldots C. $$

Channel-mixing - 融合每个位置的通道信息，如 MLP2 所示：

$$ \mathbf{Y}{j,*}=\mathbf{U}{j,}+\mathbf{W}_4\sigma\left(\mathbf{W}3\operatorname{LayerNorm}(\mathbf{U}){j,}\right),\quad\mathrm{~for~}j=1\ldots S. $$

作者设置的模型参数为：

MLP-Mixer 模型结构上与卷积层非常接近。输入 patch 的全连接层可以看成卷积核和步长都为 patch 大小的常规卷积，而 Mixer 层可以看成参数共享的深度可分离卷积。

Credit

神经网络基础 / Arthals

深度学习简介

Tue, 07 Jan 2025 00:00:00 GMT

深度学习指利用 多层非线性变化 的架构来 建模数据的高维特征 (端到端的学习系统)；
机器学习指在 非显示编程 的情况下给予计算机 从数据中学习规律 的能力。

机器学习系统

机器学习系统可以粗略地分为三个要素：

模型 - 函数集合 / 假设空间；
学习准则 - 结构 / 经验风险最小化；
优化算法 - 梯度下降。

深度学习解决了 如何找到一个好的假设空间的问题，不同的假设空间具有不同的拟合能力和复杂度，用于解决不同的现实问题以及选用不同的学习算法。

泛化误差和模型容量：

$$ \epsilon_{\text{test}}\leq \hat{\epsilon}_{\text{train}}+\sqrt{ \frac{\text{complexity}}{\text{n}} } $$

使用一个好的假设空间，使得训练误差低；
使用正则化技术，使得模型复杂度低；
使用大量的训练数据，使得数据容量大。

最小二乘法

最小二乘法(Least Square Method) 是一种利用极值来求解线性回归参数的方法。为简单起见，将 bias 合并到权重参数 $w$ 当中：

$$ \hat{y}^{(n)}=w^{\top}x $$

采用 均方误差损失函数，根据经验风险最小化原则(省去了 $\frac{1}{N}$)：

$$ \begin{aligned} \mathcal{L}(w)&=\sum_{n=1}^{N}(y^{(n)}-\hat{y}^{(n)})^{2} \&=|y-X^{\top}w|^2 \end{aligned} $$

令其对 $w$ 的偏导数为 0 求出最优的参数 $w^*$ 为：

$$ w^*=(XX^\top)^{-1}Xy $$

该解也被称为 解析解。但是当特征维度过高的时候，计算 $XX^{\top}$ 的逆会 非常耗时且不稳定，实践中通常使用梯度下降等迭代方法。

最大似然估计

最大似然估计(Maximum Likelihood Estimation) 的目标是找到一组参数，使得观测数据出现的概率(似然)最大。具体流程为：

定义概率模型，假设数据服从某个分布；
构建似然函数，并转换为对数似然函数；
由于优化问题倾向于求最小值，因此从最大化对数似然 -> 最小化负对数似然。

下面根据这个流程来估计线性回归的参数。假设标签 $y$ 由 $w^{\top}x$ 加上一个随机噪声 $\epsilon $ 决定：

$$ y=w^{\top}x+\epsilon $$

其中 $\epsilon$ 服从均值为 $0$、方差为 $\sigma^{2}$ 的高斯分布。这样，$y$ 就服从均值为 $w^{\top}x$、方差为 $\sigma^{2}$ 的高斯分布：

$$ p(\mathcal{D}|w,\sigma^{2})=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y-w^\top x)^2}{2\sigma^2}) $$

那么参数 $w$ 在训练集 $\mathcal{D}$ 上的似然函数为：

$$ p(\mathcal{D}|\boldsymbol{w},\sigma^{2})=\prod_{n=1}^N\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y-w^\top x)^2}{2\sigma^2}) $$

取负对数得到：

$$ -\log p(\mathcal{D}|w,\sigma^{2})=\frac{1}{2}\log ({2\pi\sigma^{2}})+\frac{1}{2\sigma^{2}}\sum_{n=1}^N (y-w^\top x)^{2} $$

由于第一项不依赖于参数 $w$，第二项去除 $ 1 / \sigma^{2}$ 后就等于均方误差，因此最优参数就由最小化负对数似然得到：

$$ w^{*}=\arg\min\sum_{n=1}^N(y-w^{\top}x)^2 $$

若是通过矩阵求导的方式，就可以得到与最小二乘法一样的解析解。

最大后验估计

MLE 的一个缺点是当训练数据比较少的时候会发生过拟合，估计的参数可能不准确。因此可以给参数加上 先验知识 以适应小样本的数据集，这一过程相当于在优化目标中添加正则项。

最大后验估计(Maximum a Posteriori Estimation) 指找到一组参数 $w$ 使得 后验概率最大，而后验概率正比于 似然函数与先验概率的乘积 (贝叶斯公式)。因此我们可以得到下述公式：

$$ \begin{aligned} \max_{w}p(\mathcal{D}|w)p(w)=\max_{w}\left[\log p(\mathcal{D}|w)+ \log p(w)\right] \ w^{*}=\arg\max_w\left[\underbrace {\log p\left({(x^{(n)},y^{(n)})}{n=1}^N\mid w,\sigma^2\right)}{\log\text{likelihood}}+\underbrace{\log p\left(w\right)}_{\log\mathrm{prior}}\right] \end{aligned} $$

$\log(\mathcal{D}|w)$ 为似然函数，表示在给定参数 $w$ 的情况下，数据 $\mathcal{D}$ 的概率分布；
$\log p(w)$ 为先验概率分布，当选取不同先验的时候，对应的正则化也不同。

假设参数遵循高斯分布，即 $w\sim N(0,\tau^2I)$，这代表：

模型使用 $L_2$ 正则化；
参数遵循均值为 0，方差为 $\tau^2$ 的多元高斯分布；
$\tau^2I$ 是指协方差矩阵为 $\tau^{2}$ 的对角矩阵，即参数 $w$ 的每个维度都是独立同分布的。

多元高斯分布的解析可以阅读钱默吟/多元高斯分布完全解析，讲得十分详细。

代入复杂的数学推导之后，我们可以得到：

$$ w^{*}=\arg\min\sum_{n=1}^N(y-w^{\top}x)^2+\lambda\Vert w \Vert^2 $$

这就等价于最大似然估计中求解参数的方法了，区别在于添加了正则项：

若先验选择 高斯分布，则代表 $\ell_2$ 正则化(2 - 范数 / 岭回归)；
若先验选择 拉普拉斯分布，则代表 $\ell_1$ 正则化(1 - 范数 / 套索回归)。

对于这两个正则化的区别，我们需要知道的是 $\ell_{1}$ 正则化的约束通常会得到稀疏解。

Logistic 回归

为了解决连续线形函数不适合进行分类的问题，引入 单调可微的非线性函数 $g: \mathbb{R}^D\to(0,1)$ 来预测标签的后验概率：

$$ \hat{y}^{(n)}=\sigma(w^{\top}x)=\frac{1}{1+\exp(-w^{\top}x)} $$

这里激活函数用的是 sigmoid 函数 $\sigma(z)=\frac{1}{1+e^{-z}}$，其中 $$z=w^{\top}x$$。它是单位阶跃函数的连续版本(可微)。

采用 交叉熵损失函数，那么它的学习准则为：

$$ \arg\min_w\mathcal{L}(w)=-\frac{1}{N}\sum_{n=1}^N\left(y^{(n)}\log\hat{y}^{(n)}+(1-y^{(n)})\log(1-\hat{y}^{(n)})\right) $$

参数学习

有了模型和学习准则，我们就需要计算损失函数对参数的偏导数从而使用梯度下降算法。根据链式法则，这里面就涉及损失函数对 sigmoid 函数的偏导数 $\frac{\partial\mathcal{L}}{\partial \hat{y}}$、 sigmoid 函数对 $z$ 的偏导数 $\frac{\partial\hat{y}}{\partial z}$ 以及 $z$ 对参数 $w$ 的偏导数 $\frac{\partial z}{\partial w}$。

首先求 $z$ 对参数 $w$ 的偏导数：

$$ \frac{\partial z}{\partial w}=\frac{\partial (w^{\intercal}x)}{\partial w}=x $$

然后求 sigmoid 函数对 $z$ 的偏导数，我们对其进行变形：

$$ \begin{aligned}(1+e^{-z})\cdotp\sigma(z)&=1\e^{-z}\cdotp(-1)\cdotp σ(z)+σ^{\prime}(x)\cdotp(1+e^{-z})&=0\\sigma^{\prime}(z)\cdotp(1+e^{-z})&=e^{-x}\cdot\sigma(z)\\sigma^{\prime}(z)&=(1-\sigma(z))\cdotp\sigma(z) \end{aligned} $$

最后计算损失函数对 sigmoid 函数的偏导数，即对 $\hat{y}^{(n)}$ 的偏导数：

$$ \begin{aligned} \frac{\partial\mathcal{L}}{\partial\hat{y}}&=-\frac{y}{\hat{y}}\cdot1-\frac{1-y}{1-\hat{y}}\cdot(-1)\&=-\frac{y}{\hat{y}}+\frac{1-y}{1-\hat{y}} \end{aligned} $$

将得到的偏导数乘起来：

$$ \begin{aligned} \frac{\partial \mathcal{L}}{\partial w}&=\frac{\partial \mathcal{L}}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial w} \ &=\left[-\frac{y}{\hat{y}}+\frac{1-y}{1-\hat{y}}\right]\cdot\left[(1-\hat{y})\cdot(\hat{y})\right]\cdot x \ &=(\hat{y}-y)\cdot x \end{aligned} $$

采用梯度下降的学习准则，初始化 $w_0 \leftarrow 0$，然后使用下面的公式进行迭代：

$$ w_{t+1}\leftarrow w_t - \eta \frac{1}{N} \sum_{n=1}^{N}\left( \hat{y}^{(n)} - y ^{(n)} \right)\cdot x^{(n)} $$

机器学习分类

监督学习

使用 标注好 的训练数据来寻找输入与输出对应的 函数关系。

线性回归 - 输出为连续，例如预测房价；
逻辑回归 - 输出为离散，例如判断邮件是否是垃圾邮件。

无监督学习

使用 未标注 的数据来寻找数据集中的 模式和规律。

K - 均值聚类 - 根据特征将数据分成不同的簇。用于市场划分；
主成分分析 - 数据降维。用于数据可视化（t-SNE 也用于数据可视化）；
自编码器 - 通过编解码器压缩 -> 重构数据学习数据特征；
词嵌入 - 将 token 映射到低维稠密向量，代表模型为 word2vec。用于 NLP；
密度估计 - 估计数据的概率密度函数。用于异常检测。

学习理论

PAC 学习理论 - 在多项式时间内从合理的训练数据学习到一个近似的假设；
没有免费午餐定理 - 不存在一种机器学习算法适用于所有任务；
奥卡姆剃刀原理 - 简单的模型泛化能力更好；
归纳偏置 - 模型的先验知识。

损失函数总结

首先定义熵、相对熵(KL 散度)和交叉熵：

熵 - $\text{H}(q)=-\sum_{j=1}^{k}q_j\log q_j$，描述分布 $p$ 的混乱程度。熵的值越大，分布越均匀；
相对熵 - $\text{KL}(q,p)=-\sum_{j=1}^kq_j\log p_j -\text{H}(q)$ ，描述用分布 $p$ 来近似 $q$ 时造成的信息损失；
交叉熵 - $\text{H}(q,p)=\text{KL}(q,p)+\text{H}(q)=-\sum_{j=1}^kq_j\log p_j$，描述两个概率分布的差异程度。

交叉熵损失(Cross-Entropy Loss) - 适用于 二分类 问题，衡量预测概率与真实标签之间的差异。

$$ \mathcal{L}=-\frac{1}{N}\sum_{n=1}^N\left[y^{(n)}\cdot\log(\hat{y}^{(n)})+(1-y^{(n)})\cdot\log(1-\hat{y}^{(n)})\right] $$

当真实标签 $y^{(n)}$ 为独热编码的时候，损失为 $-log(\hat{y}^{(n)})$，鼓励模型提高正类的预测概率。

针对多分类问题

$$ \mathcal{L}=-\frac{1}{N}\sum_{n=1}^N\sum_{c=1}^Cy^{(n)}_c\cdot\log(\hat{y}^{(n)}_c) $$

$y^{(n)}$ 表示第 $n$ 个样本在类别 $c$ 上的真实标签，通常采用独热编码；
$\hat{y}^{(n)}_c$ 表示模型预测第 $n$ 个样本属于类别 $c$ 的概率，采用 softmax 函数。

均方误差损失(Mean Squared Error Loss) - 适用于回归问题，衡量预测值和真实值之间的差异。

$$ \mathcal{L}=\frac{1}{N}\sum_{n=1}^N(y^{(n)}-\hat{y}^{(n)})^2 $$

Credit

从零开始配置 Mac

Mon, 16 Sep 2024 11:25:00 GMT

App 列表

Homebrew

Homebrew 是一个 macOS 下的包管理器，可以通过它安装许多软件。

以下是我安装的软件：

brew install --cask cursor google-chrome notion telegram warp figma git-credential-manager mos setapp yesplaymusic font-maple-mono

SetApp

SetApp 是 macOS 的一个基础软件订阅服务，通过支付一个统一的费用来使用内部的所有软件。

AlDento Pro - macOS 电池管理
CleanShotX - 优秀的截图工具
Downie - 视频下载工具，如果想要下载高分辨率 Bilibili 视频，推荐使用 BBDown
Permute - 视频、照片等文件转码工具
ForkLift - FTP 文件管理器，有着接近原生的 UI 设计
Squash - 图片压缩工具，可以批量处理，界面好看，有开源平替 Clop
Sip - 颜色选取工具，有开源平替 Pika

AppStore

Bob [付费] - macOS OCR、划词翻译工具。有开源平替 EasyDict
Immersive Translate - 最强的网页翻译工具，也可以配合 OpenAI 等多家服务使用
Pure Paste - 剪贴板格式移除工具。或者你也可以使用 ctrl + shift + v 来粘贴
滴答清单 [付费] - 任务管理，日程安排，番茄钟
xSearch [付费] - 搜索引擎切换工具

Github

先放一份 Star List 在这里：K1tyoo / Mac

Magnet [付费] - 窗口管理工具
Sequel Ace - 好看的 mysql 数据库管理工具
IINA - macOS 下最好的视频播放器
PicGo - 图床工具
Local Send - 局域网文件传输工具
Upscayl - macOS 下的图片 AI 放大工具
Moodist - 白噪音
Cherry Studio - 多平台 LLM 客户端
LM Studio - 本地 LLM 客户端

Other

VS Code - 最好的 IDE
Cursor - 基于 VS Code 开源代码的 AI IDE
Warp - AI 智能终端
Raycast - macOS 下最好用的快捷启动工具
MacZip - 压缩解压工具
Arc - 基于 Chromium 内核，具有优秀设计的浏览器
Itsycal - 菜单栏日历，简洁可爱
Hoppscotch - 好看的 API 调试工具
RightFont [付费] - 字体管理工具，界面好看
Surge [付费] - macOS 下最好的网络调试工具
Mihomo - 一个更好看的 Clash 客户端
Tailscale - 让你的多个设备处于同一局域网内
Parsec - 优秀的远程桌面工具
Screen Studio [付费] - 颜值很高的录屏软件，也可使用免费平替 Loom
Orb Stack - macOS 下颜值很高、功能强大的 Docker Desktop 替代品
YesPlayMusic - 高颜值网易云播放器

Cursor 插件

主题 & 图标

Cursor Dark
Symbols
Carbon Product Icons

其他

Ruff - Rust 编写的 Python 代码检查器和格式化工具
Slidev - 幻灯片制作工具
Error Lens - 代码错误美化

CLI

先放一份 Star List 在这里：K1tyoo / Tools

我使用 ZSH 作为默认的 Shell，配合 Oh My ZSH 来管理配置。我使用的部分 CLI 工具：

starship - 终端美化工具
bat - 支持语法高亮的 cat 平替
fd - 简单、快速、友好的 find 平替
zoxide - 目录导航工具
btop - 类似 htop 的资源监控工具
tldr - 命令行工具的使用指南
tmux - 终端多窗口管理工具，较 pm2 相比，可以在启动后仍然进行交互操作
gh - GitHub CLI

UV

我使用 UV 来管理 Python 项目，它是一个用 Rust 编写的包与项目管理器。

Nvm

我使用 Nvm 来管理 Node.js 版本环境。安装完成后，换源，将如下命令追加到 ~/.zshrc。

export NVM_NODEJS_ORG_MIRROR=http://npm.taobao.org/mirrors/node