IA3
前言¶
为了使微调更加高效,北卡罗来纳教堂山分校的研究人员提出新的增量训练方法T0
基础模型,修改了损失函数以适应小样本学习,无需针对特定任务进行调整即可应用于新任务,命名为T-Few
,并在RAFT
基准测试上取得了全新的SOTA结果,超过了人类基准水平。
核心思想¶
具体来说,
技术细节¶
注意力机制中的 ¶
在自注意力和交叉注意力机制中,
原始的注意力计算:
其中:
, ,, 分别对应查询、键和值矩阵。 是可学习的缩放向量。 表示哈达玛积(即按位乘)。 表示注意力头的维度。
前馈网络中的IA3¶
在前馈网络(FFN)中,
原始的FFN计算:
其中:
, 是权重矩阵。 , 是偏置项。 是可学习的缩放向量。 是FFN的隐藏维度。 表示逐元素乘法。 表示激活函数。
参数初始化¶
所有的
参数更新¶
在反向传播过程中,只有
其中:
是学习率。 是损失函数。 表示损失函数对参数 的梯度。
推理时的优化¶
在推理阶段,将
- 对于注意力机制:
, - 对于FFN:
其中
关键特性¶
特性 | 描述 |
---|---|
参数效率高 | 只在模块上引入少量的可训练参数,大大减少了需要微调的参数数量。 |
计算效率高 | 由于 |
易于实现 | |
与其他方法兼容 |
与 的比较¶
虽然
特性 | ||
---|---|---|
参数注入位置 | 直接对激活进行缩放 | 在权重矩阵中注入低秩更新 |
参数数量 | 更少 (约 0.01% 的模型参数) | 通常需要更多 (> 0.1% 的模型参数) |
实现复杂度 | 更简单,只需元素级乘法 | 需要对权重矩阵进行修改 |
适用范围 | 更广泛,可用于注意力机制和前馈网络 | 主要用于注意力机制的权重矩阵 |
结论¶
参考文献¶
- Liu, H., Tam, D., Muqeeth, M., Mohta, J., Huang, T., Bansal, M., & Raffel, C. (2022). Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning. arXiv preprint arXiv:2205.05638. ⧉
- Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv preprint arXiv:2106.09685. ⧉
- Pfeiffer, J., Rückle, A., Poth, C., Kamath, A., Vulić, I., Ruder, S., Cho, K., & Gurevych, I. (2020). AdapterHub: A Framework for Adapting Transformers. arXiv preprint arXiv:2007.07779. ⧉
- Lester, B., Al-Rfou, R., & Constant, N. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. arXiv preprint arXiv:2104.08691. ⧉