论文概述
FLAN(Finetuned Language Model for Instruction Following,遵循指令的微调语言模型)是指令微调领域的开创性工作。这篇论文证明,通过自然语言指令描述的多任务微调可以显著提高在未见任务上的零样本性能。通过在60+个NLP任务上进行指令微调,FLAN 137B在25个评估任务中的20个上超过了零样本175B GPT-3。这项工作证明了指令微调是将语言模型转变为更通用任务执行器的强大范式。
论文信息:
- 发布时间:2021-09-03
- 作者:Jason Wei, Maarten Bosma, Vincent Y. Zhao等
- 机构:Google Research, Google Brain
- 研究方向:提示工程、LLM推理
- 核心技术:指令微调(Instruction Tuning)
研究背景
大型语言模型(LLM)虽然强大,但在零样本场景下的泛化能力仍有提升空间。本研究针对以下问题展开:
现有问题
- 预训练语言模型在零样本任务上表现不佳
- 模型难以理解和遵循自然语言指令
- 缺乏系统化的多任务学习方法来提升泛化能力
研究动机
本研究旨在探索通过指令微调提升语言模型的零样本泛化能力,特别关注指令微调(instruction-tuning)、FLAN、零样本学习(zero-shot-learning)等关键技术。
核心方法
方法概述
FLAN的核心方法是带有以下关键要素的指令微调:(1) 任务收集 - 62个文本任务,涵盖12个类别(NLI、QA、闭卷QA、翻译、常识推理、共指消解、情感分析等);(2) 指令模板 - 每个任务有10个不同的自然语言指令模板;(3) 训练 - 混合多任务训练,每个样本随机选择模板,使用标准语言建模目标,包括零样本、少样本和零样本-CoT格式;(4) 评估 - 在未见过的任务类别上进行保留评估,以测试泛化而非记忆。
本方法的核心在于通过多样化的指令描述和大规模多任务训练,使模型学会理解和遵循自然语言指令,从而在新任务上实现零样本迁移。
关键创新点
创新 1:指令微调范式:首次系统性地证明了自然语言指令微调可以提高零样本泛化能力
创新 2:显著的性能提升:FLAN 137B在25个任务中的20个上超过了GPT-3 175B的零样本性能
创新 3:多任务学习:在60+个任务上进行微调,每个任务用10个不同的指令模板描述
创新 4:规模和任务数量:模型规模和任务数量对指令微调的成功都至关重要
创新 5:增强的通用性:在未见任务类型上的性能显著提升
技术特点
- 系统化设计:提供完整的指令微调框架,可复现性强
- 广泛适用性:适用于多种NLP任务(问答、推理、分类等)
- 训练高效:无需为每个新任务单独微调
- 显著性能提升:在多个Benchmark上超过大规模预训练模型的零样本性能
- 可扩展性:支持持续添加新任务和指令模板
实验结果
Benchmark 性能
评估内容包括:(1) 零样本性能 - FLAN 137B在25个任务中的20个上超过GPT-3 175B,平均提升显著,特别是在指令理解任务上;(2) 任务类别泛化 - NLI: 83.4%(FLAN)vs 62.0%(GPT-3),在阅读理解和常识推理上有显著提升;(3) 消融研究 - 模型规模(8B/62B/137B,越大越好)、任务数量(更多类别提升泛化,但收益递减)、指令模板(10个模板vs 1个有显著差异);(4) 少样本性能 - FLAN在少样本学习上也表现出色,有时超过GPT-3的少样本性能。
性能分析
实验结果表明,指令微调方法在零样本场景下显著提升了模型在未见任务上的表现,证明了这一范式的有效性。
关键发现
- 零样本性能显著提升:在大多数评估任务上超过了更大规模的预训练模型
- 规模效应明显:更大的模型规模(137B)从指令微调中获益更多
- 任务多样性重要:更多的任务类别提升了泛化能力
- 指令模板多样性:多个不同的指令模板比单一模板效果更好
实际应用
适用场景
- 零样本任务执行:在未见过的任务上直接应用模型
- 多任务助手:构建能够理解和执行多种指令的AI助手
- 跨领域应用:在不同领域的NLP任务上应用同一模型
- 快速原型开发:无需为每个新任务收集训练数据
实现建议
在实际项目中应用指令微调时,建议:
- 收集多样化任务:准备涵盖多种任务类别的训练数据
- 设计指令模板:为每个任务创建多个不同的自然语言指令
- 平衡任务分布:确保不同任务类别的合理分布
- 持续评估:在保留任务上评估泛化能力
代码示例
1 | # FLAN指令微调示例 |
相关资源
- arXiv 论文:arXiv:2109.01652
- 相关论文:T0、InstructGPT、Instruction Tuning with GPT-4