Airavata 7B - AI4Bharat 大型语言模型

Posted on 一月 15, 2024

Airavata 7B - AI4Bharat 大型语言模型模型概述Airavata 7B 是 AI4Bharat 公司于 2024 年 1月发布的大型语言模型，拥有 6.87B 参数规模。该模型经过指令微调，专门针对对话和任务执行场景进行了优化。该模型支持多种语言，能够处理包括中文、英文在内的多语言任务。该模型采用 Apache 2.0 开源许可证，这是一个非常商业友好的许可协议，允许企业在各种场景下自由使用、修改和分发，无需担心版权限制。 Airavata 7B 采用了先进的 Transformer 架构和优化的训练方法，在自然语言理解、生成和推理等任务上表现出色。该模型的发布为人工智能领域带来了新的可能性，特别是在需要高质量语言理解和生成的应用场景中，如智能客服、内容创作、代码辅助等领域，都展现出了巨大的应用潜力。核心特性 6.87B 参数规模：采用大规模参数设计，在性能...

阅读全文

微调后的语言模型是零样本学习者（FLAN）

Posted on 九月 3, 2021

论文概述FLAN（Finetuned Language Model for Instruction Following，遵循指令的微调语言模型）是指令微调领域的开创性工作。这篇论文证明，通过自然语言指令描述的多任务微调可以显著提高在未见任务上的零样本性能。通过在60+个NLP任务上进行指令微调，FLAN 137B在25个评估任务中的20个上超过了零样本175B GPT-3。这项工作证明了指令微调是将语言模型转变为更通用任务执行器的强大范式。论文信息：发布时间：2021-09-03 作者：Jason Wei, Maarten Bosma, Vincent Y. Zhao等机构：Google Research, Google Brain 研究方向：提示工程、LLM推理核心技术：指令微调（Instruction Tuning）研究背景大型语言模型（LLM）虽然强大，但在零样本...

阅读全文