MM-RLHF:多模态RLHF的首个完整解决方案核心观点:GPT-4V、Claude-3、Gemini都在用RLHF对齐文本输出,但多模态输出怎么对齐?MM-RLHF用10维评估体系+批评型奖励模型,给出了第一个工业级的答案。
文本RLHF已经成熟——Anthropic的HH-RLHF、OpenAI的InstructGPT都验证了方法的有效性。但多模态场景复杂得多:一张图片的描述是否”好”,不仅取决于语言质量,还要看视觉细节、空间关系、伦理安全。
MM-RLHF是第一个系统性解决这个问题的数据集,16,300条样本,10维评估,27个基准验证。
为什么多模态RLHF比文本RLHF难得多文本RLHF的评估相对简单:有用性、无害性、诚实性。多模态场景要复杂一个数量级:
视觉理解维度(这是文本RLHF没有的):
忠实性:描述是否准确对应图像内容?(最容易出幻觉的地方)
视觉细节:是否捕捉...