Multimodal-Mind2Web：让AI理解网页的多模态数据集

Posted on 一月 15, 2024

赋能Web智能体：多模态理解网页的革命性数据集在人工智能快速发展的今天，我们距离通用网页智能体（Web Agent）的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集，为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集，首次将网页截图与HTML文档完美对齐，让AI真正”看懂”网页。数据集核心特性规模与结构总样本数：14,193行动作记录总任务数：2,022个复杂网页任务数据大小：13.6 GB 模态类型：图像（网页截图）+ 文本（HTML + 自然语言指令）数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式，全面评估模型的泛化能力： Task Split（任务划分）训练集：7,775个动作（1,009个任务）测试集：1,339个动作（177个任务）目的：测试模型对新任...

阅读全文