赋能Web智能体:多模态理解网页的革命性数据集在人工智能快速发展的今天,我们距离通用网页智能体(Web Agent)的目标越来越近。俄亥俄州立大学NLP团队发布的Multimodal-Mind2Web数据集,为这一目标提供了关键支撑。这个包含14,193个网页任务样本的多模态数据集,首次将网页截图与HTML文档完美对齐,让AI真正”看懂”网页。
数据集核心特性规模与结构
总样本数:14,193行动作记录
总任务数:2,022个复杂网页任务
数据大小:13.6 GB
模态类型:图像(网页截图)+ 文本(HTML + 自然语言指令)
数据划分策略Multimodal-Mind2Web采用了三种不同的测试集划分方式,全面评估模型的泛化能力:
Task Split(任务划分)
训练集:7,775个动作(1,009个任务)
测试集:1,339个动作(177个任务)
目的:测试模型对新任...