如何建设高质量数据集
如何建设高质量数据集

如何建设高质量数据集

如何建设高质量数据集

数据是训练AI能力的“原料”之一。在第八届数字中国建设峰会29日举行的“高质量数据集和数据标注”主题交流活动上,由国家数据局指导的全国数据标准化技术委员会提出,将强化标准引领,分三类建设高质量数据集。
一类为“通识数据集”,包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用。
一类为“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用。
一类为“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。

简单举例,互联网百科、问答等为“通识数据集”;行业研究机构报告等为“行业通识数据集”;医院科室特定疾病病例等为“行业专识数据集”。
国家数据局相关负责人表示,从发展趋势来看,人工智能模型对数据集的需求正从“通用知识”向“专业知识”延伸拓展,经过专家精细化标注的数据集已成为AI价值实现过程中不可或缺的基石,下一步将积极引导做好高质量数据集和数据标注建设工作,为人工智能技术创新和产业应用提供坚实的数据基础。

建设指南

《高质量数据集 建设指南》技术文件征求意见稿.pdf

高质量数据集 high-quality dataset
经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。

高质量数据集格式要求

《高质量数据集 分类指南》标准草案.pdf

  • 填补标准空白:首次系统构建了数据集分类框架,解决了人工智能数据资源管理缺乏统一规范的问题。
  • 分类维度科学:从知识内容、来源类型等7个核心要素进行三级划分(通识/行业通识/行业专识),逻辑清晰且可操作性强。
  • 应用导向明确:分类标准与模型开发需求直接挂钩(通用模型/行业模型/场景模型),有利于提升数据-模型匹配效率。
  • 风险管控合理:通过敏感程度分级和标注人员资质要求,兼顾数据开放与安全。

《高质量数据集 格式要求》标准草案.pdf

  • 结构规范:严格遵循GB/T 1.1标准框架,包含完整的标准要素(前言、范围、术语、附录等),符合国家标准编写规范。
  • 内容全面:覆盖数据集核心元数据要素,包括标识、内容、标注、时间、版本、授权等关键维度,特别是对多模态数据和标注信息做了专门规定。
  • 实操性强:采用JSON示例展示具体实现方式,附录提供可直接参考的代码模板,降低了实施门槛。
  • 兼容性好:引用多项国内外标准(如GB/T 7408时间格式、语义化版本等),保持技术一致性。
7 数据内容元数据

7.1 模态类型
中文名称:模态类型
英文名称:media_type
定义:数据的模态类型
数据类型:字符串
值域:text、image、video、audio、point_cloud、graph、mesh、binary、table等
数据填充要求:1
备注:此处列举的是数据的常见模态类型。当数据的模态类型不在列举范围内时,可采用符合实际
的其他模态类型表示。

7.2 内容
中文名称:内容
英文名称:content
定义:数据的具体内容
数据类型:字符串
值域:自由文本
数据填充要求:1
备注:文本数据用数据本身表示,图像数据用base64编码或相对存储路径表示,其他类型数据用相
对存储路径表示。

8 标注信息元数据

8.1标签
中文名称:标签
英文名称:label
定义:数据的标签
数据类型:数组
值域:自由文本
数据填充要求:1
备注:具体内容根据数据集所针对的人工智能任务做进一步规定。若数据集的目标人工智能任务为
无监督学习任务,数据填充要求为0。

8.2标注方式
中文名称:标注方式
英文名称:annotation_method
定义:数据标注的方式
数据类型:字符串
值域:人工标注、自动标注、半自动标注、其他
数据填充要求:0
备注:无。

数据标注工具推荐:

从序列标注到LLM评估:5款开源数据标注工具对比_开源标注工具-CSDN博客

数据标注开源框架 Label Studio(中文版) - 知乎

code-kern-ai/refinery: The data scientist's open-source choice to scale, assess and maintain natural language data. Treat training data like a software artifact.

高质量数据集质量评测规范

《高质量数据集 质量评测规范》标准草案.pdf

  • 结构完整规范:严格遵循GB/T 1.1标准框架,包含范围、术语、评测维度和附录等完整要素,符合国家标准编写规范。
  • 指标体系全面:创新性地提出文档完整性、质量合规性、场景适用性三维度评价体系,既包含传统数据质量要素,又突出AI数据特性。
  • 分类指导性强:针对通识/行业通识/专识数据集设置差异化要求,特别是对行业数据提出内容专业性和模型适配性等针对性指标。
  • 实操性突出:通过量化计算公式(如比例法、差值法)实现指标可测量,配套详细评测细则表格,便于落地实施。
  • 前瞻性考量:包含合成数据真实性验证、多模态一致性等新兴需求,为AI数据治理预留了发展空间。

数据质量评测工具:

dingo:Dingo是一款数据质量评估工具,帮助你自动化检测数据集中的数据质量问题

Facets:评估机器学习数据集质量利器 (来自Google、可交互、可可视化) - 知乎

公开数据集平台

公开数据集查询,自有数据集管理平台

帕依提提-人工智能高质量数据集开放平台

开放数据集-飞桨AI Studio星河社区

Hugging Face – The AI community building the future.

数据集管理平台:csghub/README_zh.md at main · OpenCSGs/csghub

Views: 8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注