Schema 数据规范文档
METADATA SPEC艺恩数据集采用统一的元数据 Schema,兼容 RLDS、LeRobot v3、WebDataset 等主流格式,并提供艺恩扩展字段。每个数据包随附 metadata.json,描述数据集结构、授权信息与质量指标。
| 字段名 | 类型 | 必填 | 说明 |
|---|---|---|---|
dataset_id | string | ✓ | 唯一标识符,格式 EN-YYYYMM-XXXX |
modality | array | ✓ | ["video","image","text"] 三模态枚举 |
domain | string | ✓ | film_tv / social / ecommerce / copyright |
task_family | array | ✓ | pretrain / sft / rlhf / rag / agent |
license_type | string | ✓ | commercial / research / restricted |
language | array | ✓ | ISO 639-1 语言代码,如 ["zh","en"] |
size_bytes | int64 | ✓ | 数据包总大小(字节) |
record_count | int64 | ✓ | 样本条数 |
quality_score | float | 0.0–1.0,艺恩内部质量评估分 | |
created_at | ISO 8601 | ✓ | 数据集创建时间 |
compliance_audit | object | ✓ | 版权审计信息,含授权链路编号 |
version | string | 数据集版本号,如 v2.1.0 |
"dataset_id": "EN-202603-0042",
"modality": ["video", "text"],
"domain": "film_tv",
"task_family": ["pretrain", "sft"],
"license_type": "commercial",
"language": ["zh", "en"],
"size_bytes": 2576980377,
"record_count": 142800,
"quality_score": 0.94,
"created_at": "2026-03-15T08:00:00Z",
"compliance_audit": {
"audit_id": "CA-2026-0178",
"copyright_chains": 3,
"verified_by": "ENDATA Legal Team",
"valid_until": "2028-03-15"
}
}
视频数据集额外携带动作序列字段,兼容 RLDS / LeRobot v3 格式,供具身智能训练管线直接消费。
"fps": 30,
"resolution": "1080p",
"action_dim": 7,
"observation_keys": ["image", "depth", "proprio"],
"task_annotations": true,
"language_instruction": true
样例下载
SAMPLE DATA艺恩为各类数据集提供免费小规模样例包(100–5,000 条),供技术评估与 Pipeline 对接测试。样例与正式数据集结构完全一致,包含完整 metadata、标注与授权信息。
申请流程:① 发送邮件至 cs@endata.com.cn,注明公司名称、数据集名称及用途 → ② 商务 1 个工作日内回复并提供 NDA 链接 → ③ NDA 签署后 24 小时内获得下载链接(有效期 7 天)
接入指南
INTEGRATION艺恩数据集支持三种接入方式,满足不同安全级别与基础设施需求:
API 实时拉取
标准订阅方案,持续增量更新。TLS 1.3 加密,默认 100 req/min。
对象存储推送
大批量数据包推送至你的 AWS S3 / 阿里云 OSS / 腾讯云 COS。端对端加密,客户持有 KMS 密钥。
私有云离线部署
数据不出域场景(金融/医疗/国防)。AES-256 加密打包 + 物理介质 + Docker 镜像交付。
POST https://api.endata.com.cn/v1/datasets/query
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
{
"dataset_id": "EN-202603-0042",
"filters": { "task_family": "sft", "language": "zh" },
"limit": 1000,
"offset": 0,
"format": "jsonl"
}
"delivery_mode": "oss_push",
"endpoint": "oss-cn-shanghai.aliyuncs.com",
"bucket": "your-private-bucket",
"prefix": "endata/datasets/",
"encryption": "SSE-KMS",
"kms_key_id": "your-kms-key-id"
}
适用于数据不出域的企业客户。艺恩工程师协助完成全套交付:
· 数据包 AES-256 加密打包及离线介质交付(移动硬盘/专线)
· 私有化标注平台(可选)Docker 镜像部署
· PyTorch / JAX / TensorFlow 数据加载脚本
· 数据完整性校验工具(SHA-256 checksum)
API 文档
REST API v1艺恩数据 REST API 基于 HTTPS,返回 JSON 格式,使用 Bearer Token 认证。
https://api.endata.com.cn/v1
# 所有请求携带 Authorization header
Authorization: Bearer YOUR_API_KEY
| Method | 路径 | 说明 |
|---|---|---|
GET | /datasets | 列出可用数据集(支持分页、过滤) |
GET | /datasets/{id} | 获取单个数据集详情 + metadata |
POST | /datasets/query | 条件查询与流式数据拉取 |
GET | /datasets/{id}/schema | 获取数据集 Schema 定义 |
POST | /datasets/{id}/export | 触发批量导出任务(异步) |
GET | /jobs/{job_id} | 查询导出任务状态 & 下载链接 |
GET | /account/quota | 查询 API 配额与用量统计 |
| 套餐 | 速率上限 | 月均量上限 |
|---|---|---|
| 标准订阅 | 100 req/min | 按合同约定 |
| 企业订阅 | 定制 | 无上限 |
超出速率限制返回 HTTP 429 Too Many Requests,响应 Header 中携带 Retry-After 秒数。
pip install endata-sdk
# 基本用法
from endata import Client
client = Client(api_key="YOUR_API_KEY")
# 流式拉取数据
ds = client.datasets.get("EN-202603-0042")
for batch in ds.stream(batch_size=256):
train(batch)
# 触发批量导出
job = client.datasets.export("EN-202603-0042", format="parquet")
job.wait() # 轮询直到完成
print(job.download_url)
合规说明
COMPLIANCE艺恩以完整、可溯源的版权授权链路为核心竞争力,同时持有多项国际信息安全认证,确保 AI 训练数据从采集到交付全链路合规。
| 层级 | 内容 | 文件证明 |
|---|---|---|
| 第一层 | 画面/内容版权方书面授权 | 版权授权协议(Commercial License) |
| 第二层 | 音乐/配乐版权处理 | 音乐授权证明 或 去除/替换声明 |
| 第三层 | 肖像权/个人信息处理 | 肖像授权书 或 脱敏处理报告 |
· 每个客户数据存储在独立加密命名空间,RBAC 多层权限管控
· 客户数据不用于艺恩内部模型训练或第三方共享
· 可提供 DPA(数据处理协议)模板满足客户法务要求
· 支持客户自带 KMS 密钥(BYOK)的端对端加密交付