TECHNICAL DOCS · 技术文档中心

开发者文档
Data Infrastructure · API · Compliance

数据规范 Schema、样例下载、私有云接入指南、API 文档与合规说明——艺恩数据技术资源一站式入口。

Schema 数据规范文档

METADATA SPEC

艺恩数据集采用统一的元数据 Schema,兼容 RLDS、LeRobot v3、WebDataset 等主流格式,并提供艺恩扩展字段。每个数据包随附 metadata.json,描述数据集结构、授权信息与质量指标。

标准字段说明
字段名类型必填说明
dataset_idstring唯一标识符,格式 EN-YYYYMM-XXXX
modalityarray["video","image","text"] 三模态枚举
domainstringfilm_tv / social / ecommerce / copyright
task_familyarraypretrain / sft / rlhf / rag / agent
license_typestringcommercial / research / restricted
languagearrayISO 639-1 语言代码,如 ["zh","en"]
size_bytesint64数据包总大小(字节)
record_countint64样本条数
quality_scorefloat0.0–1.0,艺恩内部质量评估分
created_atISO 8601数据集创建时间
compliance_auditobject版权审计信息,含授权链路编号
versionstring数据集版本号,如 v2.1.0
示例 metadata.json
JSON {
  "dataset_id": "EN-202603-0042",
  "modality": ["video", "text"],
  "domain": "film_tv",
  "task_family": ["pretrain", "sft"],
  "license_type": "commercial",
  "language": ["zh", "en"],
  "size_bytes": 2576980377,
  "record_count": 142800,
  "quality_score": 0.94,
  "created_at": "2026-03-15T08:00:00Z",
  "compliance_audit": {
    "audit_id": "CA-2026-0178",
    "copyright_chains": 3,
    "verified_by": "ENDATA Legal Team",
    "valid_until": "2028-03-15"
  }
}
VLA 专项扩展字段

视频数据集额外携带动作序列字段,兼容 RLDS / LeRobot v3 格式,供具身智能训练管线直接消费。

JSON "vla_schema": "rlds_v1.2",
"fps": 30,
"resolution": "1080p",
"action_dim": 7,
"observation_keys": ["image", "depth", "proprio"],
"task_annotations": true,
"language_instruction": true

需要完整的 Schema 文档包(含字段验证器与示例生成脚本)?

样例下载

SAMPLE DATA

艺恩为各类数据集提供免费小规模样例包(100–5,000 条),供技术评估与 Pipeline 对接测试。样例与正式数据集结构完全一致,包含完整 metadata、标注与授权信息。

申请流程:① 发送邮件至 cs@endata.com.cn,注明公司名称、数据集名称及用途 → ② 商务 1 个工作日内回复并提供 NDA 链接 → ③ NDA 签署后 24 小时内获得下载链接(有效期 7 天)

可申请样例列表
影视综评 SFT 语料
影视综 · 剧评/弹幕/剧本 · 中文
1,000 条 JSONL 申请 →
短视频 VLA 动作序列
具身智能 · 第一人称视角 · 动作标注
200 clips RLDS 申请 →
电商多模态对齐样例
图像+文本 · 商品图/评论对齐
500 对 Parquet 申请 →
社媒 RAG 知识库片段
社媒话题/帖子 · 向量化 · 结构化
2,000 条 JSONL 申请 →
跨境电商多语种语料
英/日/韩/阿/西语 · 商品描述/评论
3,000 条 CSV 申请 →
Agent 工具调用数据
函数签名 + 思维链 CoT · 多轮对话
800 条 JSONL 申请 →

没找到合适的样例?告诉我们你的训练任务,我们会推荐最匹配的数据集。

接入指南

INTEGRATION

艺恩数据集支持三种接入方式,满足不同安全级别与基础设施需求:

方式 ① · 推荐

API 实时拉取

标准订阅方案,持续增量更新。TLS 1.3 加密,默认 100 req/min。

方式 ②

对象存储推送

大批量数据包推送至你的 AWS S3 / 阿里云 OSS / 腾讯云 COS。端对端加密,客户持有 KMS 密钥。

方式 ③

私有云离线部署

数据不出域场景(金融/医疗/国防)。AES-256 加密打包 + 物理介质 + Docker 镜像交付。

① API 实时拉取
HTTP # 查询数据集
POST https://api.endata.com.cn/v1/datasets/query
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json

{
  "dataset_id": "EN-202603-0042",
  "filters": { "task_family": "sft", "language": "zh" },
  "limit": 1000,
  "offset": 0,
  "format": "jsonl"
}
② 对象存储推送(OSS / S3)
JSON {
  "delivery_mode": "oss_push",
  "endpoint": "oss-cn-shanghai.aliyuncs.com",
  "bucket": "your-private-bucket",
  "prefix": "endata/datasets/",
  "encryption": "SSE-KMS",
  "kms_key_id": "your-kms-key-id"
}
③ 私有云离线部署

适用于数据不出域的企业客户。艺恩工程师协助完成全套交付:

· 数据包 AES-256 加密打包及离线介质交付(移动硬盘/专线)
· 私有化标注平台(可选)Docker 镜像部署
· PyTorch / JAX / TensorFlow 数据加载脚本
· 数据完整性校验工具(SHA-256 checksum)

需要技术接入支持或私有云部署评估?

API 文档

REST API v1

艺恩数据 REST API 基于 HTTPS,返回 JSON 格式,使用 Bearer Token 认证。

Base URL & 认证
HTTP # Base URL
https://api.endata.com.cn/v1

# 所有请求携带 Authorization header
Authorization: Bearer YOUR_API_KEY
端点列表
Method路径说明
GET/datasets列出可用数据集(支持分页、过滤)
GET/datasets/{id}获取单个数据集详情 + metadata
POST/datasets/query条件查询与流式数据拉取
GET/datasets/{id}/schema获取数据集 Schema 定义
POST/datasets/{id}/export触发批量导出任务(异步)
GET/jobs/{job_id}查询导出任务状态 & 下载链接
GET/account/quota查询 API 配额与用量统计
速率限制
套餐速率上限月均量上限
标准订阅100 req/min按合同约定
企业订阅定制无上限

超出速率限制返回 HTTP 429 Too Many Requests,响应 Header 中携带 Retry-After 秒数。

Python SDK 快速开始
Python # 安装 SDK
pip install endata-sdk

# 基本用法
from endata import Client

client = Client(api_key="YOUR_API_KEY")

# 流式拉取数据
ds = client.datasets.get("EN-202603-0042")
for batch in ds.stream(batch_size=256):
  train(batch)

# 触发批量导出
job = client.datasets.export("EN-202603-0042", format="parquet")
job.wait() # 轮询直到完成
print(job.download_url)

申请 API Key 或企业订阅套餐。

合规说明

COMPLIANCE

艺恩以完整、可溯源的版权授权链路为核心竞争力,同时持有多项国际信息安全认证,确保 AI 训练数据从采集到交付全链路合规。

层级内容文件证明
第一层画面/内容版权方书面授权版权授权协议(Commercial License)
第二层音乐/配乐版权处理音乐授权证明 或 去除/替换声明
第三层肖像权/个人信息处理肖像授权书 或 脱敏处理报告
数据安全认证
20000
ISO 20000
IT 服务管理体系
27001
ISO 27001
信息安全管理体系
27701
ISO 27701
隐私信息管理 · GDPR/个保法合规
数据安全管理认证
国家市场监督管理总局
AI 数据标注服务能力评估
中国信息通信研究院
国家高新技术企业
GR202411005105
客户数据隔离承诺

· 每个客户数据存储在独立加密命名空间,RBAC 多层权限管控
· 客户数据不用于艺恩内部模型训练或第三方共享
· 可提供 DPA(数据处理协议)模板满足客户法务要求
· 支持客户自带 KMS 密钥(BYOK)的端对端加密交付

需要合规文档包(ISO 证书副本、版权授权链路文档、DPA 模板)?