导航
数据集 Datasets → 视频数据 · VLA Video Feeds → SaaS 产品 enbase · Marketing Cube → 解决方案 Solutions → 关于我们 About →
语言
中文 CN ✓ English EN →
控制台 联系商务

Video Feeds
for 视频原生 AI & VLA CONTINUOUS · TARGETED · COMPLIANT VIDEO DATA STREAM

视频原生 AI 与具身智能正在改写多模态数据的稀缺性曲线。艺恩以"影视综 + 社媒 + 电商"三大领域积累的全球级视频资产,配套元数据 schema 与多任务标签体系,为视频生成、视频理解、世界模型与 VLA 训练提供持续、合规、可扩展的视频数据流。

视频片段已沉淀2.3B+
日均交付带宽800 TB+
任务族覆盖120+
交付格式RLDS · LeRobot · WebDataset
采集视角第一 / 第三人称 / 多视角

01产品概览 · 为 AI 训练管线而生的视频数据流

艺恩的视频数据交付不是 原始视频 倾倒——每一个数据集都附带可机读的元数据 schema、时序对齐信息与坐标归一化标准,客户的 ingestion 脚本可直接消费。支持任务族(Task Family)定向、跨场景采集、视角控制(第一人称 / 第三人称)、分辨率与帧率自定义。

VIDEO FEEDS · VLA READY

预切好的、按任务族打标的视频片段
端到端交付到客户私有云

不是"收集—清洗—再找平台",而是艺恩把复杂度留在上游,交付直接可用的训练样本。从影视原片到具身数据,四维标签统一 schema。

2.3B+
视频片段
800TB+
日均带宽
120+
任务族
POV FPS SCENE TASK

02数据类型 · 四大来源覆盖全栈视频数据需求

影视综、社媒、电商、具身智能——每一类视频数据都有独特的训练价值。从内容生成的叙事结构,到 POV 第一人称的动作因果,四大来源互补而非重叠。

FILM · TV

影视综视频

剧集、综艺、电影、纪录片片段。配 IP 标签、剧情节点、角色标注、情感曲线。

规模1.2M+ 授权片
叙事标注节点级
适用视频生成
SOCIAL

社媒短视频

短视频、直播切片、UGC 创作。配作者元数据、互动数据、话题标签、音频对齐。

规模820M+ 片段
时长5s–90s
适用视频理解
E-COMMERCE

电商演示视频

直播带货、商品演示、开箱评测。配 SKU 对齐、价格点、卖点标签、转化节点。

规模42M+ 片段
SKU 关联5B+
适用电商 Agent
EMBODIED NEW

具身智能视频

第一人称视角(POV)、动作轨迹、抓取演示、导航路径。配关节角度、力反馈、任务成功标记。

规模持续扩充
任务族120+
适用VLA 训练

03采集与筛选 · 三步到达训练管线

客户带着训练目标来——艺恩将其映射到底层数据源与发现过滤器,高粒度筛选后以结构化方式交付。从 Define 到 Deliver,每一步都可定制。

01
DEFINE · 定义

定义任务族与
场景维度

客户带着训练目标(任务族 / 场景 / 视角 / 时长 / 语言)来——艺恩将其映射到底层数据源与发现过滤器,生成可执行的数据采集策略。

Task Family Scene Filter POV Control Duration
02
CURATE · 筛选

高粒度筛选
与质量评估

基于内容标签、动作语义、画质指标、版权状态多维度过滤,剔除低价值与高合规风险样本,保留训练高 ROI 的"对的数据"。

Quality Score Compliance Filter Semantic Tags Action Labels
03
DELIVER · 交付

结构化交付
到客户私有云

预切片段 + 标准化元数据,导出 RLDS / LeRobot v3 / WebDataset / 自定义 schema,直接对接训练 pipeline。支持增量更新与版本管理。

RLDS LeRobot v3 WebDataset Custom Schema

04交付格式 · 对接主流训练 pipeline

支持 RLDS (Reinforcement Learning Datasets)、LeRobot v3、WebDataset 三大主流格式,外加自定义 schema。客户的 ingestion 脚本可直接消费。

TFRecords-Based
RLDS · Reinforcement Learning Datasets
Google 出品的强化学习数据集标准,TFRecords 打包,原生支持 TensorFlow Datasets 载入。
# episode structure
{
  "observation": {
    "image": <video_frame>,
    "state": <joint_angles>,
  },
  "action": <action_vector>,
  "reward": <scalar>,
}
Parquet · MP4
LeRobot v3
HuggingFace LeRobot 项目标准,Parquet 元数据 + MP4 视频分离存储,支持高效流式加载。
# episode layout
dataset/
├── meta/
│   └── info.json
├── data/
│   └── chunk-000.parquet
└── videos/
    └── episode_000.mp4
Tar · JSON
WebDataset
大规模多模态训练首选格式,tar 打包 + JSON 元数据,支持 PyTorch DataLoader 高吞吐流式读取。
# tar structure
shard_000.tar:
  00001.mp4
  00001.json
  00002.mp4
  00002.json
Flexible · Extensible
Custom Schema
客户可自定义字段、任务标签、时序对齐方式。艺恩提供 schema 设计咨询与验证工具。
# ingestion-friendly
{
  "schema_version": "2.0",
  "fields": ["video", "caption",
    "task_id", "pov", ...],
  "license_chain": [...]
}

05 · NEW 2026具身智能专题集 · Embodied AI Data

第一人称视角 + 动作标注的具身训练数据。配合 2026 具身智能商业化元年,艺恩上线专项数据集:厨房、家居、导航、操作四大场景族,持续扩充任务族覆盖。

KITCHEN

厨房场景

取物、切配、烹饪、清洁——完整厨房任务族 POV + 动作标注。

HOUSEHOLD

家居场景

整理、清扫、开关电器、照料植物——日常家居任务多样本。

NAVIGATION

导航场景

室内室外导航、避障、路径规划、目标追踪 POV 视频流。

MANIPULATION

操作场景

抓取、放置、组装、使用工具——精细操作任务族完整标注。

准备好开始你的视频数据训练

告诉我们训练目标与任务族需求,艺恩可提供小规模 Sample 评估 + 完整 数据规范文档。