专为 AI 打造的数据格式 TOON

TOON 是一种专为大模型优化的数据格式,用缩进和表头式结构替代 JSON 的冗余符号,大幅压缩 Token 消耗(较 JSON 减少30–60%)。在209个数据检索任务中平均准确率超越 JSON,尤其适合员工名单、商品列表等规整表格数据,已提供 TypeScript 库与命令行工具支持快速转换。

发布于2025年11月17日 03:13
编辑零重力瓦力
评论0
阅读43

专为 AI 打造的数据格式 TOON

终于有了一种专为 AI 打造的数据格式 TOON(Token-Oriented Object Notation)。它结合了 YAML 和 CSV 的优点,对 JSON 格式的数据进行了压缩,既省空间,又易于理解,尤其适合做为 LLM 的输入。

为什么需要 TOON

现在 AI 越来越强,能看懂的数据也越来越多,但用 JSON 传数据其实很浪费 Token。每个花括号、引号、逗号都要算在内,光是结构就能占掉不少篇幅。TOON 的聪明之处在于,用缩进代替大部分结构符号,数组用类似 CSV 的风格一行一行排列,把字段名提到表头,这样一来,数据的核心内容被最大程度地保留,重复的杂项被压缩、去除。

JSON

{
  "context": {
    "task": "Our favorite hikes together",
    "location": "Boulder",
    "season": "spring_2025"
  },
  "friends": ["ana", "luis", "sam"],
  "hikes": [
    {
      "id": 1,
      "name": "Blue Lake Trail",
      "distanceKm": 7.5,
      "elevationGain": 320,
      "companion": "ana",
      "wasSunny": true
    },
    {
      "id": 2,
      "name": "Ridge Overlook",
      "distanceKm": 9.2,
      "elevationGain": 540,
      "companion": "luis",
      "wasSunny": false
    },
    {
      "id": 3,
      "name": "Wildflower Loop",
      "distanceKm": 5.1,
      "elevationGain": 180,
      "companion": "sam",
      "wasSunny": true
    }
  ]
}

YAML

context:
  task: Our favorite hikes together
  location: Boulder
  season: spring_2025

friends:
  - ana
  - luis
  - sam

hikes:
  - id: 1
    name: Blue Lake Trail
    distanceKm: 7.5
    elevationGain: 320
    companion: ana
    wasSunny: true
  - id: 2
    name: Ridge Overlook
    distanceKm: 9.2
    elevationGain: 540
    companion: luis
    wasSunny: false
  - id: 3
    name: Wildflower Loop
    distanceKm: 5.1
    elevationGain: 180
    companion: sam
    wasSunny: true

TOON

context:
  task: Our favorite hikes together
  location: Boulder
  season: spring_2025

friends[3]: ana,luis,sam

hikes[3]{id,name,distanceKm,elevationGain,companion,wasSunny}:
  1,Blue Lake Trail,7.5,320,ana,true
  2,Ridge Overlook,9.2,540,luis,false
  3,Wildflower Loop,5.1,180,sam,true

不同格式的准确率和 Token 成本

TOON           ████████████████████   26.9  │  73.9% acc  │  2,744 tokens
JSON compact   █████████████████░░░   22.9  │  70.7% acc  │  3,081 tokens
YAML           ██████████████░░░░░░   18.6  │  69.0% acc  │  3,719 tokens
JSON           ███████████░░░░░░░░░   15.3  │  69.7% acc  │  4,545 tokens
XML            ██████████░░░░░░░░░░   13.0  │  67.1% acc  │  5,167 tokens

在 4 个 LLM 上对 209 个数据检索问题的准确率

claude-haiku-4-5-20251001
→ TOON           ████████████░░░░░░░░    59.8% (125/209)
  JSON           ███████████░░░░░░░░░    57.4% (120/209)
  YAML           ███████████░░░░░░░░░    56.0% (117/209)
  XML            ███████████░░░░░░░░░    55.5% (116/209)
  JSON compact   ███████████░░░░░░░░░    55.0% (115/209)
  CSV            ██████████░░░░░░░░░░    50.5% (55/109)

gemini-2.5-flash
→ TOON           ██████████████████░░    87.6% (183/209)
  CSV            █████████████████░░░    86.2% (94/109)
  JSON compact   ████████████████░░░░    82.3% (172/209)
  YAML           ████████████████░░░░    79.4% (166/209)
  XML            ████████████████░░░░    79.4% (166/209)
  JSON           ███████████████░░░░░    77.0% (161/209)

gpt-5-nano
→ TOON           ██████████████████░░    90.9% (190/209)
  JSON compact   ██████████████████░░    90.9% (190/209)
  JSON           ██████████████████░░    89.0% (186/209)
  CSV            ██████████████████░░    89.0% (97/109)
  YAML           █████████████████░░░    87.1% (182/209)
  XML            ████████████████░░░░    80.9% (169/209)

grok-4-fast-non-reasoning
→ TOON           ███████████░░░░░░░░░    57.4% (120/209)
  JSON           ███████████░░░░░░░░░    55.5% (116/209)
  JSON compact   ███████████░░░░░░░░░    54.5% (114/209)
  YAML           ███████████░░░░░░░░░    53.6% (112/209)
  XML            ███████████░░░░░░░░░    52.6% (110/209)
  CSV            ██████████░░░░░░░░░░    52.3% (57/109)

TOON 适合什么场景

最适合用来表示 “表格状” 的数据,像员工名单、商品列表、时间序列这些,每一行都是结构一致的对象。如果你的数据本来就很规整,TOON 就能最大程度节省 Token。官方的测试里,经常能比 JSON 少掉 30-60% 的长度。

TOON 的实现细节

  1. 支持缩进和不同分隔符(逗号、Tab、竖线),能进一步压缩体积
  2. 字符串只有在必须时才加引号,省掉大量标点
  3. 提供 TypeScript 库和命令行工具,支持一键格式转换,能够轻松和 JSON 格式进行切换
  4. 支持 “key folding”,能够把一层一层的嵌套字段折叠成一行,比如 data.metadata.items[2]: a,b,让数据更紧凑

更重要的是,LLM 更喜欢结构简单明的数据,对 TOON 数据的理解更精准,不容易出错。

当然,并不是所有情况下 TOON 都比 JSON 好。比如数据结构很深、每个对象的字段都不一样,这种情况还得老老实实用 JSON。

Github:github.com/toon-format/toon

相关文章

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打
AI 产品工具
2026年6月14日
0 条评论
零重力瓦力

Kimi Work 上线:300 个子智能体在你的电脑上同时干活,个人 Agent 之战正式开打

6 月首周,月之暗面、微软、Google 及 Databricks 密集发布智能体产品,标志着 AI 正从对话助手转向持续行动系统。其中 Kimi Work 主打本地桌面运行,支持多智能体并行与浏览器接管;Microsoft Scout 定位永远在线的个人助理;Google 推出 24 小时信息追踪智能体;Databricks 开源 Omnigent 实现跨智能体互操作。行业共识逐渐形成,智能体将具备自主调度、任务拆解及持续运行能力。

#智能体框架#智能体
阅读全文
互动讨论

评论区

围绕《专为 AI 打造的数据格式 TOON》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。