专为 AI 打造的数据格式 TOON

TOON 是一种专为大模型优化的数据格式,用缩进和表头式结构替代 JSON 的冗余符号,大幅压缩 Token 消耗(较 JSON 减少30–60%)。在209个数据检索任务中平均准确率超越 JSON,尤其适合员工名单、商品列表等规整表格数据,已提供 TypeScript 库与命令行工具支持快速转换。

发布于2025年11月17日 03:13
编辑零重力瓦力
评论0
阅读21

专为 AI 打造的数据格式 TOON

终于有了一种专为 AI 打造的数据格式 TOON(Token-Oriented Object Notation)。它结合了 YAML 和 CSV 的优点,对 JSON 格式的数据进行了压缩,既省空间,又易于理解,尤其适合做为 LLM 的输入。

为什么需要 TOON

现在 AI 越来越强,能看懂的数据也越来越多,但用 JSON 传数据其实很浪费 Token。每个花括号、引号、逗号都要算在内,光是结构就能占掉不少篇幅。TOON 的聪明之处在于,用缩进代替大部分结构符号,数组用类似 CSV 的风格一行一行排列,把字段名提到表头,这样一来,数据的核心内容被最大程度地保留,重复的杂项被压缩、去除。

JSON

{
  "context": {
    "task": "Our favorite hikes together",
    "location": "Boulder",
    "season": "spring_2025"
  },
  "friends": ["ana", "luis", "sam"],
  "hikes": [
    {
      "id": 1,
      "name": "Blue Lake Trail",
      "distanceKm": 7.5,
      "elevationGain": 320,
      "companion": "ana",
      "wasSunny": true
    },
    {
      "id": 2,
      "name": "Ridge Overlook",
      "distanceKm": 9.2,
      "elevationGain": 540,
      "companion": "luis",
      "wasSunny": false
    },
    {
      "id": 3,
      "name": "Wildflower Loop",
      "distanceKm": 5.1,
      "elevationGain": 180,
      "companion": "sam",
      "wasSunny": true
    }
  ]
}

YAML

context:
  task: Our favorite hikes together
  location: Boulder
  season: spring_2025

friends:
  - ana
  - luis
  - sam

hikes:
  - id: 1
    name: Blue Lake Trail
    distanceKm: 7.5
    elevationGain: 320
    companion: ana
    wasSunny: true
  - id: 2
    name: Ridge Overlook
    distanceKm: 9.2
    elevationGain: 540
    companion: luis
    wasSunny: false
  - id: 3
    name: Wildflower Loop
    distanceKm: 5.1
    elevationGain: 180
    companion: sam
    wasSunny: true

TOON

context:
  task: Our favorite hikes together
  location: Boulder
  season: spring_2025

friends[3]: ana,luis,sam

hikes[3]{id,name,distanceKm,elevationGain,companion,wasSunny}:
  1,Blue Lake Trail,7.5,320,ana,true
  2,Ridge Overlook,9.2,540,luis,false
  3,Wildflower Loop,5.1,180,sam,true

不同格式的准确率和 Token 成本

TOON           ████████████████████   26.9  │  73.9% acc  │  2,744 tokens
JSON compact   █████████████████░░░   22.9  │  70.7% acc  │  3,081 tokens
YAML           ██████████████░░░░░░   18.6  │  69.0% acc  │  3,719 tokens
JSON           ███████████░░░░░░░░░   15.3  │  69.7% acc  │  4,545 tokens
XML            ██████████░░░░░░░░░░   13.0  │  67.1% acc  │  5,167 tokens

在 4 个 LLM 上对 209 个数据检索问题的准确率

claude-haiku-4-5-20251001
→ TOON           ████████████░░░░░░░░    59.8% (125/209)
  JSON           ███████████░░░░░░░░░    57.4% (120/209)
  YAML           ███████████░░░░░░░░░    56.0% (117/209)
  XML            ███████████░░░░░░░░░    55.5% (116/209)
  JSON compact   ███████████░░░░░░░░░    55.0% (115/209)
  CSV            ██████████░░░░░░░░░░    50.5% (55/109)

gemini-2.5-flash
→ TOON           ██████████████████░░    87.6% (183/209)
  CSV            █████████████████░░░    86.2% (94/109)
  JSON compact   ████████████████░░░░    82.3% (172/209)
  YAML           ████████████████░░░░    79.4% (166/209)
  XML            ████████████████░░░░    79.4% (166/209)
  JSON           ███████████████░░░░░    77.0% (161/209)

gpt-5-nano
→ TOON           ██████████████████░░    90.9% (190/209)
  JSON compact   ██████████████████░░    90.9% (190/209)
  JSON           ██████████████████░░    89.0% (186/209)
  CSV            ██████████████████░░    89.0% (97/109)
  YAML           █████████████████░░░    87.1% (182/209)
  XML            ████████████████░░░░    80.9% (169/209)

grok-4-fast-non-reasoning
→ TOON           ███████████░░░░░░░░░    57.4% (120/209)
  JSON           ███████████░░░░░░░░░    55.5% (116/209)
  JSON compact   ███████████░░░░░░░░░    54.5% (114/209)
  YAML           ███████████░░░░░░░░░    53.6% (112/209)
  XML            ███████████░░░░░░░░░    52.6% (110/209)
  CSV            ██████████░░░░░░░░░░    52.3% (57/109)

TOON 适合什么场景

最适合用来表示 “表格状” 的数据,像员工名单、商品列表、时间序列这些,每一行都是结构一致的对象。如果你的数据本来就很规整,TOON 就能最大程度节省 Token。官方的测试里,经常能比 JSON 少掉 30-60% 的长度。

TOON 的实现细节

  1. 支持缩进和不同分隔符(逗号、Tab、竖线),能进一步压缩体积
  2. 字符串只有在必须时才加引号,省掉大量标点
  3. 提供 TypeScript 库和命令行工具,支持一键格式转换,能够轻松和 JSON 格式进行切换
  4. 支持 “key folding”,能够把一层一层的嵌套字段折叠成一行,比如 data.metadata.items[2]: a,b,让数据更紧凑

更重要的是,LLM 更喜欢结构简单明的数据,对 TOON 数据的理解更精准,不容易出错。

当然,并不是所有情况下 TOON 都比 JSON 好。比如数据结构很深、每个对象的字段都不一样,这种情况还得老老实实用 JSON。

Github:github.com/toon-format/toon

相关文章

Genspark 4.0 创作者的专属龙虾
AI 产品工具
2026年4月18日
0 条评论
小创

Genspark 4.0 创作者的专属龙虾

硅谷 AI 独角兽 Genspark 发布 Workspace 4.0,核心升级 Claw 功能专为创作者打造。它能自动化处理调研、邮件、PPT 等跨步骤杂活,并支持串联跨应用重复操作。新增 Clip Genius、AI Designer 及故事板生成工具,可自动提取视频信息、产出品牌素材与分镜脚本。配合 AI Developer,用户仅需自然语言描述即可搭建网站。该工具旨在让创作者从繁琐幕后工作中解放,专注于结果把控。

#智能体
阅读全文
xAI 将于下周发布 Grok Build 和 Grok CLI
AI 产品工具
2026年4月18日
0 条评论
小创

xAI 将于下周发布 Grok Build 和 Grok CLI

xAI 将于下周发布 Grok Build 和 Grok CLI ,正式进军智能体编程赛道,与 Claude Code 、 OpenAI Codex 等竞争。 Grok 4.3 已向订阅用户开放测试。产品采用本地与远程双轨设计,亮点是 Arena 模式,让多个智能体同场竞争,用户直接挑选最佳结果。此外还有 Grok Computer 桌面客户端和第三方服务连接器生态布局,差异化竞争策略明确。

#Grok#AI 编程
阅读全文
Anthropic 推出 Claude Design :快速生成视觉素材
AI 产品工具
2026年4月18日
0 条评论
小创

Anthropic 推出 Claude Design :快速生成视觉素材

Anthropic 推出 Claude Design ,用户通过自然语言描述即可生成原型图、幻灯片等视觉内容,面向缺乏设计背景的创业者和产品经理。该产品定位为与 Canva 互补而非竞争,支持导出多种格式并可导入 Canva 进行精修。企业用户还能利用品牌一致性功能,保持统一的视觉风格。此举被视为 Anthropic 深化企业市场的重要举措,估值或达 8000 亿美元。

#Anthropic
阅读全文
互动讨论

评论区

围绕《专为 AI 打造的数据格式 TOON》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。