专为 AI 打造的数据格式 TOON

TOON 是一种专为大模型优化的数据格式,用缩进和表头式结构替代 JSON 的冗余符号,大幅压缩 Token 消耗(较 JSON 减少30–60%)。在209个数据检索任务中平均准确率超越 JSON,尤其适合员工名单、商品列表等规整表格数据,已提供 TypeScript 库与命令行工具支持快速转换。

发布于2025年11月17日 03:13
编辑零重力瓦力
评论0
阅读35

专为 AI 打造的数据格式 TOON

终于有了一种专为 AI 打造的数据格式 TOON(Token-Oriented Object Notation)。它结合了 YAML 和 CSV 的优点,对 JSON 格式的数据进行了压缩,既省空间,又易于理解,尤其适合做为 LLM 的输入。

为什么需要 TOON

现在 AI 越来越强,能看懂的数据也越来越多,但用 JSON 传数据其实很浪费 Token。每个花括号、引号、逗号都要算在内,光是结构就能占掉不少篇幅。TOON 的聪明之处在于,用缩进代替大部分结构符号,数组用类似 CSV 的风格一行一行排列,把字段名提到表头,这样一来,数据的核心内容被最大程度地保留,重复的杂项被压缩、去除。

JSON

{
  "context": {
    "task": "Our favorite hikes together",
    "location": "Boulder",
    "season": "spring_2025"
  },
  "friends": ["ana", "luis", "sam"],
  "hikes": [
    {
      "id": 1,
      "name": "Blue Lake Trail",
      "distanceKm": 7.5,
      "elevationGain": 320,
      "companion": "ana",
      "wasSunny": true
    },
    {
      "id": 2,
      "name": "Ridge Overlook",
      "distanceKm": 9.2,
      "elevationGain": 540,
      "companion": "luis",
      "wasSunny": false
    },
    {
      "id": 3,
      "name": "Wildflower Loop",
      "distanceKm": 5.1,
      "elevationGain": 180,
      "companion": "sam",
      "wasSunny": true
    }
  ]
}

YAML

context:
  task: Our favorite hikes together
  location: Boulder
  season: spring_2025

friends:
  - ana
  - luis
  - sam

hikes:
  - id: 1
    name: Blue Lake Trail
    distanceKm: 7.5
    elevationGain: 320
    companion: ana
    wasSunny: true
  - id: 2
    name: Ridge Overlook
    distanceKm: 9.2
    elevationGain: 540
    companion: luis
    wasSunny: false
  - id: 3
    name: Wildflower Loop
    distanceKm: 5.1
    elevationGain: 180
    companion: sam
    wasSunny: true

TOON

context:
  task: Our favorite hikes together
  location: Boulder
  season: spring_2025

friends[3]: ana,luis,sam

hikes[3]{id,name,distanceKm,elevationGain,companion,wasSunny}:
  1,Blue Lake Trail,7.5,320,ana,true
  2,Ridge Overlook,9.2,540,luis,false
  3,Wildflower Loop,5.1,180,sam,true

不同格式的准确率和 Token 成本

TOON           ████████████████████   26.9  │  73.9% acc  │  2,744 tokens
JSON compact   █████████████████░░░   22.9  │  70.7% acc  │  3,081 tokens
YAML           ██████████████░░░░░░   18.6  │  69.0% acc  │  3,719 tokens
JSON           ███████████░░░░░░░░░   15.3  │  69.7% acc  │  4,545 tokens
XML            ██████████░░░░░░░░░░   13.0  │  67.1% acc  │  5,167 tokens

在 4 个 LLM 上对 209 个数据检索问题的准确率

claude-haiku-4-5-20251001
→ TOON           ████████████░░░░░░░░    59.8% (125/209)
  JSON           ███████████░░░░░░░░░    57.4% (120/209)
  YAML           ███████████░░░░░░░░░    56.0% (117/209)
  XML            ███████████░░░░░░░░░    55.5% (116/209)
  JSON compact   ███████████░░░░░░░░░    55.0% (115/209)
  CSV            ██████████░░░░░░░░░░    50.5% (55/109)

gemini-2.5-flash
→ TOON           ██████████████████░░    87.6% (183/209)
  CSV            █████████████████░░░    86.2% (94/109)
  JSON compact   ████████████████░░░░    82.3% (172/209)
  YAML           ████████████████░░░░    79.4% (166/209)
  XML            ████████████████░░░░    79.4% (166/209)
  JSON           ███████████████░░░░░    77.0% (161/209)

gpt-5-nano
→ TOON           ██████████████████░░    90.9% (190/209)
  JSON compact   ██████████████████░░    90.9% (190/209)
  JSON           ██████████████████░░    89.0% (186/209)
  CSV            ██████████████████░░    89.0% (97/109)
  YAML           █████████████████░░░    87.1% (182/209)
  XML            ████████████████░░░░    80.9% (169/209)

grok-4-fast-non-reasoning
→ TOON           ███████████░░░░░░░░░    57.4% (120/209)
  JSON           ███████████░░░░░░░░░    55.5% (116/209)
  JSON compact   ███████████░░░░░░░░░    54.5% (114/209)
  YAML           ███████████░░░░░░░░░    53.6% (112/209)
  XML            ███████████░░░░░░░░░    52.6% (110/209)
  CSV            ██████████░░░░░░░░░░    52.3% (57/109)

TOON 适合什么场景

最适合用来表示 “表格状” 的数据,像员工名单、商品列表、时间序列这些,每一行都是结构一致的对象。如果你的数据本来就很规整,TOON 就能最大程度节省 Token。官方的测试里,经常能比 JSON 少掉 30-60% 的长度。

TOON 的实现细节

  1. 支持缩进和不同分隔符(逗号、Tab、竖线),能进一步压缩体积
  2. 字符串只有在必须时才加引号,省掉大量标点
  3. 提供 TypeScript 库和命令行工具,支持一键格式转换,能够轻松和 JSON 格式进行切换
  4. 支持 “key folding”,能够把一层一层的嵌套字段折叠成一行,比如 data.metadata.items[2]: a,b,让数据更紧凑

更重要的是,LLM 更喜欢结构简单明的数据,对 TOON 数据的理解更精准,不容易出错。

当然,并不是所有情况下 TOON 都比 JSON 好。比如数据结构很深、每个对象的字段都不一样,这种情况还得老老实实用 JSON。

Github:github.com/toon-format/toon

相关文章

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了
AI 产品工具
2026年6月1日
0 条评论
小创

一段代码让网站出海,这个 AI 翻译工具把多语言 SEO 玩明白了

跨境电商网站常因语言壁垒导致高跳出率。Weglot 是一款 AI 翻译工具,仅需几分钟即可通过添加脚本实现网站多语言本地化,且保持原有排版。该工具支持可视化编辑、术语表锁定及团队协作,便于后续维护。同时,它能自动优化 hreflang 标签、独立 URL 及元数据,解决多语言 SEO 难题。借助母语内容布局小语种市场,企业可以低成本获取流量红利,有效提升海外转化率。

阅读全文
SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了
AI 产品工具
2026年6月1日
0 条评论
零重力瓦力

SCOPE 给 AI 绘画装上了 “语义追踪器”,复杂提示词终于不用反复抽卡了

中科大团队发布 SCOPE 框架,通过结构化语义规格解决 AI 绘画中复杂提示词语义丢失问题。该系统将提示词拆解为实体、约束及未知项,构建包含分解、合成、生成、验证的四步循环,并辅以检索、推理和修复技能,实现生成过程全程可追溯与精准修复。团队还推出 Gen-Arena 评测基准及 EGIP 指标。实验显示 SCOPE 在多项基准中表现优异,为多元素控制场景提供了工程化解决方案,代码已开源。

#AI 绘画
阅读全文
Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟
AI 产品工具
2026年5月28日
0 条评论
零重力瓦力

Stable Audio 3.0 发布:开源音频生成从 11 秒走到 6 分钟

Stability AI 发布开源音频模型 Stable Audio 3.0,最长可生成 6 分 20 秒立体声音频。该模型采用 SAME 架构实现 4096 倍压缩,支持变量长度生成与局部编辑,Small 版本可在移动端离线运行。训练数据均获授权,规避版权风险。提供四个变体及 LoRA 微调文档,社区许可允许商用。此次升级标志着开源音频生成从短音效迈向完整歌曲创作,为开发者提供了本地化、合规的高质量音频生成方案。

#开源模型#AI 音乐
阅读全文
互动讨论

评论区

围绕《专为 AI 打造的数据格式 TOON》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。