GPT o1-preview 生成的内容能否被检测出来?

作者:Jonathan Gillham (Originality.ai 创始人、CEO)
原文链接:https://originality.ai/blog/is-gpt-o1-content-detectable

2024 年 9 月, OpenAI 发布了新一代 AI 模型 GPT o1-preview。本文简要研究了 Originality.ai 在检测 GPT-o1 生成文本方面的准确性。

OpenAI 推出了一系列新的AI模型,这些模型在响应前会花更多时间思考 GPT o1-preview。根据 OpenAI 的描述,该模型可以推理复杂任务,并在科学、编程和数学等领域解决比以前模型更难的问题。

由于新模型经过推理轨迹训练,可以在回答前进行深入思考,因此在某些领域表现更佳。为了维护网上文本内容的真实性和完整性,我们也需要更强大的 AI 内容检测器。

本研究简要分析了 1000 个GPT o1-preview 生成的文本样本,以测试 Originality.ai 的 AI 检测器是否能检测出 GPT o1-preview。

简要总结 GPT o1-preview 生成的 AI 内容可被检测吗?

  • GPT o1 生成的文本可被高度准确地检测出来
  • Originality.ai 的 3 个模型检测准确率分别为:3.0.0 Turbo: 93.47%、1.0.0 Lite: 91.66%、2.0.1 Standard: 94.47%
  • 相比之下,GPTZero 在检测 "改写人类文本" 样本时表现欠佳,而 Originality.ai 仍展现出强大的 AI 检测能力
  • 检测准确率将很快提升至 99% 以上

数据集

我们准备了 1000 个 GPT o1-preview 生成的文本样本来评估其可检测性。生成方法包括:

  1. 重写提示:第一种方法是向模型提供自定义提示和参考文章(可能是由语言模型生成的),让它重写内容(450个样本)。
  2. 重写人工文本:第二种方法是生成内容,目的是探究 AI 重写人工文本是否能绕过 AI 检测。这部分样本来自一个开源数据集(325个样本)。
  3. 从零开始写文章:第三种方法是基于从虚构到非虚构的各种主题(如历史、医学、心理健康、内容营销、社交媒体、文学、机器人、未来等)从头开始生成的文章(225个样本)。

评估

为评估有效性,我们使用了我们发布的开源AI检测有效性工具

Originality.ai有三个用于AI文本检测的模型:3.0.0 Turbo、2.0.1 Standard,和1.0.0 Lite。

  • 3.0.0 Turbo:如果你对 AI 的容忍度为零!该模型旨在识别任何对 AI 使用,即使是轻度使用。
  • 2.0.1 Standard:一个平衡的模型,如果你可以接受轻微使用 AI (如AI编辑),这是一个很好的选择。
  • 1.0.0 Lite:如果你允许轻度 AI 编辑 (如Grammarly的拼写或语法建议)。

这几款开源测试工具为每个测试返回多种指标,每个指标报告该检测结果的不同方面,包括:

  • 敏感度(真正率 True Positive Rate):正确识别 AI 的比例
  • 特异度(真负率 True Negative Rate):正确识别人类文本的比例
  • 准确率:预测正确的总体比例
  • F1值:特异度和精确度的调和平均数

评估结果

使用 1.0.0 Lite 模型在仅含 AI 数据集上的混淆矩阵
使用 1.0.0 Lite 模型在仅含 AI 数据集上的混淆矩阵

使用 2.0.1 Standard 模型在仅含 AI 数据集上的混淆矩阵
使用 2.0.1 Standard 模型在仅含 AI 数据集上的混淆矩阵

使用 3.0.0 Turbo 模型在仅含 AI 数据集上的混淆矩阵
使用 3.0.0 Turbo 模型在仅含 AI 数据集上的混淆矩阵

Originality.ai 的三个模型在检测 GPT o1-preview 内容方面表现出色:

  • 1.0.0 Lite: 真正率 91.66%
  • 2.0.1 Standard: 真正率 94.47%
  • 3.0.0 Turbo: 真正率 93.47%

使用 GPTZero 模型在仅含 AI 数据集上的混淆矩阵

使用 GPTZero 模型在仅含 AI 数据集上的混淆矩阵

相比之下,GPTZero的表现较差:真正率仅为 56.88%

四个模型结果对比

工具 F1 准确率 TPR
Originality Turbo 97% 93% 93%
Originality Standard (2.0.1) 97% 94% 94%
Originality Lite 96% 92% 92%
GPTZero 73% 57% 57%

最终思考

总的来说,Originality.ai 继续展示出杰出的识别 AI 生成内容的能力,包括最新发布的AI模型,如OpenAI的 o1-preview、GPT-4o 和 GPT-4o-mini。

Originality.ai 的每个 AI 检测模型都能以很高的准确率检测 GPT-o1,从3.0.0 Turbo 的 93.47 % 到 2.0.1 Standard 的 94.47 %,以及 1.0.0 Lite 的 91.66 %。我们的机器学习工程师正在继续提高准确率至 99 % 以上,这与 OpenAI 发布的大多数新模型一样。