第二天:OpenAI 推出强化学习微调功能,让 AI 模型更懂"专业"

OpenAI 推出基于 o1 系列的强化学习微调(RFT)功能,仅需数十至千级专业数据(如罕见病病例)和自定义评分器,即可显著提升模型在医疗、法律等垂直领域的推理能力;微调后 o1-mini 致病基因预测准确率达 31%,远超基线。目前通过 Alpha 项目内测,明年初正式上线。

发布于2024年12月7日 13:08
编辑零重力瓦力
评论0
阅读16

第二天:OpenAI 将推出强化学习微调(Reinforcement Fine-tuning)功能,让 AI 模型更懂"专业"!

这项基于 o1 系列模型的强化学习微调技术,让用户能够用自己的专业数据对模型进行定制化训练,使其在特定领域获得更专业的表现。

与传统的监督式微调不同,强化学习微调不仅仅是让模型模仿输入,而是教会模型在特定领域进行全新的推理。OpenAI 研究人员表示,只需几十个示例,模型就能学会在自定义领域用新的方式进行有效推理。

研究人员以识别罕见遗传病为例, 通过伯克利实验室研究人员提供的约 1100 个病例数据对 o1-mini 模型进行强化学习微调后,模型在预测致病基因的准确率上超过了未经微调的 o1 模型。微调后的 o1-mini 在首选基因预测的准确率达到 31%,高于原始 o1-mini 的 17% 和 O1 的 25%。

使用强化学习微调非常简单,用户只需提供训练数据集和评分标准,OpenAI 的训练系统就会自动完成模型优化。训练数据采用每行包含一个训练样本的 JSONL 格式。评分器则负责对模型的输出进行打分,帮助模型区分好的和差的答案。

这项功能目前正在通过 Alpha 项目向部分用户开放,预计将于明年初正式发布。OpenAI 表示,这项技术特别适合那些在复杂专业领域工作、希望获得 AI 辅助的团队。除了医疗领域,该技术在生物化学、AI 安全、法律等领域都显示出强大的应用前景。

这项技术的发布,标志着 OpenAI 将 AI 模型从通用型向专业型转变的重要一步。通过强化学习微调,各行各业的专家们都能基于自己的专业数据打造更专业的 AI 助手,这将大大加速 AI 在专业领域的应用。

OpenAI Alpha 项目申请链接:https://openai.com/form/rft-research-program

相关文章

OpenAI 的存在性问题
AI 新闻资讯
2026年4月20日
0 条评论
小创

OpenAI 的存在性问题

OpenAI 近期收购个人理财初创公司 Hiro 和商业访谈媒体 TBPN ,看似小规模交易,实则暴露其两大困境:一是 ChatGPT 之外产品的变现难题,二是日趋紧张的公众形象。 Anthropic 在企业市场和编程工具领域持续施压,令 OpenAI 焦虑。这两次收购更像是修补产品线、修复舆论的应急之举,而非战略扩张。

#OpenAI
阅读全文
GPT-Rosalind 正式发布,助力生命科学研究
AI 新闻资讯
2026年4月20日
0 条评论
小创

GPT-Rosalind 正式发布,助力生命科学研究

OpenAI 推出首个生命科学专用推理模型 GPT-Rosalind ,专为药物研发早期阶段设计,以 Rosalind Franklin 命名。该模型在分子生物学、蛋白质、基因等推理任务中表现优异,已与 Amgen 、 Moderna 等企业建立合作。模型在多项基准测试中领先,并在序列预测任务中达到人类专家水平。为防范滥用风险,模型通过可信访问计划部署。 OpenAI 还推出免费研究插件,提供对 50 余个公共数据库的访问,标志着 AI 在生命科学领域进入精细化应用阶段。

#OpenAI
阅读全文
一文读懂我们的 Model Spec 制定方法
AI 新闻资讯
2026年4月20日
0 条评论
小创

一文读懂我们的 Model Spec 制定方法

OpenAI 发布 Model Spec ,首次系统公开模型行为治理框架。该规范以高层目标为起点,建立权威等级体系处理指令冲突,明确硬性规则与默认行为边界,并通过决策框架和案例提供操作指引。此举为外部监督提供切入点,但也暴露透明度与实际决策权之间的张力——公众参与仍停留在反馈层面。未来框架需在可读性、可操作性、可修正性三维度持续演进,真正实现行为规范与实际部署的有效对齐。

#OpenAI
阅读全文
互动讨论

评论区

围绕《第二天:OpenAI 推出强化学习微调功能,让 AI 模型更懂"专业"》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。