DeepSeek-R1 让 Blackwell 架构的性能大升级
英伟达推出TensorRT优化的FP4版DeepSeek-R1,运行于Blackwell架构时相较H100提升25倍收益、降低单Token成本20倍;MMLU测试达FP8版本99.8%精度,兼顾速度与准确率;FP4模型已开源至Hugging Face。
Claude 3.7 Sonnet 横空出世:程序员的最爱 or 最大威胁?
Claude 3.7 Sonnet 编程能力突出,GitHub 问题解决率达 73%,命令行工具 Claude Code 支持代码构建、测试与执行;已分流 Stack Overflow 流量,但对新兴语言支持弱、复杂任务受限,且定价偏高($15/百万输出 Token)。
微软全方位防御 AI "越狱" 和 Prompt 攻击
微软推出Prompt Shields等多层防御方案,实时检测并阻断AI“越狱”与隐蔽的间接提示攻击;结合安全评估工具、Defender for Cloud与Purview,覆盖开发、部署与数据管理全链路,助力企业安全落地生成式AI应用。
NEO Gamma:人形机器人即将走进家庭
1X Technologies推出的NEO Gamma是首款进入家庭内测的仿人机器人,采用柔软针织外壳与“情感耳环”设计,支持自然步态、坐卧拾物等拟人动作,并搭载自主语言模型,可理解上下文、多步指令及肢体交互,真正迈向日常陪伴。
Figure AI 兑现承诺,人形机器人 Figure 02 展示推理能力
Figure 02 展示真正自主推理能力:自研多模态AI可识别环境、理解陌生物体并自主决策放置位置,初步具备协作能力;虽当前动作较慢,但投资人预计其速度未来可达人类1.2–1.5倍,通用人形机器人正进入自学新阶段。
AI 视频工具 Haiper.ai 宣布停运
曾受关注的AI视频工具Haiper.ai宣布停止个人业务,网站已关闭视频生成功能;未使用会员费将自动退款,用户需尽快下载保存已有作品。
横空出世的 Grok 3 是否具有碾压性的优势?
Grok 3在数学、科学、编程等推理任务中全面超越Gemini 2、Claude 3.5 Sonnet与GPT-4o,Chatbot Arena盲测登顶1400分;搭载可追溯信源的Deep Search智能搜索工具,支持交叉验证与可控检索;已上线网页版及iOS应用,Grok 2即将开源,Grok 3后续亦计划开源。
关于 “聪明得可怕” 的 Grok 3,你需要了解的一切
xAI将于2月17日发布Grok 3,马斯克称其“聪明得可怕”。依托10万H100 GPU构建的Colossus超算,结合合成数据训练、自我纠错与强化学习,显著降低幻觉、提升逻辑推理能力,在复杂任务上 reportedly 超越ChatGPT和Gemini。
“聪明得可怕” 的 Grok 3 和马斯克的第一性原理
马斯克称Grok 3将“聪明得可怕”,关键在于引入第一性原理推理——不依赖统计模式,而是从物理、数学等基本规律出发进行逻辑推演。这有望提升因果理解、创新能力和决策效率,让AI真正具备自主认知与发现能力,尤其在科研、工程等需深度推理的领域展现突破潜力。