Gemini File Search 支持图片了:多模态 RAG 从此不只是文本检索
5 月 5 日,Google Gemini API 的 File Search 新增多模态检索、元数据过滤及页码引用功能。核心在于引入原生多模态嵌入模型,支持直接对图片、图表进行语义搜索,无需依赖 OCR。该托管服务大幅降低自建 RAG 系统的开发门槛,适合需处理大量视觉资料的企业或开发者。不过需注意其暂不支持音视频格式,且一旦选定嵌入模型无法无缝升级。
用 Agent 搭建 n8n 工作流,告别手动拖拽时代
n8n 推出全新 MCP 支持,允许 AI 智能体直接创建和编辑工作流,彻底告别手动编写 JSON。团队为此专门设计了新语法与 SDK,实现 schema 验证、数据表构建及流程测试。该功能兼容 Claude Code、Cursor 等主流编程助手,不绑定特定模型,所有用户升级至 2.18.3 版本即可免费使用。这标志着连工作流搭建本身正逐步被智能体替代,为复杂自动化流程的生成带来新可能。
LM Studio 和 Ollama 到底该选哪个
本地部署大模型时,LM Studio 与 Ollama 各有侧重。前者主打图形化界面,适合快速上手和模型对比。后者作为后台引擎,性能更优且支持自动硬件调用,在自动化工作流中表现更佳。随着版本迭代,两者功能边界虽逐渐模糊,但在 API 兼容性、并发处理及智能体集成方面,Ollama 仍具备明显优势。用户可根据是追求便捷体验还是深度集成需求来选择合适的工具。
Karpathy 最新演讲:AI 编程正在从 “氛围编程” 转向“智能体工程”
Andrej Karpathy 在 Sequoia AI Ascent 2026 提出编程范式正从 Vibe Coding 转向 Agentic Engineering。核心变化在于工作重心从编写代码转为编排智能体,要求开发者具备系统设计与审查能力。演讲强调需警惕"80%问题”,即利用 AI 快速完成基础工作后,必须依靠人类经验处理安全、架构等剩余难点。这一转变意味着理解力将比编码能力更稀缺,对开发者、管理者及创业者重新定义产品与团队角色具有关键指导意义。

精通 Claude 提示工程:营销人员实操指南
模糊指令是 AI 输出质量低下的根源,强调结构化提示词工程已成为营销竞争优势。核心方法包括:任务定义要具体、明确角色设定、指定输出格式。技术层面可通过让 AI 先推理、加约束条件、一次生成多版本等方式提升效果。元提示词可实现工作流复用,持续测试迭代是保持输出稳定的关键。

哈佛研究: AI 急诊诊断准确度超越两位医生
哈佛团队研究显示, OpenAI 的 o1 模型在急诊分诊的文本诊断中准确率达 67%,略优于内科医生的 50-55%。但研究者强调,这仅测试了文本处理能力, AI 尚无法替代临床决策中的责任归属、患者沟通及复杂情境判断。

奥斯卡新规: AI 生成演员和剧本无参评资格
奥斯卡学院公布新版评奖规则,明确生成式 AI 使用边界。规则要求参评表演必须获得本人同意,剧本必须属于“人类创作”。此调整旨在回应 AI 技术快速进入影视生产引发的争议,守住创作主体地位。学院聚焦“谁在表演、谁在写作”这一核心问题,既不全面禁用 AI ,也不接受技术中立说,而是通过资格认定来保护署名、授权和创作者身份的传统秩序。

最佳 AI 语音转文字应用实测排行
AI 语音输入应用已从“识别准确”转向多维度竞争。主流产品各具特色:本地隐私型( Monologue 、 VoiceTypr )、工作流整合型( Wispr Flow )、低价买断型( VoiceInk 、 Dicatto )等。竞争焦点已不限于识别率,而是隐私保护、场景适配和“写作起点”的争夺。谁更懂用户在不同场景的表达意图,谁就能占据内容生产流程的先机。

ChatGPT Images 2.0 在印度受热捧,但目前在其他地方尚未大获成功
虽然 OpenAI 声称印度成为 ChatGPT Images 2.0 最大用户市场,但第三方数据显示全球增长实则温和,下载量仅增 11%,日活和流量涨幅约 1%。巴基斯坦、越南、印尼等新兴市场反而出现高达 79%的下载增长。印度用户主要将该功能用于个人表达场景,如风格化肖像、社交头像等,反映出 AI 图像工具在不同市场的落地方式存在差异。