Google AI Studio 上线了屏幕实时分享功能
Google AI Studio 新增屏幕实时分享功能,支持串流 Chrome 标签页,让 Gemini 实时“看见”页面内容并语音交互,适用于编程辅助等场景;英文语音识别流畅,中文识别偶有误判为日文的情况。
Google 推出 Gemini 2.0 Flash 原生图像生成功能
Google 正式向所有支持地区开发者开放 Gemini 2.0 Flash 原生图像生成功能,可在 Google AI Studio 和 Gemini API 中调用。它支持文本生成图像、对话式实时编辑、常识推理保障内容合理性,并显著提升图像中文字渲染的准确性,适用于故事配图、广告设计等场景。
RAG & CAG:LLM 知识增强的两种路径选择
RAG按需检索外部知识,支持海量数据与实时更新;CAG预加载知识至上下文,响应快但受长度限制。二者并非互斥,在临床决策等复杂场景中可协同使用:RAG调取病历,CAG保障对话连贯。它们代表了知识组织的两种范式,也引发对AI时代知识本质的思考。
我们可以通过 Gemma 3 开发哪些本地 APP
Gemma 3 是 Google 新发布的开源多模态大模型,支持文本+图像输入、128k上下文及140+语言,1B–27B多尺寸适配不同硬件。4位量化后4B模型仅需2.6GB VRAM,可本地部署于CPU或边缘设备,适用于OCR、离线翻译、文档分析、视觉搜索与个性化学习等隐私敏感场景。
一款基于 Gemma 3 的开源 OCR 软件
基于 Gemma 3 12B 多模态模型的轻量级开源 OCR 工具,支持图像文本识别、翻译与答题等任务,显著降低多模态应用开发门槛。项目已开源,代码托管于 GitHub。
如何通过 Claude 控制 Blender 将 2D 图片转化为 3D 模型
无需依赖专用AI建模工具,本文介绍一种新路径:用Scenario生成3D渲染风2D图,再通过BlenderMCP插件让Claude分析图像并驱动Blender自动建模,支持自然语言实时微调。操作简单、精度高,几分钟即可产出复杂场景的可用3D模型,适合设计师与新手。
Gemini 2.0 Flash (Image Generation) 终极图像编辑工具
Gemini 2.0 Flash(图像生成)上线Google AI Studio,免费提供基于自然语言的智能图像编辑能力:支持精准元素替换、多图融合、人物一致性保持、视角与构图调整、物理场景理解重设计、水印去除及情节化插图生成,大幅降低专业级图像编辑门槛。
如何通过 RenderNet 为自己的商品制作视频广告
RenderNet 新增产品图片功能,支持上传真实商品图并智能抠图、缩放旋转,再自然融入 AI 生成或自选背景;一键调用内置 Runway 模型(或接入可灵、海螺等)生成高质量视频广告,专为电商营销优化。
BlenderMCP: 将 Claude 与 Blender 无缝集成
BlenderMCP 是一款基于 MCP 协议的 Blender 插件,实现 Claude 与 Blender 的双向通信。用户可通过自然语言指令创建模型、调整材质、管理场景、运行 Python 脚本,并直接调用 Poly Haven 资源库,显著降低 AI 辅助 3D 创作门槛。