资讯标签

#多模态

2024年12月25日

Gemini 2.0：从聊天机器人到智能体的进化

Gemini 2.0 实现从对话到行动的跨越：原生支持自主调用搜索、代码解释器、地图等工具，完成多步协同任务；多模态能力更懂文化语境，可生成地域化图像与情境化语音；Flash 版性能反超前代 Pro；专注增强人类能力，为开发者提供构建实用智能体的新基座。

谷歌推出 Whisk：用图片和 AI 重新定义创意表达

谷歌实验室推出图片驱动AI工具Whisk，支持拖拽图片自动解构为“主题、场景、风格”三要素，并基于Gemini+Imagen 3重组生成全新创意图像。它不复制原图，而是提取视觉精髓，适合数字艺术、贴纸等快速创意探索。

第六天：ChatGPT 多模态视频交互功能

ChatGPT第六天正式向大众开放视频通话功能，支持实时音视频交互与多模态指导，例如通过手机摄像头手把手教用户冲泡咖啡。AI由此迈出从纯文本到“看得见、听得到、能指导”的关键一步，工作、学习与生活交互方式或将迎来实质性变化。

第五天：ChatGPT 正式登陆苹果全系设备

ChatGPT 正式登陆苹果全系设备，支持与 Siri 智能协同、写作全流程辅助（从策划到润色）、实时视觉理解（相机直连问答），Mac 端双击 Command 键即可唤起并分析当前文档。目前尚未向国内用户开放，但国产大模型深度集成有望加速落地。

Claude 开发电脑操控模型

Claude 3.5 Sonnet 已具备基础电脑操控能力，能通过屏幕截图识别界面、移动光标、点击和输入，模拟人类操作；在OSWorld评估中达14.9%，领先同类模型；目前处于公测阶段，安全等级为AI安全级别2，需警惕提示注入等风险。

一款将静态教科书中的图示转化为互动物理模拟的创做神器

这款工具用Segment Anything和多模态大模型，自动识别物理教科书中的静态图示，生成可嵌入页面的互动物理模拟，覆盖光学、电路、运动学等场景；结合教师反馈优化出实验增强、动画图示、双向互动与参数可视化四类策略，提升教学趣味性与个性化。

OpenAI 推出实时语音 API 公测版

OpenAI 推出实时语音 API 公测版，支持低延迟流式语音对话、中断响应与函数调用，集成六种自然声音；同步在 Chat Completions API 中新增音频输入输出能力。开发者可用单一接口构建多模态对话体验，适用于教育、客服、辅助功能等场景。

Meta 发布革命性 AR 眼镜原型 Orion

Meta发布AR眼镜原型Orion，70度超广视角、碳化硅镜片与微型LED投影集成于接近普通眼镜的轻量机身；搭载自研芯片及语音、眼动、手势与EMG腕带多模态交互，旨在构建无缝融合AI与现实的下一代计算平台。

字节跳动与浙大联合开发 Loopy 模型，性能媲美阿里微软

字节跳动与浙大联合推出Loopy语音驱动肖像模型，仅需单张图像+音频即可生成自然口型、微表情及头部运动，支持照片/动漫/雕塑等多种风格与侧脸输入；其创新时序模块能建模长程运动规律，无需手动设定运动模板，效果媲美阿里EMO与微软VASA。

#视频生成#多模态

阅读全文

共 63 篇文章，第 7 / 7 页