#计算机视觉

AI 新闻资讯

2025年11月11日

0 条评论

零重力瓦力

MIT 教授探索类人智能的奥秘

MIT副教授Phillip Isola通过心理物理学实验与视频预测等生成模型，探索人类如何直觉理解物理世界、推断物体功能并预测事件；其研究强调AI与人类认知的双向启发，旨在揭示智能本质的多样性。

DeepSeek 发布了一款超强的开源 OCR 模型：DeepSeek-OCR

DeepSeek 开源 OCR 模型 DeepSeek-OCR 提出“文本渲染为图”新范式，用自研视觉编码器将长文档高压缩为少量视觉 Token，10 倍压缩下还原精度达 97%；支持多语言、复杂版式与图表识别，端到端输出 Markdown/HTML，兼具高效推理与泛视觉理解能力。

英伟达 "描述一切"（Describe Anything）模型介绍

英伟达联合伯克利等机构推出“描述一切”（Describe Anything）模型，支持通过点选、框选、涂鸦等方式交互指定图像或视频局部区域，自动生成精准自然的语言描述。其核心DAM模型融合SAM等分割技术，实现“协同分割+语言理解”，突破整图描述局限，适用于医疗影像、自动驾驶、教育等需细粒度视觉理解的场景。

CAST：精准编排 3D 世界的空间魔术师

CAST仅凭单张照片即可高精度重建3D场景，不仅能解析物体轮廓与深度，还能智能推理被遮挡部分，并通过物理感知校正确保结构合理、不穿模。支持开放类别识别，无需预设物体类型，已在游戏建模、影视虚拟拍摄和机器人仿真环境等场景展现实用价值。

微软 OmniTool 让 AI 轻松实现自动化电脑操作

微软开源OmniParser-v2.0，配合OmniTool可在Windows 11中实现AI驱动的跨应用自动化操作。它能将UI截图解析为结构化数据，精准识别可点击区域并理解功能，支持DeepSeek、Qwen、OpenAI等主流大模型。仅用自然语言提示，即可完成购牛奶、克隆仓库、查磁盘空间等任务。

#智能体#计算机视觉

阅读全文