#计算机视觉
MIT 教授探索类人智能的奥秘
MIT副教授Phillip Isola通过心理物理学实验与视频预测等生成模型,探索人类如何直觉理解物理世界、推断物体功能并预测事件;其研究强调AI与人类认知的双向启发,旨在揭示智能本质的多样性。
DeepSeek 发布了一款超强的开源 OCR 模型:DeepSeek-OCR
DeepSeek 开源 OCR 模型 DeepSeek-OCR 提出“文本渲染为图”新范式,用自研视觉编码器将长文档高压缩为少量视觉 Token,10 倍压缩下还原精度达 97%;支持多语言、复杂版式与图表识别,端到端输出 Markdown/HTML,兼具高效推理与泛视觉理解能力。
英伟达 "描述一切"(Describe Anything) 模型介绍
英伟达联合伯克利等机构推出“描述一切”(Describe Anything)模型,支持通过点选、框选、涂鸦等方式交互指定图像或视频局部区域,自动生成精准自然的语言描述。其核心DAM模型融合SAM等分割技术,实现“协同分割+语言理解”,突破整图描述局限,适用于医疗影像、自动驾驶、教育等需细粒度视觉理解的场景。
CAST:精准编排 3D 世界的空间魔术师
CAST仅凭单张照片即可高精度重建3D场景,不仅能解析物体轮廓与深度,还能智能推理被遮挡部分,并通过物理感知校正确保结构合理、不穿模。支持开放类别识别,无需预设物体类型,已在游戏建模、影视虚拟拍摄和机器人仿真环境等场景展现实用价值。
微软 OmniTool 让 AI 轻松实现自动化电脑操作
微软开源OmniParser-v2.0,配合OmniTool可在Windows 11中实现AI驱动的跨应用自动化操作。它能将UI截图解析为结构化数据,精准识别可点击区域并理解功能,支持DeepSeek、Qwen、OpenAI等主流大模型。仅用自然语言提示,即可完成购牛奶、克隆仓库、查磁盘空间等任务。
能够通过普通照片中街景自动定位实际位置的 AI 应用:Geospy
Geospy 是一款AI街景定位工具,上传普通照片即可自动识别拍摄地点,返回实时街景与地理信息。目前覆盖旧金山、纽约、孟菲斯、柏林、新加坡五城,适合旅行探索、地理考证与内容核查等场景。
AI 超声检测,孕产妇和婴儿的守护者
谷歌健康开发的AI超声技术,让无专业培训的基层医护也能通过智能手机便携设备完成胎儿及乳腺超声检查,在肯尼亚等地显著提升早筛能力;对孕产妇死亡率高、超声医生匮乏的地区尤为关键,正推动优质产科与乳腺癌筛查服务普惠化。
预防先于治疗:AI 赋能乳腺癌早期筛查
谷歌健康AI系统通过分析数千份乳腺X光片,诊断准确率媲美放射科医生,可识别人眼易忽略的微小病变,助力破解医生短缺难题,提升乳腺癌早期筛查效率与可及性;需厘清技术方、医疗机构与监管部门责任边界,推动“上医治未病”落地。
AI 赋能医疗:从印度的实践到中国的未来
印度用AI+移动X光车提升结核病早筛效率,为资源匮乏地区提供可复制的基层诊断范式;中国可借鉴此路径,以AI强化影像识别与远程辅助,改善偏远地区医疗可及性,但需同步构建责任认定、数据隐私与算法公平等监管框架。