一款基于 Gemma 3 12B 的开源 OCR 软件。借助这个轻量化的多模态模型,开发像翻译、图像识别、答题这类以往需要复杂核心技术的应用变得前所未有的简单和高效。大家有没有其他有趣的创意呢?
下载地址:https://github.com/patchy631/ai-engineering-hub/tree/main/gemma3-ocr
一款基于 Gemma 3 12B 的开源 OCR 软件。借助这个轻量化的多模态模型,开发像翻译、图像识别、答题这类以往需要复杂核心技术的应用变得前所未有的简单和高效。大家有没有其他有趣的创意呢?
下载地址:https://github.com/patchy631/ai-engineering-hub/tree/main/gemma3-ocr
拆成可复用角色;hermes-agent 主打任务后自动沉淀技能、让智能体越用越聪明;Superpowers 以测试驱动流程串起开发全链路;Paperclip 则尝试用多智能体编排“零人工公司”。
Adobe Firefly上线自定义图像模型功能,用户上传10张以上图片即可训练专属艺术风格模型,聚焦AI美学方向;但该能力比Midjourney晚半年推出,AI视频部分未采用自研模型,转而接入可灵2.6,引发对其技术节奏与生态策略的质疑。
Luma 推出 UNI-1,一种突破性多模态推理模型:它并非语言或图像模型的拼接,而是将世界理解与图像生成统一于单次前向推理中,实现“先看懂、再画出”。架构上尝试融合逻辑推理与视觉想象,被称作“左右脑合一”,或预示AI建模范式的转向。
围绕《一款基于 Gemma 3 的开源 OCR 软件》展开交流,未登录用户可浏览评论,登录后可参与讨论。