一款基于 Gemma 3 的开源 OCR 软件

基于 Gemma 3 12B 多模态模型的轻量级开源 OCR 工具,支持图像文本识别、翻译与答题等任务,显著降低多模态应用开发门槛。项目已开源,代码托管于 GitHub。

发布于2025年3月17日 14:00
作者零重力瓦力
评论0
阅读0

一款基于 Gemma 3 12B 的开源 OCR 软件。借助这个轻量化的多模态模型,开发像翻译、图像识别、答题这类以往需要复杂核心技术的应用变得前所未有的简单和高效。大家有没有其他有趣的创意呢?

下载地址:https://github.com/patchy631/ai-engineering-hub/tree/main/gemma3-ocr

相关文章

互动讨论

评论区

围绕《一款基于 Gemma 3 的开源 OCR 软件》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。