国外 AI 技术达人 Mervin Praison 讲解 DeepSeek 最新开源多模态模型:Janus Pro 7B,拥有比 LLaVA 等其他开源多模态模型更加卓越的性能。
功能亮点
- 基于 Deep Seek V2 构建,使用超过 9000 万训练样本,以及先进的合成美学数据训练(7200 万样本),不仅能够理解图像,还能生成图像。
- 支持 FAST API 和 Gradio
- 向公众免费开放,可通过 Hugging Face 获取,附完整文档!
技术规格
- 自回归 Transformer 架构
- 拥有文本编码器、标记器、图像解码器等组件
- 训练数据包含:图像、字幕、表格、图表、文档分析
应用场景
- 详细场景描述
- 地标识别
- 文本识别
- 图像生成
- 常识问答
- 视觉小说创作
下载地址:https://github.com/deepseek-ai/Janus
总之,DeepSeek Janis Pro 7B 不仅提供了国外顶尖闭源多模态模型的功能,而且免费开源,相当良心!
评论(0)