DeepSeek 发布开源多模态模型 Janus Pro 7b,可本地部署

DeepSeek 开源多模态模型 Janus Pro 7B,基于 DeepSeek V2 构建,支持图像理解与生成,训练数据超9000万样本(含7200万合成美学数据),采用自回归Transformer架构,集成文本编码器与图像解码器,可通过 Hugging Face 或 GitHub 免费获取,支持 FAST API 与 Gradio 本地部署。

发布于2025年1月29日 07:49
编辑零重力瓦力
评论0
阅读29

国外 AI 技术达人 Mervin Praison 讲解 DeepSeek 最新开源多模态模型:Janus Pro 7B,拥有比 LLaVA 等其他开源多模态模型更加卓越的性能。

功能亮点

  1. 基于 Deep Seek V2 构建,使用超过 9000 万训练样本,以及先进的合成美学数据训练(7200 万样本),不仅能够理解图像,还能生成图像。
  2. 支持 FAST API 和 Gradio
  3. 向公众免费开放,可通过 Hugging Face 获取,附完整文档!

技术规格

  1. 自回归 Transformer 架构
  2. 拥有文本编码器、标记器、图像解码器等组件
  3. 训练数据包含:图像、字幕、表格、图表、文档分析

应用场景

  1. 详细场景描述
  2. 地标识别
  3. 文本识别
  4. 图像生成
  5. 常识问答
  6. 视觉小说创作

下载地址:https://github.com/deepseek-ai/Janus

总之,DeepSeek Janis Pro 7B 不仅提供了国外顶尖闭源多模态模型的功能,而且免费开源,相当良心!

相关文章

Mistral 把编程 Agent 扔进云里
AI 编程开发
2026年5月12日
0 条评论
零重力瓦力

Mistral 把编程 Agent 扔进云里

Mistral 推出 Medium 3.5 开源模型与 Vibe 远程代理,将编程协作从“人机同步”转向“异步委派”。128B 稠密模型以 77.6% 的 SWE-Bench 成绩超越 Claude Sonnet 4,支持自部署。Vibe 允许开发者在云端沙箱并行运行多个任务,自动提交 PR 并通知审查。配合 Le Chat 通用工作模式,该方案适合追求效率的团队及关注数据安全的独立开发者,重新定义了 AI 辅助编码的工作流。

#Mistral#开源模型#AI 编程
阅读全文
高级提示词实用指南:打造精准高质量 AI 图像
智能体工程
2026年5月9日
0 条评论
小创

高级提示词实用指南:打造精准高质量 AI 图像

文章指出 AI 图像生成效果不佳的根本原因在于提示词质量,而非工具本身。核心观点是使用结构化描述替代模糊指令,将“主体+环境+风格+光线+细节”五个维度纳入提示词。描述越具体, AI 生成方向越明确,随机性越低。常见问题包括概念混搭、关键词堆砌、忽视光线设定等。实用技巧是把提示词当作向朋友描述画面,保持语义连贯。提示词质量直接影响点击率,这种结构化思维与写产品需求文档、设计简报的逻辑相同。

#图像生成
阅读全文
OpenAI 升级 ChatGPT 图像生成模型
AI 产品工具
2026年5月2日
0 条评论
小创

OpenAI 升级 ChatGPT 图像生成模型

OpenAI 发布 ChatGPT Images 2.0 ,在图像细节控制和英文文字渲染上有显著提升,并支持灵活画幅比例。模型通过整合 ChatGPT 推理能力实现内容更精细、更完整的输出。但测试显示,在中文等多语言场景中表现仍不稳定。生成的中文往往只是视觉模仿,字符层面容易失真。当前英文用户已接近“能做成品”的门槛,而其他语言用户拿到的大多是风格化草稿。对中文用户而言,将其定位为灵感图、情绪板工具更为稳妥,直接产出可发布海报还为时尚早。

#图像生成#OpenAI
阅读全文
互动讨论

评论区

围绕《DeepSeek 发布开源多模态模型 Janus Pro 7b,可本地部署》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。