如何通过 Runway 图像参考(Reference)功能制作创意视频
Travis Davids 用 Runway Gen-4 的图像参考功能,上传蒙娜丽莎肖像与郁金香花田背景图,结合精准服饰提示词,生成人物形象稳定、风格统一的创意视频,实现经典角色的动态重塑。
DeepSeek-Prover-V2:让数学证明自动化走进现实
DeepSeek-Prover-V2 是基于 Lean 4 的数学自动证明模型,融合思维链、子目标分解与强化学习,能生成可被计算机严格验证的形式化证明。它覆盖竞赛题到高等数学,配套开源基准集 ProverBench,在 MiniF2F 等评测中表现突出,推动数学证明自动化走向实用。
Krea GPT:结合自然语言和图示的 AI 绘画方式
Krea GPT 是 Krea.ai 推出的新型 AI 绘画工具,融合自然语言指令与手绘草图交互,在 GPT-4o、Gemini 等模型图像编辑能力基础上,实现更精准、更直观的图像生成与修改,适合需要精细控制输出效果的设计者和创作者。
Midjourney 发布全能参考系统技术:Omni-Reference
Midjourney V7 推出 Omni-Reference 全能参考系统,支持将任意图像中的角色、物体、载具等元素精准复现到新图中。通过网页拖拽或 Discord 的 `--oref` 与 `--ow` 参数(0–1000)调节参考强度,可灵活平衡风格迁移与高保真还原,目前处于实验阶段。
通过图片、视频生成音乐的 AI 神器:Tem.Polor
Tem.Polor 是一款视觉驱动的AI音乐生成工具,支持上传图片或视频,自动分析画面内容与情绪,生成风格契合的专属背景音乐。不同于Suno、Udio等文生音模型,它为短视频、图文等内容创作者提供了更直观、高效的配乐方案。
如何通过 Gemini 2.5 Pro 实现 3D 应用程序的氛围编程
Gemini 2.5 Pro 内置编辑器支持“氛围编程”:上传蛋糕图片后,用自然语言指令即可生成可交互的 Three.js 3D 蛋糕可视化应用,实时调整颜色、装饰、层数、动画,并同步更新价格估算,所有修改即时预览。
英伟达 "描述一切"(Describe Anything) 模型介绍
英伟达联合伯克利等机构推出“描述一切”(Describe Anything)模型,支持通过点选、框选、涂鸦等方式交互指定图像或视频局部区域,自动生成精准自然的语言描述。其核心DAM模型融合SAM等分割技术,实现“协同分割+语言理解”,突破整图描述局限,适用于医疗影像、自动驾驶、教育等需细粒度视觉理解的场景。
国外技术达人 Mervin Praison 通义千问3 实测
阿里发布通义千问3(Qwen3),全球开源大模型榜首,采用MoE架构,支持0.6B–32B多尺寸及混合思考模式;覆盖119种语言,训练数据翻倍,免费商用并开放权重;实测推理能力强,但在细节任务如单词计数、严格格式生成上仍有优化空间。
自然语言图像编辑工具 Step1X Edit 介绍
Stepfun开源自然语言图像编辑模型Step1X-Edit,支持用文本指令完成昼夜转换、加眼镜、添文字等精细编辑,效果接近GPT-4o与Gemini 2。基于多模态大模型与扩散解码器协同,需较高显存(512×512约42.5GB),推荐80GB GPU运行。