带有文字的 AI 视频对比
AIGC达人Heather Cooper用同一张Midjourney生成的无文字原图,测试可灵、海螺AI、Runway与Luma四大工具的“带文字视频”生成能力。统一提示词强调低角度时尚广告场景及文案“Your style, your way”,重点比对文字自然度、运镜流畅性与画面质感。
手势同步开源模型:TANGO
TANGO是东京大学与CyberAgent AI联合推出的开源手势同步模型,可将人物视频中的手势动作与任意音频精准对齐,补足了现有口型同步技术在肢体协同上的空白,适合虚拟人、动画制作及交互式AI应用。
AI 制作的 Up Summit 峰会开幕影片
UP Summit峰会开幕影片全程由AI生成,创作者S H U E T I用Midjourney绘制火焰、宇航员、火箭、K2、战斗机、机器人与Cybertruck等意象,再经Runway Gen-3合成视频,配以汉斯·季默风格配乐,技术表现力与史诗气质兼备。
一款将静态教科书中的图示转化为互动物理模拟的创做神器
这款工具用Segment Anything和多模态大模型,自动识别物理教科书中的静态图示,生成可嵌入页面的互动物理模拟,覆盖光学、电路、运动学等场景;结合教师反馈优化出实验增强、动画图示、双向互动与参数可视化四类策略,提升教学趣味性与个性化。
16 岁香港少年 3 小时开发超酷图像编辑工具
香港16岁少年Rexan Wong用Cursor和v0仅3小时开发出图像编辑工具“Text Behind Image”,可智能将文字嵌入图片主体与背景之间,实现自然分层融合,操作简洁、效果出众,适合快速制作海报、社交配图等场景。
Midjourney + 海螺 AI 实现高速打斗视频
Midjourney v6.1 生成1980年代黑暗奇幻忍者电影风格静态帧,海螺AI将其转为镜头跟随、拳脚凌厉的高速打斗视频;动作连贯性与电影感明显提升,虽未完全成熟,但已展现出AI协同生成动态武打内容的新可能。
可灵口型同步功能试用
可灵上线口型同步功能,支持33种音色与0.8–2倍语速调节,单次生成5秒视频并保留人物原有动作;口型匹配自然度较好,但面部表情略显僵硬,暂未加入眨眼等微表情细节。
如何搭建免费的本地版 Llama 3.2 AI 网络爬虫
无需联网、不依赖API,用本地运行的Llama 3.2 + ScrapeGraphAI搭建自然语言驱动的AI爬虫:输入网址和中文提示,即可自动提取网页结构化数据。全程免费,支持离线使用,适合开发者快速实现定制化信息采集。
超级好用的免费音视频字幕生成工具:Whisper Web
Whisper Web 是一款免费、本地运行的音视频字幕工具,基于 OpenAI Whisper Large v3 Turbo 模型,20秒即可为25分钟音频生成高精度字幕,全程离线、无需联网。支持 npm 快速启动,Firefox 用户需手动启用 Web Workers。