作者:Bryan Loh(RUNWAY AI)
翻译:零重力瓦力
原文:https://runwayml.com/research/creativity-as-search-mapping-latent-space
创意探索可以被视为在可能性空间中的搜索过程。我们创造解决方案,评估它们,并不断改进直到达到令人满意的结果。生成式模型的潜在空间(Latent Space)为这一抽象概念提供了完美的软件映射。在这个空间里,每个点都对应着一种可能的创作成果,而这些成果都符合模型从数据中归纳出的创作规律。
传统上,创意软件主要用在创作的最终阶段,用于精炼和生成最终的输出结果。其中的一个原因在于语言:我们必须将用户的创意意图翻译成繁琐的、机器可读的基础参数序列,例如像素坐标和十六进制颜色代码。而生成模型改变了这一点。现在,我们不再需要操作这些基础参数,而是可以通过自然的方式表达意图,跨越多种形式,例如:
- "这张图片在傍晚时分会是什么样子?"
- "让这个视频匹配这些图片的风格。"
这种转变让软件从生产工具发展成为一种创意探索的工具。
然而,如何在如此庞大的潜在空间中导航,为界面设计带来了新的挑战:
- “我们怎么才能更好地展示这些复杂的高维空间,帮助用户找到有趣的区域进行探索?”
- “我们如何在让用户既能精确控制,同时也保留一些意外收获的可能性?”
- “我们如何保证用户创作和探索时的灵活性,既能发散思路,又能集中想法?”
我们最近分享了关于新媒体时代的界面设计理念。今天,我们很高兴展示一个通过视频关键帧探索这些问题的原型。
图结构:潜在空间的窗口
一个由图像节点和过渡视频组成的图。图中的连续路径代表了一个连续的视频序列。
图结构是该原型的基础。图像被表示为节点,作为模型潜在空间中的路标。这些节点可以连接到其他节点以创建过渡视频。视频则是通过潜在空间和时间从第一帧过渡到最后一帧的过程。
平衡控制与偶然性
精确的控制有助于限制潜在空间中的可能性。不过,变化和不可预测性有时也能带来“意外之喜”。精确控制下可能会丧失一些意外的可能性。为了平衡这种情况,我们为用户提供了两种以“关系性”的方式操作图像的功能,从而在一致的维度中允许有一定的不可预测性。
用户可以使用“图生图”(Image to Image)功能,通过文本提示改变图像风格,同时保留图像的原始构图。
支持非线性探索
具有创造性的探索很少是线性的。图结构支持各种非线性的探索,允许用户在各个节点分支,创建新的创意分支。随着探索的增加,空间中的图(节点)会自然增长,并跟踪各种实验路径。
这使用户能够构建非线性时间线。我们提供了一个序列器,允许用户将其非线性时间线导出为具有线性时间线的视频,类似于“自己选择冒险”式的体验。
开放的工作空间
除了图结构,我们没有对工作空间施加任何组织限制。用户可以自由地组织节点和过渡视频,将相关探索聚集在一起,或者根据他们的创作需求分开成独立的实验。
进一步探索
我们的原型展示了在生成式媒体时代创意界面的演变。图结构提供了一种在潜在空间中进行导航的方法,将图像视为路标,将转换视为实现特定创意的路径。
通过持续实验和对新界面模式的探索,我们可以实现生成模型的全部潜力,让它们不仅仅是生产工具,还可以成为创意过程中更为主动的合作伙伴,扩展我们发现和探索创意的能力。
评论(0)