
一款基于多模态大模型的 SVG 代码生成器。它将矢量化任务转换为代码生成任务,直接在 SVG 代码空间进行解析和生成。这种方式的最大优势在于,它不单单是对图像轮廓的拟合,而是结合了视觉和语言模型的能力,理解图像的语义结构,从而生成更紧凑、精确且富有层次感的 SVG 代码。
在架构上,StarVector 采用了 多模态 VLM(Vision-Language Model),能够处理图像和文本两种输入形式。当输入图像时,模型会将其转换为视觉 Token,并通过解码器生成相应的 SVG 代码。而当输入文本描述时,StarVector 则能够直接根据指令生成符合语义的 SVG 代码。这使得模型不仅可以执行 Image-to-SVG(图像转 SVG),还可以进行 Text-to-SVG(文本生成 SVG),大大拓展了其应用场景。
评论(0)