它叫 OmniLottie

首款能够根据文本、图像或视频生成真实矢量动画的人工智能。

不是栅格化视频,也不是 GIF 动图,而是真正的 Lottie 文件,与 Airbnb、Google、Uber 以及全球所有主流应用程序使用的格式相同。

这件事之所以意义重大,原因如下:

现代应用中你看到的每一个动画,无论是加载指示器、引导流程、微交互还是动态图标,都是 Lottie 文件。设计师们要花费数小时在 After Effects 中精心制作。公司为每个动画项目支付 5000 到 20000 美元。

OmniLottie 根据文本提示生成它们。

它的运作方式如下:

→你描述你想要的东西:“一枚火箭发射升空,拖着火焰尾迹,星星闪烁”

→ OmniLottie 将您的指令转换为结构化的动画命令

→自定义的 Lottie 分词器将 JSON 压缩成紧凑的形状 + 运动标记​​。

→经过精细调整的VLM自回归生成完整的动画序列

→输出:一个可用于任何应用程序的、可直接用于生产的 .json Lottie 文件

三种模式:

给洛蒂发短信:描述一下,她就会回复。

图片+文本转Lottie:提供参考图片+动作描述。

视频转 Lottie:输入视频,即可获得矢量动画版本。

最离奇的部分来了:

他们用 GPT-5、DeepSeek、Gemini、Qwen2.5-VL 和商业工具对其进行了测试。

GPT-5成功率:12.7%–68%

DeepSeek:29.3%

Qwen2.5-VL:0.0%

Gemini:视频转 Lottie 0.0%

OmniLottie:文本转Lottie成功率97.3%,图片转Lottie成功率92%,视频转Lottie成功率90.7%。

每次成功生成,其速度比基于优化的方法快 530 倍。

秘密武器:一个定制的 Lottie 分词器,它可以去除所有冗余的 JSON 元数据,并将动画转换为紧凑的命令序列。原始的 Lottie JSON 数据会将大部分标记浪费在格式化上。分词器则能将模型的重点放在真正重要的部分——形状、运动和时间上。

他们还创建了 MMLottie-2M 数据集,其中包含 200 万个专业设计的矢量动画,并附有文本、图像和视频注释。这是迄今为止最大的矢量动画数据集,已公开发布。

来自复旦大学、StepFun、香港大学 MMLab 和昆士兰大学。