Lovart 只是 GPT-4o 套壳?聊聊我对设计 Agent 的设想
2025-5-24
| 2025-5-24
字数 3114阅读时长 8 分钟
type
status
date
slug
summary
tags
category
icon
password
platform
最近拿到了号称是第一个设计领域的 Agent 产品的 Lovart 的内测资格,试用了几次后,发表了这样的感受:
notion image
 
 
让我们来看看 Lovart 是如何工作的?
 
 

Lovart 的工作流程

我们在 Lovart 中输入一个任务,例如
「设计一套炉石传说风格的卡牌,以三国杀标准版人物为英雄,并附带其技能描述。」
notion image
 
这当然不是 Lovart 内部的方案,或许真实情况或许更加复杂,这是我体验到的工作流程。
 
首先,Lovart 会匹配内置的风格库,如果没有,则跳过,并使用 gpt-4o 来生成图片
notion image
 

Case1 - GPT -4o 生图

于是 Lovart 开始拆分处理我的任务
第二步,Lovart 调用 GPT-4o 的能力,生成了一个炉石传说卡牌的模板图片。
第三步,再生成了几个三国杀人物的英雄卡片
notion image
对于这个任务,Lovart 还补全了生成过程中需要的知识,例如补全了生图时每个英雄的的 prompt
notion image
 
最后,经过两步的生成,Lovart 先生成了一个炉石传说英雄卡片模板,最后生成了各个三国杀英雄的卡片。
notion image
 

Case2 - 内置风格库生图

这个案例是,Lovart 生成小米 YU7 海报的案例。
我先让 Lovart 生成「设计一个小米 YU7 的宣传海报图,图片比例是横向的 9:16」,在匹配到风格后,Lovart 先是生成了一个品质一般的小米手机的海报。
这显然不符合我的预期,于是我告诉 Lovart 小米 YU7 是一辆汽车,让他补全一些知识后重新生成,但 Lovart 并没有出发知识搜索,而是再次调用 Poster Gen 生成了一张新的海报。
notion image
 
 

Lovart 使用感受

如果用常见的 Agent 定义来看,Lovart 确实具备所有 Agent 的必要条件。
  • 思考能力:观察当前的任务结果,并思考下一步骤;
  • 行动规划能力:整体规划完成这一步走所需的流程;
  • 知识库调用能力:调用外部知识库来提高生成效果;
  • 工具调用能力:调用 GPT-4o 的生图接口;
 
但是,这样做出来的产品,我更愿意称之为”生图 Agent“,而不是”设计 Agent“。
Lovart 是 liblib 团队的产品,liblib 类似中国版的 Civitai,是一个 AI 生图的社区,拥有很多模型和图片的资源。而 Lovart 正好用上了这些资源,使用 LLM 的规划能力,根据用户输入的任务来选择生图的工具。并最终生成一张图片。
 
如果观察 Liblib 团队的动作,实际上 Liblib 团队在 2024 年年末上线了另外一款产品叫 星流
notion image
星流这款产品就是结合了各种 AI 生图能力的,无限画布应用,很像是 AI 形态的 figma。
只可惜星流在上线后的市场反馈并不好,所以并没有扩大宣传。
 
时间来到 2025 年,GPT-4o 的生图能力爆火,将过去需要搭建很多复杂工作流才能完成的任务,变成了一句话生成的言出法随。Liblib 感受到了危机。
在 GPT-4o 开放生图能力的 API 以后,Liblib 团队又结合了 Gpt-4o 的能力,推出了 Lovart 这款 Agent 产品。
但目前试用起来的体验,Lovart 给我的感觉更像是 GPT-4o 的套壳,再加上一些 Lovart 特有的设计风格。Lovart 只是在 gpt-4o 的基础上,提供部分比 gpt-4o 更好的场景,一些还没有被训练到 gpt-4o 的风格,Lovart 会使用更适合的模型来生成。但最终,呈现给用户的,依旧只是一张图片,完成的只是生图这一个流程,所以我更愿意称 Lovart 为生图 Agent,而非设计 Agent。
 
实际上相比起直接使用 GPT-4o,Lovart 并不没有带来更多好的体验。
 
这也是在模型即产品的时代,每个 AI Native 产品必须面对的问题,如何在当前模型能力的边界上,设计出更好的产品,而不是只做模型的套壳。并随着模型能力边界的拓展,不断做延伸。是每一个 AI 产品经理需要解决的问题。
 

我设想中的设计 Agent

而我设想中的设计 Agent 应该是这样的。
先叠个甲,我对 AI 生图领域的研究,只能算是入门,并不是专家,只能从我自身使用体验的角度来表达我的想法。并不一定是一个可实现/更好的方案。
 
 

可控性

实际上在 AI 生图的过程中,遇到的最大的问题,是可控性
在 AI 生图的过程中,AI 设计师做事情的大部分是在换模型,调整参数,调整工作流,然后抽卡,直到搭建一个比较稳定可用的模型。
AI 生图的模型,和大语言模型最大的不同是,AI 生图的模型是开源的,并且可以在消费级的 GPU 上运转起来。因此基于开源的 stablediffusion, flux 的生态,用大量的”炼丹师“微调出了各种不一样的模型,适合用来处理不同的任务。
但这些开源生态下调整出来的模型,每一个对于用户来说都是一个黑盒。
模型可能存在各种各样的问题,
  • 过拟合的问题:模型喂的数据和学习参数存在过拟合,只能用于单一用途
  • 各种适配问题:在搭工作流时,其中各种 CLIP,调度器,采样器和模型之间都有适配问题,对于新手来说,学习成本很高。
 
所以在使用星流时,我需要选择合适的模型来生成图片,但始终得不到我想要的效果,因为每个模型对我来说都是一个黑盒,我只能不断地做尝试。
notion image
 
在模型有了 React 的能力以后,确实模型可以一定程度上帮助用户解决主动选择想要的工具解决问题。
React 就是模型学会了「观察-思考-行动」的循环
 
例如让用户输入的指令是生成黏土风的工具时,模型可以自主规划出,调用黏土风格的模型来进行图生图任务,并使用预设好的参数来进行生图。
 
但今天我在使用 Lovart 时,Lovart 居然还不兼容之前爆火的黏土风,而是调用了 3D 模型来生成。
notion image
notion image
 
说明 Lovart 使用的模型的规划能力还有限。能够匹配到的模型也非常少,这点我还是非常失望的,这甚至不如我直接在 Liblib 中直接选择黏土风格的模型生成图片。
notion image
 
Liblib 拥有大量用户共享的模型,这些模型,在生成特定用途的图片时,都很棒。如果 Lovart 的 Agent 可以在规划阶段准确地选择到这样的模型,就可以解决大部分的问题。
也许有人说,现在最强的模型,也无法做到选择正确的工具。
但这刚好也是 Lovart 的机会,基于 Liblib 海量的生图数据,完全可以基于开源的 Qwen3 训练一个选择设计工具的 agent 来解决这个问题。
 

多图层

如果做到上面这一点, Lovart 可以说是一个优秀的生图 Agent。
但是如果想要变成设计 Agent,还有一个问题要解决,那就是多图层。
 
无论哪一代的设计工具,从 Photoshop 到 figma,图层都是设计中非常重要的理念。
即便是现在的有了 AI 能力加持的设计师,很多设计师也是在 AI 生图后,将图片变成一个图层,加入到设计中。
 
而今天的 AI 生图,显然在解决多图层设计的问题上,还在很触及的阶段。GPT-4o 可以直接生成透明通道的图片,算是在这个方向上的走出了一小步,但后面还有很多步骤要走。
 
我设想中的设计 Agent,应该能这样解决问题。
举例来说,
但我说想要设计一个小米 YU7 海报时,
【思考阶段】
  • 模型能够知道设计出一张好看的海报。应该需要一张小米 YU7 的图片,一个标题,一些文案的描述。
【行动阶段】
  1. 生成一个固定大小的画布,一个 Frame
  1. 设计 Agent 从互联网上招到合适的图片,或者自己生成一张,抠图,作为海报的主体设计元素,放入画布中
  1. 设计 Agent 自动生成了合适放到海报中的文案,并生成对应的文字元素,放入 Frame 中。
【观察阶段】
  • 设计 Agent 观察已经有的图片,理解图片后,认为图片还缺少一些点缀元素,字体的风格可能不太科技化等,提出各种问题
在进入多个「观察-思考-行动」的循环后,最终输出一张多图层的,好看的海报图。
 
在多图层的基础上,人类还可以继续对海报设计进行调整。
 
现在想要做到这样的设计 Agent,确实有点像天方夜谭。
但我想随着模型能力的提升,这并非不能实现。
 
类比 AI coding,设计的行为,同样是在一个封闭的环境中完成的,例如在 Figma 中,设计师添加了各种元素,进行了各种操作后,最终完成一份设计稿。
这些设计的行为,在数据层面都是被记录着的,只是今天的模型,并没有接受这些数据的训练,无法对这些行为进行理解,自然也不理解规划问题。
 
也就是说,模型理论上是可以胜任这些工作的,只是缺少真实的行为数据。
这刚好对应着大神姚顺宇在其个人博客发布的文章《AI 第二幕 The Second Half 》[https://ysymyth.github.io/The-Second-Half/]
对于大语言模型来说,进入了第二幕,也就是需要更多真实世界反馈的阶段。如果能够有这样真实的行为及其反馈的数据,来训练大语言模型。模型的「观察-思考-行动」的能力将会更强。
这个问题,是这个阶段的大模型产品经理需要解决的问题,需要重新思考模型的训练数据,重新思考模型的评估体系。
 
今天我们提出这个设计 Agent 的设想,或许也只能至于此了。
期待或许在 3 年后,5 年后,我们真的可以用上这样的模型,用上这样的产品。
 
 

结语

最后,
如果这篇文章对你有帮助的话,可以点赞文章,或是转发给你喜欢的人,或是给我买杯咖啡,也可以关注我的公众号和我一起学习,你的支持是我坚持下去的动力。
如果读完后能够有共鸣,欢迎添加好友,交流想法。我的个人微信:liaocaoxuezhe。
notion image
 
 
得闲,人民路走一遭浅析 GPT-4o 画图背后的技术:OmniGen
Loading...