出品|虎嗅科技组
作者|余杨
编辑|苗正卿
头图|视觉中国
在大模型热火朝天的战斗之中,吉卜力拉了OpenAI一把。
4月7日消息,OpenAI正在测试为GPT-4o图像生成模型加入水印。
这是一款最初只对ChatGPT Plus用户开放的ImageGen模型,能够生成带有文字的图片和逼真的视觉作品。OpenAI表示,该模型通过大量图像与文本的联合训练,展现出惊艳的视觉表现力和良好的上下文理解能力。
一周前的愚人节,OpenAI首席执行官山姆·奥特曼刚刚宣布,ChatGPT图像生成功能将向所有免费用户推出。很快,吉卜力风格的 AI 图迅速全网刷屏。
紧随其后,Midjourney 发布 AI 图片生成模型 Midjourney V7 版本并开启 alpha 测试。全新的“草图模式”,支持对话式交互界面、实时编辑、语音识别生成功能。作为OpenAI的“同款”,Midjourney不甘示弱,和OpenAI 暗暗较劲。
“吉卜力”(Ghibli)是宫崎骏的动画工作室和美术馆的名称,其含义指的是撒哈拉沙漠上吹过的热风。风格特点主要是水粉与水彩的结合,动画的核心多与自然相关,又在自然中注入了高级灰,呈现出轻盈温柔、舒适幽静的视觉效果。
不仅如此,这种风格擅长通过同类色的色彩滤镜传达画面情绪,在同类色比重较高的画面中,又通过笔触和细微配色差异性来调度画面层次,运用暖光加强深浅层次。人物设计上则强调简约与绘本风格,使用干练的简笔线条勾勒形象。
OpenAI正在为免费用户生成的图像测试水印,而ChatGPT Plus用户则可保存无水印图像。
今天就一起来看看ChatGPT的魔法,测评一下OpenAI 的吉卜力实力。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
参与测评的玩家则有即梦、可灵和ChatGPT,也看看各家所长。
即梦AI
即梦的文生图,速度很快,平均10秒。
不仅如此,支持图片比例的调整,在完成图片生成后,可以挑选图片进行编辑,支持高清、细节修复、局部重绘、生成视频、扩图、消除笔等功能。
最终生成图如下。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
可灵AI
可灵的等待时间略长于即梦,大约30秒生成完毕。
不过,可灵有着较好的生态组合,prompt输入框的右上角就有着DeepSeek的提示词优化入口,图片生成完成后,又可以一键点击生成视频。也就是说,从文到图、再从图到视频,可灵给安排得明明白白。
最终生成效果如下。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
ChatGPT
根据OpenAI在官网的介绍,它的文生图模型DALL·E 3 是基于 ChatGPT 原生构建的,它适用于利用 ChatGPT 做头脑风暴创意,只需要询问 ChatGPT 想在从简单句子到详细段落的任何内容中看到什么即可。
和可灵借助DeepSeek一样,ChatGPT 会自动为 DALL·E 3 生成量身定制的详细提示。
同时支持对图片的微调,即如果对某张图片大致满意,但又有不太合适的地方,可以要求 ChatGPT 用几句话进行调整。
点开右边的更多,可以看到创建图片的选项。选择创建图片,输入prompt即可。
整体来说,操作简单,流程丝滑,30秒左右的时候已经产生基本色调,但整个过程的平均等待时长达到了150秒。
下面是成果。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
总结
即梦以平均10秒的生成速度脱颖而出,这种即时性对于需要快速迭代创意的用户来说是巨大的优势。然而,速度的提升往往伴随着细节把控的妥协。从生成效果来看,即梦的图像虽然能够快速呈现吉卜力风格的基调,但在情绪传达和层次调度上稍显不足。尤其是prompt1中“没有圆柏的北京”这一复杂场景,即梦的生成结果未能完全捕捉到“高级灰”与“自然氛围”的微妙平衡。
相比之下,可灵虽然生成速度稍慢(约30秒),但通过DeepSeek的提示词优化和视频生成能力,构建了一个从文到图再到视频的完整生态。这种生态整合能力,尤其适合需要多模态输出的用户,比如动画创作者或短视频制作者。
从生成图片的质量上看,ChatGPT对吉卜力风格有着更好的理解,色调和情绪的把控都相对准确。例如,在prompt3“自由女神在电脑前办公”这一脑洞场景中,ChatGPT成功捕捉到了“防蓝光眼镜”与“牛马的苦恼”之间的微妙情绪张力,同时保持了吉卜力风格的轻盈与温柔。
这种优势源于ChatGPT的提示词优化机制。它能够根据用户输入的prompt,自动生成更详细的描述,从而提升生成图像的精准度。此外,ChatGPT支持对图像的微调功能,允许用户通过简单的语言描述调整细节,这种灵活性进一步增强了其在创意表达上的竞争力。
官网的展示中,ChatGPT所生成的图片风格并不限于吉卜力,还有如下的细节图、脑洞图和创意图。
而对于图片版权问题,大方开源,使用 DALL·E 3 创建的图像归属用户,无需获得OpenAI许可即可重印、出售或销售。
不仅如此,OpenAI确认正在开发ImageGen API,未来开发者可利用该API构建应用产品,拓展图像生成模型的应用场景。开发者可以利用该API构建自己的应用产品,比如教育工具、设计辅助平台等。这种开放生态的构建,将推动AI生成图像技术的普及与创新。
ChatGPT这次换了个思路。似乎显示着,大语言模型一枝独秀还不够,集成多种生态的多元赛道势头正好。用产品cue着中国的大模型:该你出牌了。
原创文章,作者:yajje,如若转载,请注明出处:https://www.yajje.com/baike/12724.html