本文背景
一句话就能实时P图,网友们又有了新的“整活”方式。字节跳动的豆包大模型再次推出新功能啦!
11月11日,字节跳动豆包大模型团队发布了最新的图像编辑模型SeedEdit,其主打特色就是能够通过一句话轻松实现P图功能。
虽说近期关于AI的新消息不算多,但字节跳动的团队肯定没在这段时间里闲着。就在一个多月前,才发过豆包的视频生成功能,这才过了没多久,豆包就又推出新功能了。

虽说文生图功能已经发展了两三年的时间,但我敢说,这次真的算是国产AI文生图领域里的一个新突破。
可能不少小伙伴还在想,AI生成图片不是已经很厉害了吗,怎么还不能修改图片呢?
实际上,这几年我也测试了不少文生图的大模型,其中能够支持图片精确修改的还真没有,目前在这方面做得最好的确实就是豆包了。
就拿ChatGPT – 4o来说吧,让它画一张图是没问题的,可是如果想要对这个图做一点修改,那不好意思,就整个图片就全变了。而且不只是OpenAI的不行,谷歌的Gemini也是如此。
而且SeedEdit推出的时候,字节跳动也发布了技术报告。

AIGC图像的精准编辑一直以来都是个大难题,业界之前的方案要么在编辑的时候做不到精准定位(也就是“指哪打哪”),要么就是编辑生成的质量很低,又或者会导致原图的主体发生比较大的变化。
报告显示,SeedEdit仍然采用了Diffusion架构,不过它在不引入新参数的情况下,成功地将图像生成模型转化成了图像编辑模型。它的秘诀就在于能够在保持原始图像和生成新内容之间找到平衡,最终在图像编辑的通用性、可控性以及高质量方面实现了新的突破。

现在,SeedEdit已经在豆包PC端和字节AIGC平台(即梦网页端)上线开始测试了。
具体场景
01
我们先拿世界名画来恶搞一番
让蒙娜丽莎抱只猫,再把表情换一换。

(提示词:蒙娜丽莎张开嘴大笑,手里抱着一只猫。)
在原作里,蒙娜丽莎的微笑神秘、含蓄又难以捉摸,然而SeedEdit大刀阔斧地一修改,画面瞬间就有了一种诙谐之感。只见蒙娜丽莎咧嘴大笑,怀里的猫则高冷地眺望远方,整个画面画风自然、线条流畅。
SeedEdit精准地遵循了指令,除了表情和动作有所改变之外,其余的细节都能保持原样。
蒙娜丽莎的发丝、头纱以及衣褶都清晰可辨,手部也没有出现变形扭曲的情况,猫咪的胡须、毛发也是根根分明,就连背景都被完美地复刻了下来。
02
最近特朗普大选获胜了,我觉得之前他躲过枪击事件的功劳可不小。在美国选民心中,懂王或许都快被神化了。那咱们就让豆包给懂王的照片添加上大大的光环吧。

要是把这个效果发到外网去,那肯定会被MAGA(特朗普的支持者群体“让美国再次伟大”的简称)的拥趸们疯狂转发。
并且呢,豆包还能够对画面内容进行“修改”和“替换”。对于许多普通人而言,PS是什么?以后真的不用学了。
03
现在只需一句话,就能把企鹅变成小猫头鹰呢。

这种无缝组合的效果相当不错呢。感觉能够利用豆包重现《山海经》中的神兽了。既然企鹅的脸能够替换,人的脸自然也不在话下。
04
特朗普当选之后最不开心的人除了哈里斯之外,恐怕就是泽连斯基了。要是真像特朗普宣称的那样去调停俄乌战争,你小泽啊,愁眉苦脸做什么呢,笑一笑呀。

05
找来马斯克的几张靓照,安排豆包P图。视察特斯拉、飞往火星、到华尔街演讲……工作之余,还给他换个发型。


06
就像刘华强买瓜这个片段,咱们今天就把这里面的西瓜换成炸鸡和棉花来玩玩。
结果这效果还挺不错的呢,瓜贩子衣服上的图案都毫无二致,所有的西瓜都被替换掉了,这可太智能了。
提示词:帮我生成图片:把西瓜换成棉花和炸鸡

还有一个关键之处在于,如果同时给豆包提出不同的修改要求,它是否能够全部达成呢?
07
例如,对于《西游记》里的唐三藏,我想要把他改成“战地版唐三葬”,在给出的一句话提示里包含三个指令,也就是要同时完成给他戴上墨镜、让他手拿机枪、更换背景这三项任务。

结果是所有指令都被全部完成了,效果也还说得过去。瞧,这唐僧墨镜一戴谁也不爱,身处战场手拿机枪,口念“六根清净贫铀弹,一息三千六百转,杀生为护生,斩业非斩人”,主打一个物理超度。
08
把装修豪华的服装店无缝替换成菜市场

PS掉老虎

要是移除画面中无关的元素,采用传统的PS方法的话,那就得一点点地描绘边框、选择涂抹的区域,一旦手不稳操作失误,就必须重新返工。然而SeedEdit只需要一句“去掉右边老虎”这样的指令,就能精确地定位并且删除,这和手动编辑相比,大大节约了时间。
总结
整体来看的话,不管是照片、视频截图,还是制作梗图表情包这一方面,豆包处理起来都游刃有余。虽说在细节方面我们还是能发现有可提升之处,不过话又说回来,有比较才有鉴别嘛。
如今AI作图早已成为图片编辑行业的标准配置了,各类修图软件、剪辑软件,甚至手机相册都在朝着这个方向发展。
像SeedEdit这样的技术,目前在行业内也才刚刚开始投入使用,能够将其集成在AI助手里的,豆包确实是第一家。
但是先不说效果如何,起码就现在的情况而言,其实大多数产品仍然需要手动涂抹进行修改,或者自己在上面P图、添加配饰。不知道大家是怎么想的,反正我每次P背景、消除人物的时候,都得花费不少精力……

至于AI直接生成的图片嘛,就像我们上面提到的,就跟抽卡一样,很难一次就得到理想的图片,而且还无法进行二次修改。
这就是为什么我们在开头会说,由AI直接控制编辑修改图片会是一项技术突破。
到时候,直接跟语音助手说一声“给我出图”,AI就会按照你所想的方向进行调整,美滋滋地当个甲方,想想就很惬意。