
智东西
智东西12月24日报说念,当天,阿里Qwen团队负责开源图像剪辑模子Qwen-Image-Edit-2511,这是继9月23日发布Qwen-Image-Edit-2509后的最新增强版块。

在此前的多个公开基准测试中,Qwen-Image系列已展现出较强的图像剪辑性能,共取得12项SOTA(最好进展)。在华文翰墨生成评测ChineseWord与LongText-Bench均分袂率先GPT Image 1、Seedream 3.0等主流模子。
新版块则聚焦图像生成过程中的东说念主物一致性问题,在单东说念主连拍、多东说念主物交融等任务中权臣栽培面部特征与气魄的巩固性,同期集成了多个LoRA子模子,增强了图像剪辑中的几何构造、光照功令、材质替换等智商。

智东西也在第一时辰进行了实测。举座来看,Qwen-Image-Edit-2511在东说念主像交融、LoRA光照功令、气魄一致性方面进展出色,生成扫尾当然。但在镜头旋转、空间构图与几何推理类操作上仍存在明白罪恶。
Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit-2511
魔搭社区:https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2511
时代文牍:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
一、新版块聚焦东说念主物一致性与气魄迁徙,拓展多场景图像剪辑智商在此前版块的Qwen-Image中,Qwen团队初次构建了圆善的图像生成与剪辑框架,通过Qwen2.5-VL+VAE双编码机制配合MMDiT扩散架构,其中“MM”代表的是模子生成图像、文本等多模态内容的智商,“DiT”则代表了这是一个扩散Transformer。
Qwen团队在多个公开基准上对Qwen-Image进行了评估,比较对象为众人头部的开源、闭源图像生成模子。在通用图像生成测试GenEval、DPG和OneIG-Bench,以及图像剪辑测试GEdit、ImgEdit和GSO上,Qwen-lmage越过了Flux.1、BAGEL等开源模子、字节越过的SeedDream 3.0和OpenAI的GPT Image 1(High)。
在用于文本渲染的LongText-Bench、ChineseWord和TextCraft基准测试上的扫尾标明,Qwen-Image在文本渲染方面进展尤为出色,相等是在华文文本渲染上,大幅率先现存的开头进模子,包括SeedDream 3.0和GPT Image 1(High)。
这次发布的Qwen-Image-Edit-2511版块,则在图像剪辑阶段进一步增强了东说念主物一致性抒发智商,并引入LoRA模块栽培光照、材质与视角功令进展。
Qwen-Image-Edit-2511在保抓东说念主物一致性方面作念出了重心升级。针对输入东说念主像生成的多张变体图像,模子在视力、发型、配饰等细节上的保留愈加巩固,适用于多心情、多姿态、多气魄等需要变装连贯输出的场景。

除了单东说念主任务,Qwen-Image-Edit-2511还权臣优化了多东说念主图像交融进展。比拟此前版块,它不错更当然地将两张不同东说念主像合成为团结张合影图像,保留东说念主物原貌的同期,自动调整姿态与构图,生成扫尾在举座气魄与变装合营性上更为连贯。这为AI情侣照、群像图等哄骗提供了更高质料的基础。

▲Qwen官决策例
同期,Qwen-Image-Edit-2511初次在基础模子中内置了部分高频使用的LoRA子模子。用户无需加载外部权重,即可平直启用如光照增强、新视角生成、材质替换等功能。
举例,用户可通过LoRA功令当然光泽概念变化,重现柔光照明服从,也不错在工业筹算场景中完成木柴纹理或布料气魄的替换操作。
在结构料想方面,该版块还加入了几何构造扶持智商,支抓在输入图像的基础上添加扶持线、延迟线等几何元素,适用于造就、工程图生成或图像标注任务。
二、实测:东说念主物交融巩固、气魄功令可用,但邃密功令仍有范畴在执行体验中,咱们围绕东说念主物一致性、LoRA光照、材质替换、翰墨渲染以及几何推理等智商,对Qwen-Image-Edit-2511进行了多组测试。
举座来看,模子在东说念主物类合成与气魄抒发方面进展巩固,输出扫尾具备较高可用性,但在镜头级功令与几何逻辑履行上仍存在一定局限。
案例1:情侣写照合影(东说念主物一致性与互动姿态测试)
4:3,韩系情侣写照气魄,配景为纯色暖调低弥散暗绿色磨砂质感墙面,正面柔光打光,东说念主物面部酿成柔软暗影过渡。一双年青东亚情侣,女性东说念主脸参考第一张图,长头发妆容清雅带项链耳饰,米白色露肩上衣;男性东说念主脸参考第二张图,发型不变,玄色短袖。东说念主物姿态互动感强(脸贴脸),心情灵动俏皮含笑,男生搞怪闹心,女生搞怪可人笑眯眯,举座甜酷亲昵,胶片气魄带颗粒感柔光暖调,珍摄互动细节与衣饰质感。原比例。

▲参考图
生成扫尾中,两位东说念主物的面部特征与细节保抓精好意思一致性,互动姿态当然,光照相宜写照气魄,举座服从巩固且可用。

▲Qwen-Image-Edit-2511生见服从图
案例2:双东说念主俯拍自拍(高角度合成与东说念主物一致性测试)
请将图1和图2交融成一张双东说念主俯拍自拍照,画面构图紧凑,两位主体靠得很近,头部稍许上仰,视力直视镜头,营造出浓烈的视觉冲击力。左侧东说念主物站得略靠前,参考我图1的主体形象特征造型保抓不变,需要保抓东说念主脸一样度;右侧东说念主物参考图2的主体形象特征保抓造型不变,需要保抓东说念主脸一样度,稍许内扣躯壳,拍摄角度为高角度俯拍,使头部比例被夸张放大,相宜典型的日韩视觉自拍气魄。配景为纯白色,直快干净,进一步突显东说念主物主体。画面气魄偏向日系视觉系,举座画面明晰度高,用iphone前置自拍,最终呈现出清雅、前锋、略带的合影服从。条目东说念主物竣事无缝融进画面,视觉过渡当然,举座画面光泽亮堂且均匀。
合成扫尾中,两位东说念主物在高角度俯拍构图下保抓了较高的东说念主脸一样度,自拍气魄建造,配景干净,举座服从进展精好意思。

▲Qwen-Image-Edit-2511生见服从图
案例3:软光LoRA与镜头功令(光照重构与视角操作测试)
对上传的室内家居图进行从头打光,加入柔软光泽、侧面光照服从,隆起空间质感,举座光泽要当然不外曝。

▲参考图
在该任务中,该模子得手完成柔光从头照明,侧光档次当然,举座光泽功令巩固。

▲Qwen-Image-Edit-2511生见服从图
将镜头移至桌面特写
生成扫尾中,镜头照实发生变化,但桌面羊毫数目与册本掀开现象与原图存在偏差,结构并不够严格。

▲Qwen-Image-Edit-2511生见服从图
将镜头向左旋转60度
该教导未能被灵验履行,画面视角未出现明白旋改革化,该模子在精准镜头功令方面仍有放胆。

▲Qwen-Image-Edit-2511生见服从图
案例4:材质替换(工业筹算场景测试)
将居品图片中桌面与椅子的木质纹理替换为另一张图中的淡色松木柴质,保抓结构不变,仅替换材质贴图。

▲参考图
生成扫尾中,桌椅举座结构保抓巩固,木质纹理替换当然贴合,不雅感协调。

▲Qwen-Image-Edit-2511生见服从图
案例5:翰墨渲染与气魄交融(中英文翰墨测试)
生成竖版3:4画面比例的“真东说念主与其对应卡通壁画合影”场景图像:将上传确凿切东说念主物像片以原样保留服装、发型、妆容置于画面左侧/前线,调整东说念主物的动作和拍摄视角,以确保画面和谐。在真东说念主背后墙面画图1:1对应卡通壁画,厚涂质感且取舍动漫气魄大眼、柔软轮廓五官,圆善复刻发型、服装及配饰细节如耳饰、项链等,颜色弥散度高并带有涂鸦式笔触服从。墙面添加彩色涂鸦爱心、笑脸图案元素,大地方缀飞溅格式遮挡细节,壁画区域融入如“2026新年景象”的中翰墨元素,字体气魄契合涂鸦好意思学。确保真东说念主与壁画比例、角度当然衔尾,光照概念协调相宜场景逻辑,保抓举座颜色气魄一致呈现灵活、连贯且视觉和谐服从。

▲参考图
生成扫尾中,真东说念主与卡通壁画在气魄和镜头方进取衔尾当然,华文翰墨“2026新年景象”渲染明晰。

▲Qwen-Image-Edit-2511生见服从图
然后,把翰墨部分换成如“Merry Christmas”的英文元素和“圣诞景象”的中翰墨元素中英文羼杂的翰墨。
在中英文混悦目景下,模子依然或者正确生成翰墨内容,气魄与画面保抓一致,翰墨渲染巩固,未出现明白错字。

▲Qwen-Image-Edit-2511生见服从图
案例6:几何推理(扶持构造智商测试)
过A作$DE$的垂线,延迟$ED$交于G。

▲参考图(左)与Qwen-Image-Edit-2511生见服从图(右)
该任务中模子生成的几何关系存在明白诞妄,垂线与交点位置不相宜条目,其几何推明智商尚不及以撑抓严谨的数学或工程制图任务。
三、内置LoRA模子增强实用性,隐秘光照、视角与工业材质替换在Qwen-Image-Edit-2511中,官方初次将部分社区高频使用的LoRA子模子平直内置于基础模子中,用户无需加载尽头权重即可调用对应智商。这一机制权臣裁汰了LoRA功能的使用门槛,也栽培了模子在专科哄骗场景下的实用性。
举例,在图像风立场控任务中,用户可通过光照增强LoRA功令当然光泽的角度、强度与概念,生成具有确切光影档次的画面服从。刻下版块已可竣事“柔光—侧光”等典型照明气魄的生成。

在视角调控方面,用户还可调用新视角LoRA,平直以团结主体为基准生成不同拍摄角度下的图像,可减少疏浚拍摄与东说念主工调整角度所需资本。

此外,在工业筹算任务中,LoRA机制也可被用于批量图像生成、元素窜改与材质替换历程中。这类智商已初步具备在产品草图阶段进行测试的后劲。

概述来看,内置LoRA的集成筹算栽培了Qwen-Image-Edit-2511在具体任务中的可用性,尤其在光照功令、材质替换、多视角生成等高频需求中展现出更高的商用适配性,为筹算、营销、内容生成等场景提供了更低资本的图像管理决策。
结语:国产开源模子朝商用化迈进了一步概述来看,Qwen-Image-Edit-2511在东说念主物一致性、多东说念主物合成与LoRA气魄功令方面展现出巩固进展,实用性比前一版块有明白进步。关于需要连贯变装形象输出、功令局部气魄迁徙、进行材质替换等图像生成任务的用户来说,它一经具备一定的落地智商。
不外,在镜头变换、构图调整、几何推理等波及空间料想与强逻辑履行的任务中,模子仍存在巩固性与精度上的短板,与刻下顶尖的多模态生成模子比拟,仍有一定差距。
手脚一款面向开源社区的图像剪辑模子欧洲杯体育,Qwen-Image-Edit-2511正将模子智商朝向可控性与商用型场景聚焦,这也为国内开源路子提供了一个新的样本。
