mirror of https://www.modelscope.cn/alimama-creative/SDXL-EcomID.git synced 2026-04-02 20:32:53 +08:00

Files

ai-modelscope 6ce0f40291 Update README.md

2024-10-24 13:04:22 +08:00

EcomID 旨在从单个ID参考图像生成定制的保ID图像，优势在于很强的语义一致性，同时受人脸关键点控制。

此仓库提供了 EcomID 方法和模型，方法上结合了 PuLID 和 InstantID 的优点，以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。

EcomID 概述

EcomID 结构

PuLID 的 IP-Adapter：EcomID 借鉴了 PuLID 的 ID-Encoder 和交叉注意力组件，其使用对齐损失训练而成。故而该方法有效减少了 ID embedding 对交叉注意力部分的文本 embedding的干扰，最小化对底层模型文本到图像能力的干扰。
InstantID 的 IdentityNet 架构：利用 200 万张美观的人像图像数据集，训练了IdentityNet，增强了关键点控制，提高了 ID 一致性和面部真实感。在训练过程中，IP-adapter 被冻结，只有 IdentityNet 被训练。面部Keypoint用作条件输入，同时面部嵌入通过交叉注意力集成到 IdentityNet 中。

Prompt	参考图像	EcomID	InstantID
女孩，白皮肤，黑头发，长卷发，在欧洲风格的客厅，复古色调，装饰品，景深。

如上所示，EcomID 保留了背景生成能力，同时最大限度地减少了风格化，从而大大增强了真实感。如图可见，EcomID的背景语义一致性得到了改善，且在生成真实图像方面格外有优势。

Prompt	参考图像	EcomID	InstantID	PuLID
在图书馆前站着的男人的特写肖像，抱着两个微笑的幼儿。

如上所示，EcomID 使用关键点作为训练的条件输入，允许精确调整面部位置、大小和方向。这种能力确保生成的人像更加可控，同时进一步增强了面部相似性和图像的整体质量。

EcomID 提高了人像表现，提供了更真实和美观的外观，同时确保语义一致性和更好的内部 ID 相似性（即，不随年龄、发型、眼镜或其他身体变化而变化的特征）。

Prompt	参考图像	EcomID	InstantID	PuLID
一个双辫小女孩的特写肖像，穿着白色裙子，傍晚在海滩上。
一个非常小的女孩，双辫，带着帽子和白色裙子，傍晚在海滩上。
一个满脸胡茬的侦探，戴着帽子，阴影投在他方形的下巴上，嘴里叼着一根香烟，他的风衣唤起了电影黑色风格，在一个阴雨小巷里。
一个微笑的女孩，齐刘海和长发，穿着校服，站在樱花树下，手里拿着一本书。
一个非常老的女巫，穿着黑色斗篷，戴着尖顶帽，手握魔杖，在雾气缭绕的森林背景下。
一个身穿赛博朋克风格的男人：霓虹配件，反光太阳镜，和带有发光电路图案的皮夹克。他在湿润的城市风貌中冷静地站着。

除非特别说明，大部分展示案例使用基础模型 EcomXL 生成；同时EcomID与其他基于 SDXL 的模型也高度兼容，例如 leosams-helloworld-xl、dreamshaper-xl、stable-diffusion-xl-base-1.0 等。
它与 SDXL Turbo/Lighting、EcomXL Inpainting ControlNet 和 EcomXL Softedge ControlNet 的兼容性非常好。

该模型在 200 万张淘宝图像上进行训练，其中人脸比例大于 3%。图像分辨率大于800，且美学评分超过 5.5。

混合精度：fp16

学习率：1e-4

批量大小：2

图像大小：1024x1024

SDXL 模型	Prompt	参考图像	EcomID	InstantID	PuLID
sd-xl-base-1.0	女孩，单独，棕色头发，手里抱着一个小泰迪熊，穿着校服，站在图书馆里，卡通风格。
EcomXL	一个非常小的女孩的特写肖像，双辫，带着帽子和白色裙子，傍晚在海滩上。
DreamShaperXL	单独，面向观众，微笑，棕色头发，上半身，开衫，牙齿，打开的外套，黑色夹克，模糊背景，真实感
leosam_xl_v7	一个特写肖像，女孩，单独，裙子，珠宝，海滩和大海，粉色裙子，真实感。