ControlNet: 一个基于 Stable Diffusion 1.5 的轻型预训模型,能利用输入图片 (input image)里的边缘特征、深度特征 或 人体姿势的骨架特征(posture skeleton),配合文字prompt,精确引导图像在 SD1.5 里的生成结果。
6天后,腾讯 ARC 也发布了类似解决方案 T2I-Adapter。
ControlNet 和 T2I-Adapter 的框架都具备灵活小巧的特征,训练快,成本低,参数少,很容易地被插入到现有的文本-图像扩散模型中
和img2img 区别:
img2img 的input image 提供的引导主要是噪音的分布,影响构图和颜色,但对生成对象形状(边缘) 的与输入图片的贴合度并不高(鹿角特别明显)。
1、ControlNet训练
ControlNet 论文里提到,
Canny Edge detector 模型的训练用了300万张边缘-图像-标注对的语料,A100 80G 的 600个 GPU小时。
Human Pose (人体姿态骨架)模型用了8万张 姿态-图像-标注 对的语料, A100 80G的 400个 GPU 时。
2、T2I-Adapter训练
4块Tesla 32G-V100 上只花了2天就完成,包括3种 condition,sketch(15万张图片语料),Semantic segmentation map(16万张)和 Keypose(15万张)。
3、T2I-Adapter 支持一种以上的 condition model 引导,
比如可以同时使用 sketch 和 segmentation map 作为输入条件,或 在一个蒙版区域 (也就是 inpaint ) 里使用 sketch 引导。