深度学习落地实战:大模型生成图片

      前言

大家好,我是机长

本专栏将持续收集整理市场上深度学习的相关项目,旨在为准备从事深度学习工作或相关科研活动的伙伴,储备、提升更多的实际开发经验,每个项目实例都可作为实际开发项目写入简历,且都附带完整的代码与数据集。可通过本站蜘蛛进行获取,实现开箱即用

正在跟新中~

深度学习落地实战_机 _ 长的博客-CSDN博客

项目背景

大模型生成图片项目利用先进的深度学习技术,特别是基于Transformer结构的大型AI模型,如Stable Diffusion、DALL-E等,实现了从文本描述到高质量图像的自动转换。这些模型通过在海量图像-文本对上进行训练,学会了理解自然语言并据此创作出丰富多样、细节逼真的图像作品。项目旨在打破传统图像创作的界限,让非专业用户也能轻松实现创意可视化,广泛应用于艺术设计、广告营销、游戏开发等领域。通过简单的文字输入,即可激发无限创意,开启图像生成的新纪元。

项目运行环境

  • 平台:windows 10
  • 语言环境:python 3.8
  • 编辑器:PyCharm
  • PyThorch版本:1.8

1.创建并跳转到虚拟环境

python -m venv myenv

myenv\Scripts\activate.bat

2. 虚拟环境pip命令安装其他工具包

pip install torch torchvision torchaudio

注:此处只示范安装pytorch,其他工具包安装类似,可通过运行代码查看所确实包提示进行安装

3.pycharm 运行环境配置

进入pytcharm =》点击file =》点击settings=》点击Project:...=》点击 Python Interpreter,进入如下界面

点击add =》点击Existing environment  =》 点击 ... =》选择第一步1创建虚拟环境目录myenv\Scripts\下的python.exe文件点击ok完成环境配置

文心大模型ERNIE-ViLG简介

随着AIGC(人工智能生成内容)技术的兴起,内容生产方式正经历前所未有的变革。文心大模型,作为这一领域的佼佼者,以其高效、精准、定制化的能力,重新定义了内容创造的边界。ERNIE-ViLG作为文心大模型在跨模态文生图领域的杰出代表,展现了从文本到图像的非凡创造力。

ERNIE-ViLG不仅能够理解复杂的文本描述,还能根据这些描述生成逼真、符合要求的图像。无论是风景、人物还是抽象概念,ERNIE-ViLG都能轻松驾驭,为用户带来前所未有的创作体验。通过PaddleHub平台,开发者只需简单几行代码,即可接入ERNIE-ViLG的强大能力,实现图文生成的自动化和智能化。

PaddleHub作为文心大模型的官方应用平台,提供了丰富的预训练模型资源,覆盖了CV、NLP、Audio、Video、工业应用等多个领域。这些模型不仅质量上乘,而且全部开源下载,支持离线运行,大大降低了开发者的使用门槛。此外,PaddleHub还具备一键模型预测、服务化部署、迁移学习等便捷功能,让深度学习模型的应用变得更加简单高效。

总之,文心大模型ERNIE-ViLG的推出,不仅为内容创作者提供了全新的创作工具,也为AI技术的普及和应用开辟了新的道路。

效果说明

宇航员

                

模型介绍与加载

文心ERNIE-VILG参数规模达到 10g亿 ,是目前为止全球最大规模 中文跨模态生成模型 ,在文本生成图像、图像描述等跨模态生成任务上效果全球领先,在图文生成领域S-C0C0、C0C0-CN、AIC-ICc 等数据集上取得最好效果。你可以输入一段文本描述以及生成风格,模型就会根据输入的内容自动创作出符合要求的图像。

import paddlehub as hub
from docarray import DocumentArray, Document

ernie_vilg_module = hub.Module(name='ernie_vilg')

模型生成说明

result = erniv_vilg_module.generate_image(text_prompts=text_prompts, style=style, topk=6, output_dir='./output')

参数

  • text prompts(str):输入的语句,描述想要生成的 图像的内容
  • style(Optional[st]) 生成 图像的风格 ,当前支持'油画’,水彩”,“粉笔画,卡通,儿童画,蜡笔画’。
  • topk(Optional[int]):保存前多少张图,最多保存10张,
  • output dir(Optional[str]):保存输出图像的目录,默认为"ernievilg_output”。

返回
images(List(PlL.lmage)):返回生成的所有图像列表,PIL的lmage格式。

五、Prompt 设计原则

  • text prompts:图像生成内容
  • style:图像风格

古风|油画|水彩画|卡通画|二次元|浮世绘|蒸汽波艺术|1ow poly|像素风格|概念艺术|未来主义|赛博朋克|写实风格|洛丽塔风格|巴洛克风格
超现实主义


例如text prompts:“山水,亭子,动物”
style:“油画”

完整可运行代码

import paddlehub as hub


# from docarray import DocumentArray, Document


def run(text_prompts='美女', style="油画"):
    erniv_vilg_module = hub.Module(name='ernie_vilg')

    # 古风|油画|水彩画|卡通画|二次元|浮世绘|蒸汽波艺术|low poly|像素风格|概念艺术|未来主义|赛博朋克|写实风格|洛丽塔风格|巴洛克风格|超现实主义

    result = erniv_vilg_module.generate_image(text_prompts=text_prompts, style=style, topk=6, output_dir='./output')

    # DocumentArray([Document().load_pil_image_to_datauri(image) for image in result[:6]]).plot_image_sprites()

相关推荐

  1. 深度学习实战:人流量监测

    2024-07-20 20:26:04       36 阅读
  2. 深度学习实战:人脸五官定位检测

    2024-07-20 20:26:04       33 阅读
  3. 深度学习实战:人脸面部表情识别

    2024-07-20 20:26:04       31 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-20 20:26:04       171 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-20 20:26:04       189 阅读
  3. 在Django里面运行非项目文件

    2024-07-20 20:26:04       157 阅读
  4. Python语言-面向对象

    2024-07-20 20:26:04       170 阅读

热门阅读

  1. 探索Web世界:WebKit的地理位置API

    2024-07-20 20:26:04       36 阅读
  2. OpenCV从基础到入门(基于python)

    2024-07-20 20:26:04       28 阅读
  3. 运维 | Linux 系统中 MySQL 的安装与使用记录

    2024-07-20 20:26:04       31 阅读
  4. GPT-4o 与 GPT-4o Mini:两者的区别和特点

    2024-07-20 20:26:04       33 阅读
  5. GO Channel使用详解(各种场景下的最佳实践)

    2024-07-20 20:26:04       27 阅读
  6. Linux输出重定向到文件立即输出

    2024-07-20 20:26:04       33 阅读
  7. buuctf-reverse write-ups (1)

    2024-07-20 20:26:04       24 阅读
  8. Android init.rc各阶段的定义和功能

    2024-07-20 20:26:04       36 阅读
  9. tebi.io免费对象存储,可托管静态网站

    2024-07-20 20:26:04       34 阅读
  10. 【vueUse库Array模块各函数简介及使用方法--下篇】

    2024-07-20 20:26:04       32 阅读