大模型学习笔记十二:AI产品部署

一、如何选择GPU和云服务器厂商,追求最高性价比

  • AI常用GPU
    在这里插入图片描述
    有些京东能买,没过限制GPU对华出口不超过4800TOPS和带宽不超过600GB/s,导致最强的H100和A100禁售。黄教主后面推出针对中国市场的A800和H800

  • H100和A100对比:
    16bit推理快3.5倍,16bit训练快2.3倍
    在这里插入图片描述

  • LPU(推理特别快)
    在这里插入图片描述
    在这里插入图片描述

  • 云服务厂商对比
    -国内主流
    阿里云:https://www.aliyun.com/product/ecs/gpu (可申请免费试用)
    腾讯云:https://cloud.tencent.com/act/pro/gpu-study
    火山引擎:https://www.volcengine.com/product/gpu
    -国外主流
    AWS:https://aws.amazon.com
    Vultr:https://www.vultr.com
    TPU:https://cloud.google.com/tpu

  • 算力平台(内部先用,跑小模型):主要用于学习和训练
    Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
    Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
    AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com
    建议:若一来GITHUB或Docker官方镜像,建议国外服务器

1)根据场景选择GPU

以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:
(微调数据不同导致所需时间不同)
在这里插入图片描述

2)训练或微调所需显卡(以Falcon为例子)

补充:Falcon 是目前为止 huggingface 上排行榜第一的模型

在这里插入图片描述

  • 注意点
    ①对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
    ②对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
    ③数据规模小时,可考虑预算内的 A10 或 T4 型号。
    ④如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务
  • 补充资料
    https://gpus.llm-utils.org/cloud-gpu-guide/
    https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/

3)服务器价格计算器

火山引擎提供的这个价格计算器很方便,做个大概的云服务器 GPU 选型价格参考。其它服务厂商价格相差不是很多。

https://www.volcengine.com/pricing?product=ECS&tab=2

二、全球大模型了解

1)llm所有模型

传送门

2)模型综合排行

传送门
在这里插入图片描述

3)模型评测

传送门
在这里插入图片描述

4)国内大模型

①国内模型列表
传送门

在这里插入图片描述

  • agicto.com能开发票

5)文心一言API接入指南

传送门

6)国外域名服务商推荐

①www.spaceship.com
②www.namecheap.com

三、搭建OpenAI代理

  • 业务流程建议
    因为业务在国内,所以大部分业务代码在国内的服务器,国内服务器调用代理服务器即可。

1)搭建原理:透传

  • 缺点
    容易触发官方封号概率
  • 实现方案
    ①Nginx
    ②node服务
    ③纯js

①Nginx方案

server
{
    listen 80;
    server_name a.openaixx.com;
    index index.html;
    location / {
            proxy_pass https://api.openai.com;
            proxy_ssl_name api.openai.com;
            proxy_ssl_server_name on;
            proxy_set_header Host api.openai.com;
            proxy_set_header Upgrade $http_upgrade;
            proxy_set_header Connection 'upgrade';
            chunked_transfer_encoding off;
            proxy_read_timeout 3600;
            proxy_buffering off;
            proxy_cache off;
            proxy_redirect off;
            proxy_hide_header Cache-Control;
    }

    location ~ /.well-known {
        allow all;
    }

    access_log off;
}

参考

②node服务
agi-proxy

③纯js方案
复制以下代码,去 cloudflare 建立一个 worker 即可
.传送门

2)服务器选择

在这里插入图片描述

  • vercel介绍
    ①服务器提供商
    ②操作简单,选择项目添加,然后发版就可以部署了
    ③侧重前端
    ④云平台

  • render
    ①可以用docker去构建
    ②像Nginx、redis都可以部署云服务
    ③云平台

  • zeabur
    ①这个服务器好处是国内
    ②云平台

3)实践

用vercel部署自己一个OpenAI代理

四、基于云平台快速部署SD

五、本地计算机运行大型模型

1)Ollama基础

  • ollama的作用:
    将各种大模型量化裁剪功能,让大模型能在本地能跑起来
  • 网址
    https://ollama.com/library
    https://ollama.com/
  • 本地调用询问API方式
curl http://localhost:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "wizardlm2",
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "你是谁?"
            }
        ]
    }
  • 端口
    11434

2)讲解Ollama API(略)

3)结合RAG运行:分析github仓库代码(略)

六、如何部署自己fine-tune的模型,向业务提供高可用推理服务

1)架构图

在这里插入图片描述

2)重要模块

①

七、基于vLLM部署大模型

1)vLLM部署开源大模型介绍

①定义:是一个快速且容易使用的库,用于大语言模型LLM的推理和服务
②特点:

1)速度快,每个请求需要3个并行输出完成时的服务器吞吐量,比huggingface transformer的吞吐量高出8.5到15倍,比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍
2)优化的cuda内核
3)与huggingface模型无缝集成
4)支持张量并行处理,实现分布式推理
5)支持滚式输出

2)vLLM开启api调用

3)vLLM分布式推理

八、部署一套开源LLM项目

九、如何控制内容安全,做好算法备案,确保合规

相关推荐

  1. 学习笔记 - AI模型部署-环境

    2024-07-21 16:10:02       35 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-21 16:10:02       145 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-21 16:10:02       159 阅读
  3. 在Django里面运行非项目文件

    2024-07-21 16:10:02       133 阅读
  4. Python语言-面向对象

    2024-07-21 16:10:02       145 阅读

热门阅读

  1. 【软考】UML中的关联关系

    2024-07-21 16:10:02       32 阅读
  2. firefly rk3288 ubuntu23.10 网卡名为end0 改为eth0

    2024-07-21 16:10:02       25 阅读
  3. C++狼人杀游戏(真的能运行!!!)

    2024-07-21 16:10:02       26 阅读
  4. 跨平台游戏引擎 Axmol-2.1.4 发布

    2024-07-21 16:10:02       34 阅读
  5. 使用 hutool工具实现导入导出功能。

    2024-07-21 16:10:02       35 阅读
  6. https证书申请

    2024-07-21 16:10:02       31 阅读
  7. feign 报错 Connection reset executing POST

    2024-07-21 16:10:02       28 阅读
  8. Python 热门面试题(七)

    2024-07-21 16:10:02       28 阅读
  9. 基本的DQL语句-单表查询

    2024-07-21 16:10:02       30 阅读
  10. ios CCUIFont.m

    2024-07-21 16:10:02       29 阅读
  11. 【机器学习基础】机器学习基本概念和常用算法

    2024-07-21 16:10:02       34 阅读