参考:
https://huggingface.co/THUDM/glm-4-9b-chat-1m
GLM-4-9B-Chat-1M 的模型仓库,支持1M上下文长度(100万)
下载:
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download --resume-download --local-dir-use-symlinks False THUDM/glm-4-9b-chat-1m --local-dir glm4-9b-1m
vllm推理:
要使用 --enable_chunked_prefill --max_num_batched_tokens 8192 两个参数,不适用两张卡也不足
CUDA_VISIBLE_DEVICES=1,2 docker run --gp