★ Docker Official ⚡ GPU Support

LLM PROXY DOCKER DEPLOY

一行命令启动生产级LLM代理服务，支持GPU加速、集群部署、水平扩展

快速启动命令一行命令运行

                    docker run -d \

                      --name llm-proxy \

                      -p 8080:8080 \

                      -v $(pwd)/config.yaml:/app/config.yaml \

                      --gpus all \

                      llmproxy/server:latest

01. 快速开始

1

拉取镜像

docker pull llmproxy/server:latest

2

创建配置

cat > config.yaml << 'EOF'
model_list:
  - model_name: gpt-4
    litellm_params:
      model: gpt-4
      api_key: os.environ/OPENAI_API_KEY
EOF
                                

3

启动容器

docker run -d \
  --name llm-proxy \
  -p 8080:8080 \
  -v ./config.yaml:/app/config.yaml \
  llmproxy/server:latest
                                

4

验证运行

# 查看容器日志
docker logs -f llm-proxy

# 测试健康检查
curl localhost:8080/health

# 测试API
curl -X POST localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gpt-4", "messages": [{"role": "user", "content": "Hello!"}]}'
                                

02. Docker Compose (推荐)

version: '3.8'

services:

  llm-proxy:

    image: llmproxy/server:latest

    container_name: llm-proxy

    ports:

      - "8080:8080"

      - "4000:4000"

    volumes:

      - ./config.yaml:/app/config.yaml

    environment:

      - OPENAI_API_KEY=${OPENAI_API_KEY}

      - LOG_LEVEL=INFO

    deploy:

      resources:

        reservations:

          devices:

            - capabilities: [gpu]

03. 端口与存储

端口映射

8080 主API服务

4000 UI控制台

4001 调试端口

9090 Prometheus指标

数据卷挂载

📁 /app/config.yaml

配置文件（必需）

📁 /app/data

应用数据存储

📁 /var/log/llm-proxy

日志文件

04. GPU 支持

启用GPU加速

# 确保已安装nvidia-docker
# 检查GPU可用性
docker run --rm --gpus all nvidia/cuda:11.8.0-base-ubuntu22.04 nvidia-smi

# 启动带GPU支持的容器
docker run -d \

  --gpus all \

  --name llm-proxy \

  -p 8080:8080 \

  llmproxy/server:latest
                

🚀

推理加速

最高10倍加速

💾

更大模型

支持70B+模型

⚡

更低延迟

<50ms响应