LiteLLM代理服务器配置 - 完整安装部署指南

安装方式

选择适合你的安装方式，快速启动LiteLLM代理服务

Docker部署（推荐）

拉取镜像：docker pull ghcr.io/berriai/litellm:main-latest
创建配置文件：litellm_config.yaml
运行容器：docker run -d -p 4000:4000 -v ./litellm_config.yaml:/app/config.yaml ghcr.io/berriai/litellm:main-latest --config /app/config.yaml
访问代理：http://localhost:4000
配置环境变量：OPENAI_API_KEY、ANTHROPIC_API_KEY

Python安装

安装依赖：pip install litellm[proxy]
创建配置：litellm_config.yaml
启动服务：litellm --config litellm_config.yaml
指定端口：litellm --config config.yaml --port 8080
设置API密钥：export OPENAI_API_KEY=sk-xxx

Docker Compose

创建docker-compose.yml文件
配置服务：image: ghcr.io/berriai/litellm:main-latest
挂载配置：volumes: - ./litellm_config.yaml:/app/config.yaml
启动服务：docker-compose up -d
查看日志：docker-compose logs -f litellm

Kubernetes部署

创建Deployment：kubectl apply -f litellm-deployment.yaml
配置Secret：kubectl create secret generic litellm-secrets
创建Service：kubectl expose deployment litellm
配置Ingress：api.yourdomain.com
扩展副本：kubectl scale deployment litellm --replicas=3

配置详解

详细的配置选项说明，满足各种场景需求

基础配置文件

# litellm_config.yaml
model_list:
  - model_name: gpt-4
    litellm_params:
      model: openai/gpt-4-turbo
      api_key: os.environ/OPENAI_API_KEY

  - model_name: claude-3
    litellm_params:
      model: anthropic/claude-3-opus-20240229
      api_key: os.environ/ANTHROPIC_API_KEY

  - model_name: gemini-pro
    litellm_params:
      model: gemini/gemini-pro
      api_key: os.environ/GEMINI_API_KEY

general_settings:
  master_key: sk-1234  # 代理服务主密钥
  database_url: postgresql://user:pass@localhost/litellm

litellm_settings:
  drop_params: True
  set_verbose: False
  cache: True
                    

环境变量配置

OPENAI_API_KEY	sk-xxxxxxxx
OpenAI API密钥，用于GPT-4、GPT-3.5等模型
ANTHROPIC_API_KEY	sk-ant-xxxx
Anthropic API密钥，用于Claude系列模型
GEMINI_API_KEY	AIzaSy...
Google AI API密钥，用于Gemini系列模型
LITELLM_MASTER_KEY	sk-master-xxxx
代理服务主密钥，用于管理API访问权限
DATABASE_URL	postgresql://...
数据库连接URL，用于存储请求日志和配置

负载均衡配置

# 多个相同模型的负载均衡
model_list:
  - model_name: gpt-4
    litellm_params:
      model: openai/gpt-4-turbo
      api_key: os.environ/OPENAI_KEY_1

  - model_name: gpt-4
    litellm_params:
      model: openai/gpt-4-turbo
      api_key: os.environ/OPENAI_KEY_2

  - model_name: gpt-4
    litellm_params:
      model: azure/gpt-4
      api_base: https://your-resource.openai.azure.com
      api_key: os.environ/AZURE_KEY

# 路由策略
router_settings:
  routing_strategy: latency-based-routing  # 基于延迟路由
  num_retries: 3
  timeout: 60
  retry_after: 0.1
                    

核心功能

企业级LLM代理服务必备功能

◈

统一API接口

提供OpenAI兼容的统一API格式，无需修改代码即可切换不同模型提供商。

◈

智能负载均衡

自动分配请求到多个模型端点，支持轮询、最少连接、延迟优先等策略。

◈

请求日志记录

完整记录所有API请求，包括输入输出、Token消耗、响应时间等详细信息。

◈

成本追踪

实时统计各模型调用成本，生成详细报告，优化AI服务支出。

◈

速率限制

灵活配置每用户、每模型的请求频率限制，防止API滥用。

◈

缓存优化

智能缓存相似请求，减少重复调用，降低成本和延迟。

支持的模型

原生支持100+主流AI模型

OpenAI

GPT-4, GPT-3.5, GPT-4V

Anthropic

Claude 3 Opus/Sonnet

Google

Gemini Pro/Ultra

Azure OpenAI

GPT-4, GPT-35-Turbo

AWS Bedrock

Claude, Llama 2

Mistral AI

Mistral, Mixtral

Cohere

Command, Embed

Replicate

Llama, Vicuna

HuggingFace

开源模型

Ollama

本地模型

VLLM

自托管部署

自定义

私有端点

监控与日志

实时监控服务状态，追踪每次API调用

请求日志

性能指标

告警配置

2024-01-15 14:32:15 INFO POST /v1/chat/completions - Model: gpt-4 - Tokens: 1247 - Latency: 1.23s

2024-01-15 14:32:18 SUCCESS Request completed - User: user_123 - Cost: $0.0124

2024-01-15 14:32:20 WARN Rate limit approaching - User: user_456 - Requests: 95/100

2024-01-15 14:32:22 INFO Model routing: gpt-4 -> azure-gpt-4 (fallback enabled)

2024-01-15 14:32:25 SUCCESS Streaming response completed - Model: claude-3-opus

总请求数	1,247,892
成功率	99.87%
平均延迟	847ms
Token消耗	45.2M / 日
活跃用户	1,234
模型分布	GPT-4: 45%, Claude: 32%, Gemini: 23%

# 告警配置示例
alert_settings:
  - name: high_latency
    condition: avg_latency > 3000
    action: email: admin@company.com

  - name: error_rate_spike
    condition: error_rate > 0.05
    action: slack: #alerts

  - name: cost_threshold
    condition: daily_cost > 500
    action: webhook: https://hooks.example.com
                    

安全配置

企业级安全保障，保护API和数据安全

身份认证

API密钥管理：支持多租户独立密钥
JWT令牌验证：标准OAuth2.0流程
IP白名单：限制访问来源
请求签名：防止请求篡改

访问控制

模型权限：按用户分配可用模型
速率限制：防止API滥用
配额管理：设置使用上限
审计日志：记录所有操作

数据安全

传输加密：TLS 1.3全链路加密
密钥加密：环境变量+Secret管理
日志脱敏：敏感信息自动掩码
数据隔离：多租户数据分离

合规性

SOC 2 Type II认证
GDPR数据保护
HIPAA医疗数据合规
ISO 27001信息安全

常见问题

关于LiteLLM代理服务器配置的常见疑问

LiteLLM代理服务器需要多少内存？

基础配置建议至少2GB内存，如果需要缓存功能或处理大量并发请求，建议配置4GB以上。Docker镜像大小约为500MB，实际运行内存占用取决于并发连接数和缓存策略。

如何实现多环境部署（开发/测试/生产）？

推荐使用不同的配置文件（litellm_config_dev.yaml、litellm_config_prod.yaml），通过环境变量区分。可以为每个环境配置不同的数据库、API密钥和限流策略。使用Docker Compose或Kubernetes可以轻松管理多环境部署。

支持流式响应吗？

完全支持。LiteLLM原生支持SSE（Server-Sent Events）流式响应，只需在请求中设置stream: true即可。代理服务会透传原始模型的流式响应，不会增加额外延迟。支持OpenAI、Claude、Gemini等所有主流模型的流式调用。

如何监控代理服务的健康状态？

LiteLLM提供内置的健康检查端点/health，可以集成到Kubernetes liveness/readiness探针。同时支持Prometheus指标导出，可以监控请求量、延迟、错误率等关键指标。还可以配置Webhook告警，在异常时自动通知。

能否自定义模型路由规则？

可以。通过router_settings配置灵活的路由策略，支持基于延迟、成本、可用性的智能路由。还可以根据请求特征（如prompt长度、用户等级）动态选择模型，实现精细化的流量控制。

LiteLLM代理服务器
完整配置指南

安装方式

Docker部署（推荐）

Python安装

Docker Compose

Kubernetes部署

配置详解

基础配置文件

环境变量配置

负载均衡配置

核心功能

统一API接口

智能负载均衡

请求日志记录

成本追踪

速率限制

缓存优化

支持的模型

OpenAI

Anthropic

Google

Azure OpenAI

AWS Bedrock

Mistral AI

Cohere

Replicate

HuggingFace

Ollama

VLLM

自定义

监控与日志

安全配置

身份认证

访问控制

数据安全

合规性

常见问题

相关资源

LiteLLM代理服务器完整配置指南

安装方式

Docker部署（推荐）

Python安装

Docker Compose

Kubernetes部署

配置详解

基础配置文件

环境变量配置

负载均衡配置

核心功能

统一API接口

智能负载均衡

请求日志记录

成本追踪

速率限制

缓存优化

支持的模型

OpenAI

Anthropic

Google

Azure OpenAI

AWS Bedrock

Mistral AI

Cohere

Replicate

HuggingFace

Ollama

VLLM

自定义

监控与日志

安全配置

身份认证

访问控制

数据安全

合规性

常见问题

相关资源

LiteLLM代理服务器
完整配置指南