LiteLLM代理服务器
完整配置指南

✦ ✦ ✦

一站式LLM代理解决方案,统一管理100+AI模型,提供OpenAI兼容API接口,支持负载均衡、日志监控、成本优化,轻松部署企业级AI服务。

支持100+模型
OpenAI兼容API
零代码集成

安装方式

选择适合你的安装方式,快速启动LiteLLM代理服务

Docker部署(推荐)

  • 拉取镜像:docker pull ghcr.io/berriai/litellm:main-latest
  • 创建配置文件:litellm_config.yaml
  • 运行容器:docker run -d -p 4000:4000 -v ./litellm_config.yaml:/app/config.yaml ghcr.io/berriai/litellm:main-latest --config /app/config.yaml
  • 访问代理:http://localhost:4000
  • 配置环境变量:OPENAI_API_KEYANTHROPIC_API_KEY

Python安装

  • 安装依赖:pip install litellm[proxy]
  • 创建配置:litellm_config.yaml
  • 启动服务:litellm --config litellm_config.yaml
  • 指定端口:litellm --config config.yaml --port 8080
  • 设置API密钥:export OPENAI_API_KEY=sk-xxx

Docker Compose

  • 创建docker-compose.yml文件
  • 配置服务:image: ghcr.io/berriai/litellm:main-latest
  • 挂载配置:volumes: - ./litellm_config.yaml:/app/config.yaml
  • 启动服务:docker-compose up -d
  • 查看日志:docker-compose logs -f litellm

Kubernetes部署

  • 创建Deployment:kubectl apply -f litellm-deployment.yaml
  • 配置Secret:kubectl create secret generic litellm-secrets
  • 创建Service:kubectl expose deployment litellm
  • 配置Ingress:api.yourdomain.com
  • 扩展副本:kubectl scale deployment litellm --replicas=3

配置详解

详细的配置选项说明,满足各种场景需求

基础配置文件

# litellm_config.yaml model_list: - model_name: gpt-4 litellm_params: model: openai/gpt-4-turbo api_key: os.environ/OPENAI_API_KEY - model_name: claude-3 litellm_params: model: anthropic/claude-3-opus-20240229 api_key: os.environ/ANTHROPIC_API_KEY - model_name: gemini-pro litellm_params: model: gemini/gemini-pro api_key: os.environ/GEMINI_API_KEY general_settings: master_key: sk-1234 # 代理服务主密钥 database_url: postgresql://user:pass@localhost/litellm litellm_settings: drop_params: True set_verbose: False cache: True

环境变量配置

OPENAI_API_KEY sk-xxxxxxxx
OpenAI API密钥,用于GPT-4、GPT-3.5等模型
ANTHROPIC_API_KEY sk-ant-xxxx
Anthropic API密钥,用于Claude系列模型
GEMINI_API_KEY AIzaSy...
Google AI API密钥,用于Gemini系列模型
LITELLM_MASTER_KEY sk-master-xxxx
代理服务主密钥,用于管理API访问权限
DATABASE_URL postgresql://...
数据库连接URL,用于存储请求日志和配置

负载均衡配置

# 多个相同模型的负载均衡 model_list: - model_name: gpt-4 litellm_params: model: openai/gpt-4-turbo api_key: os.environ/OPENAI_KEY_1 - model_name: gpt-4 litellm_params: model: openai/gpt-4-turbo api_key: os.environ/OPENAI_KEY_2 - model_name: gpt-4 litellm_params: model: azure/gpt-4 api_base: https://your-resource.openai.azure.com api_key: os.environ/AZURE_KEY # 路由策略 router_settings: routing_strategy: latency-based-routing # 基于延迟路由 num_retries: 3 timeout: 60 retry_after: 0.1

核心功能

企业级LLM代理服务必备功能

统一API接口

提供OpenAI兼容的统一API格式,无需修改代码即可切换不同模型提供商。

智能负载均衡

自动分配请求到多个模型端点,支持轮询、最少连接、延迟优先等策略。

请求日志记录

完整记录所有API请求,包括输入输出、Token消耗、响应时间等详细信息。

成本追踪

实时统计各模型调用成本,生成详细报告,优化AI服务支出。

速率限制

灵活配置每用户、每模型的请求频率限制,防止API滥用。

缓存优化

智能缓存相似请求,减少重复调用,降低成本和延迟。

支持的模型

原生支持100+主流AI模型

OpenAI

GPT-4, GPT-3.5, GPT-4V

Anthropic

Claude 3 Opus/Sonnet

Google

Gemini Pro/Ultra

Azure OpenAI

GPT-4, GPT-35-Turbo

AWS Bedrock

Claude, Llama 2

Mistral AI

Mistral, Mixtral

Cohere

Command, Embed

Replicate

Llama, Vicuna

HuggingFace

开源模型

Ollama

本地模型

VLLM

自托管部署

自定义

私有端点

监控与日志

实时监控服务状态,追踪每次API调用

请求日志
性能指标
告警配置
2024-01-15 14:32:15 INFO POST /v1/chat/completions - Model: gpt-4 - Tokens: 1247 - Latency: 1.23s
2024-01-15 14:32:18 SUCCESS Request completed - User: user_123 - Cost: $0.0124
2024-01-15 14:32:20 WARN Rate limit approaching - User: user_456 - Requests: 95/100
2024-01-15 14:32:22 INFO Model routing: gpt-4 -> azure-gpt-4 (fallback enabled)
2024-01-15 14:32:25 SUCCESS Streaming response completed - Model: claude-3-opus
总请求数 1,247,892
成功率 99.87%
平均延迟 847ms
Token消耗 45.2M / 日
活跃用户 1,234
模型分布 GPT-4: 45%, Claude: 32%, Gemini: 23%
# 告警配置示例 alert_settings: - name: high_latency condition: avg_latency > 3000 action: email: admin@company.com - name: error_rate_spike condition: error_rate > 0.05 action: slack: #alerts - name: cost_threshold condition: daily_cost > 500 action: webhook: https://hooks.example.com

安全配置

企业级安全保障,保护API和数据安全

身份认证

  • API密钥管理:支持多租户独立密钥
  • JWT令牌验证:标准OAuth2.0流程
  • IP白名单:限制访问来源
  • 请求签名:防止请求篡改

访问控制

  • 模型权限:按用户分配可用模型
  • 速率限制:防止API滥用
  • 配额管理:设置使用上限
  • 审计日志:记录所有操作

数据安全

  • 传输加密:TLS 1.3全链路加密
  • 密钥加密:环境变量+Secret管理
  • 日志脱敏:敏感信息自动掩码
  • 数据隔离:多租户数据分离

合规性

  • SOC 2 Type II认证
  • GDPR数据保护
  • HIPAA医疗数据合规
  • ISO 27001信息安全

常见问题

关于LiteLLM代理服务器配置的常见疑问

LiteLLM代理服务器需要多少内存?

基础配置建议至少2GB内存,如果需要缓存功能或处理大量并发请求,建议配置4GB以上。Docker镜像大小约为500MB,实际运行内存占用取决于并发连接数和缓存策略。

如何实现多环境部署(开发/测试/生产)?

推荐使用不同的配置文件(litellm_config_dev.yaml、litellm_config_prod.yaml),通过环境变量区分。可以为每个环境配置不同的数据库、API密钥和限流策略。使用Docker Compose或Kubernetes可以轻松管理多环境部署。

支持流式响应吗?

完全支持。LiteLLM原生支持SSE(Server-Sent Events)流式响应,只需在请求中设置stream: true即可。代理服务会透传原始模型的流式响应,不会增加额外延迟。支持OpenAI、Claude、Gemini等所有主流模型的流式调用。

如何监控代理服务的健康状态?

LiteLLM提供内置的健康检查端点/health,可以集成到Kubernetes liveness/readiness探针。同时支持Prometheus指标导出,可以监控请求量、延迟、错误率等关键指标。还可以配置Webhook告警,在异常时自动通知。

能否自定义模型路由规则?

可以。通过router_settings配置灵活的路由策略,支持基于延迟、成本、可用性的智能路由。还可以根据请求特征(如prompt长度、用户等级)动态选择模型,实现精细化的流量控制。

相关资源