选择适合你的安装方式,快速启动LiteLLM代理服务
详细的配置选项说明,满足各种场景需求
| OPENAI_API_KEY | sk-xxxxxxxx |
|---|---|
| OpenAI API密钥,用于GPT-4、GPT-3.5等模型 | |
| ANTHROPIC_API_KEY | sk-ant-xxxx |
| Anthropic API密钥,用于Claude系列模型 | |
| GEMINI_API_KEY | AIzaSy... |
| Google AI API密钥,用于Gemini系列模型 | |
| LITELLM_MASTER_KEY | sk-master-xxxx |
| 代理服务主密钥,用于管理API访问权限 | |
| DATABASE_URL | postgresql://... |
| 数据库连接URL,用于存储请求日志和配置 | |
企业级LLM代理服务必备功能
提供OpenAI兼容的统一API格式,无需修改代码即可切换不同模型提供商。
自动分配请求到多个模型端点,支持轮询、最少连接、延迟优先等策略。
完整记录所有API请求,包括输入输出、Token消耗、响应时间等详细信息。
实时统计各模型调用成本,生成详细报告,优化AI服务支出。
灵活配置每用户、每模型的请求频率限制,防止API滥用。
智能缓存相似请求,减少重复调用,降低成本和延迟。
原生支持100+主流AI模型
GPT-4, GPT-3.5, GPT-4V
Claude 3 Opus/Sonnet
Gemini Pro/Ultra
GPT-4, GPT-35-Turbo
Claude, Llama 2
Mistral, Mixtral
Command, Embed
Llama, Vicuna
开源模型
本地模型
自托管部署
私有端点
实时监控服务状态,追踪每次API调用
| 总请求数 | 1,247,892 |
|---|---|
| 成功率 | 99.87% |
| 平均延迟 | 847ms |
| Token消耗 | 45.2M / 日 |
| 活跃用户 | 1,234 |
| 模型分布 | GPT-4: 45%, Claude: 32%, Gemini: 23% |
企业级安全保障,保护API和数据安全
关于LiteLLM代理服务器配置的常见疑问
基础配置建议至少2GB内存,如果需要缓存功能或处理大量并发请求,建议配置4GB以上。Docker镜像大小约为500MB,实际运行内存占用取决于并发连接数和缓存策略。
推荐使用不同的配置文件(litellm_config_dev.yaml、litellm_config_prod.yaml),通过环境变量区分。可以为每个环境配置不同的数据库、API密钥和限流策略。使用Docker Compose或Kubernetes可以轻松管理多环境部署。
完全支持。LiteLLM原生支持SSE(Server-Sent Events)流式响应,只需在请求中设置stream: true即可。代理服务会透传原始模型的流式响应,不会增加额外延迟。支持OpenAI、Claude、Gemini等所有主流模型的流式调用。
LiteLLM提供内置的健康检查端点/health,可以集成到Kubernetes liveness/readiness探针。同时支持Prometheus指标导出,可以监控请求量、延迟、错误率等关键指标。还可以配置Webhook告警,在异常时自动通知。
可以。通过router_settings配置灵活的路由策略,支持基于延迟、成本、可用性的智能路由。还可以根据请求特征(如prompt长度、用户等级)动态选择模型,实现精细化的流量控制。