企业级LLM代理服务,支持多模型路由、负载均衡、缓存优化、认证授权等完整功能, 助您构建稳定高效的本地AI服务架构。
支持多种负载均衡策略,根据模型响应时间、错误率、并发数自动调整流量分配
基于语义相似度的缓存机制,大幅降低重复请求延迟和成本
支持API Key、OAuth 2.0、JWT等多种认证方式,精细化权限控制
完整的请求日志、性能指标、错误追踪,支持Prometheus和Grafana集成
git clone https://github.com/llmproxy/server
cp config.example.yaml config.yaml
export OPENAI_API_KEY=sk-...
docker-compose up -d
curl localhost:8080/health