S
SELF-HOSTED LLM
ONLINE
私有化部署方案

自托管 LLM代理
完全部署指南

完全掌控您的AI基础设施。Docker/Kubernetes一键部署, 私有模型集成,企业级安全配置,打造完全自主的LLM服务。

SYSTEM STATUS
容器运行 RUNNING
内存使用 4.2 GB / 16 GB
CPU负载 12%
请求QPS 156/s
平均延迟 45ms

01. 部署方式

选择最适合您的部署架构

🐳

Docker

最简单的开始方式,一行命令启动完整服务

$ docker run -d \
  -p 8080:8080 \
  -v config:/app/config \
  selfhosted-llm
☸️

Kubernetes

生产环境推荐,支持高可用、自动扩缩容

# helm install
$ helm install llm \
  --namespace ai-system \
  ./chart/llm-proxy
⚙️

二进制部署

轻量级选项,适合资源敏感场景

# 下载二进制
$ curl -sL \
  get.llm.sh | sh
$ ./llm-proxy start

02. 技术栈

支持的私有模型

🦙
Llama 3
Meta
🧠
Mistral
Mistral AI
🔮
Qwen
Alibaba
🐉
DeepSeek
DeepSeek AI
📚
Baichuan
iFlytek
🌟
ChatGLM
Zhipu AI
🦜
Falcon
TII
🔷
Yi
01.AI

03. 安全配置

企业级安全防护

🔐 网络隔离

  • network_policy: enabled
  • pod_isolation: true
  • ingress_whitelist: 10.0.0.0/8
  • egress_control: limited

🔑 认证授权

  • auth_type: oauth2 + jwt
  • token_expiry: 3600s
  • refresh_enabled: true
  • mTLS: required

📝 审计日志

  • log_level: DEBUG
  • audit_enabled: true
  • retention: 90 days
  • sink: syslog + elasticsearch

🛡️ 加密

  • tls_version: 1.3
  • cipher_suites: [ECDHE-RSA-AES256-GCM]
  • at_rest: AES-256-GCM
  • key_rotation: 30 days

04. 性能优化

提升服务响应速度

GPU
NVIDIA加速
CUDA 12.0+
量化
INT8/INT4
减少50%显存
KV
缓存加速
PagedAttention
批处理
动态批处理
提升3倍吞吐