快速开始
简单配置,快速部署本地AI服务
下载并安装Ollama,拉取所需的开源模型。
使用Docker一键启动OpenAI兼容代理。
修改baseURL即可使用OpenAI SDK调用本地模型。
核心功能
完全兼容OpenAI API格式,无需修改现有应用代码即可接入。
所有请求在本地处理,数据不离开你的服务器,完全私有。
本地部署无网络传输延迟,响应速度更快,用户体验更好。
支持同时运行多个模型,按需切换,灵活配置。
详细的请求日志和性能监控,便于排查问题和优化性能。
完整支持SSE流式输出,实时返回生成内容。
提供官方Docker镜像,一键部署,环境隔离,易于维护。
支持环境变量和配置文件,轻松适配不同部署环境。
架构设计
使用OpenAI SDK的应用程序,无需修改代码
OpenAI API格式转换为Ollama API格式
本地运行的开源大语言模型
模型支持
| 模型名称 | 参数规模 | 上下文长度 | 推荐用途 |
|---|---|---|---|
| llama2 | 7B / 13B / 70B | 4K | 通用对话、文本生成 |
| mistral | 7B | 8K | 高效推理、代码生成 |
| qwen | 7B / 14B | 8K | 中文对话、多语言 |
| codellama | 7B / 13B / 34B | 16K | 代码生成、补全 |
| vicuna | 7B / 13B | 4K | 高质量对话 |
| gemma | 2B / 7B | 8K | 轻量级应用 |
代码示例
对比
FAQ
运行7B参数模型建议至少8GB内存,推荐16GB以上。如有GPU(NVIDIA显卡,6GB+显存),可以显著提升推理速度。70B模型需要更多资源,建议使用多GPU或量化版本。
Ollama支持从HuggingFace等平台拉取模型,只需运行ollama pull命令即可。代理服务会自动发现Ollama中已安装的模型,无需额外配置。
目前开源模型的函数调用支持有限。部分模型(如LLaMA 2)通过微调可以支持类似功能,但与OpenAI的原生实现存在差异。建议用于简单场景,复杂场景推荐使用云API。
代理服务支持并发处理多个请求,但受限于本地硬件资源。建议使用队列机制控制并发数,或在多个实例间进行负载均衡。也可以考虑使用vLLM等优化框架提升吞吐量。