LM Studio API代理将本地运行的GGUF模型转换为标准OpenAI API,支持Chat Completions和Embeddings接口,让任何应用都能无缝使用本地模型。
功能特性
提供与OpenAI完全一致的API接口,无需修改应用代码
支持对话补全API,包括流式响应、多轮对话、系统提示等功能。
提供文本嵌入接口,支持向量检索、语义搜索等应用场景。
支持Server-Sent Events流式响应,实时返回生成内容。
自动发现本地已加载的模型,提供模型列表API。
所有处理在本地完成,数据不离开设备,保护隐私安全。
无网络传输,响应速度极快,用户体验流畅。
使用方法
从官网下载并安装LM Studio应用程序。
在LM Studio中搜索并下载GGUF格式的模型文件。
在LM Studio中启动本地API服务器(默认端口1234)。
修改应用的baseURL为本地地址,开始使用本地模型。
API参考
创建对话补全,支持流式和非流式响应
生成文本嵌入向量
获取可用模型列表
模型支持
支持所有GGUF格式的量化模型
Meta开源模型
高效推理模型
通义千问
代码生成模型
高质量对话
Google轻量模型
微软小模型
任意GGUF模型
对比
| 特性 | LM Studio | 云API |
|---|---|---|
| 数据隐私 | ✓ 完全本地 | ✗ 传输云端 |
| 使用成本 | ✓ 零成本 | ✗ 按量计费 |
| 响应延迟 | ✓ <10ms | ✗ 200-500ms |
| 速率限制 | ✓ 无限制 | ✗ 有限制 |
| 离线使用 | ✓ 支持 | ✗ 需联网 |
| 模型选择 | GGUF量化模型 | 官方模型 |
FAQ
运行7B模型建议至少8GB内存,推荐16GB。如有Apple Silicon Mac或NVIDIA GPU,可以大幅提升推理速度。GGUF量化模型可以在较低配置上运行。
目前本地模型对函数调用的支持有限。部分模型可以通过提示工程模拟函数调用,但与OpenAI的原生实现存在差异。建议将函数调用场景迁移到支持的工具链。
Q4_K_M是推荐的平衡点,在质量和性能间取得良好平衡。如果内存充足,可以选择Q5或Q6获得更好质量;如果内存紧张,Q3或Q2可以减小模型体积但会损失部分质量。
LM Studio支持同时加载多个模型,但受限于内存和显存资源。建议根据硬件配置合理规划,避免内存溢出。可以在不同端口运行多个LM Studio实例。