本地AI模型的
OpenAI接口

LM Studio API代理将本地运行的GGUF模型转换为标准OpenAI API,支持Chat Completions和Embeddings接口,让任何应用都能无缝使用本地模型。

// 使用OpenAI SDK调用本地模型
import OpenAI from 'openai'

const client = new OpenAI({
  baseURL: 'http://localhost:1234/v1'
})

const res = await client.chat.completions.create({
  model: 'local-model',
  messages: [{ role: 'user', content: 'Hi!' }]
})

完整的OpenAI兼容API

提供与OpenAI完全一致的API接口,无需修改应用代码

💬

Chat Completions

支持对话补全API,包括流式响应、多轮对话、系统提示等功能。

📊

Embeddings

提供文本嵌入接口,支持向量检索、语义搜索等应用场景。

🔄

流式输出

支持Server-Sent Events流式响应,实时返回生成内容。

📋

模型列表

自动发现本地已加载的模型,提供模型列表API。

🔐

本地运行

所有处理在本地完成,数据不离开设备,保护隐私安全。

零延迟

无网络传输,响应速度极快,用户体验流畅。

四步快速启动

1

下载LM Studio

从官网下载并安装LM Studio应用程序。

2

加载模型

在LM Studio中搜索并下载GGUF格式的模型文件。

3

启动服务器

在LM Studio中启动本地API服务器(默认端口1234)。

4

开始调用

修改应用的baseURL为本地地址,开始使用本地模型。

API端点

POST

/v1/chat/completions

创建对话补全,支持流式和非流式响应

{
  "model": "local-model",
  "messages": [
    { "role": "user", "content": "Hello!" }
  ],
  "stream": true
}
POST

/v1/embeddings

生成文本嵌入向量

{
  "model": "local-embeddings",
  "input": "Text to embed"
}
GET

/v1/models

获取可用模型列表

支持的GGUF模型

支持所有GGUF格式的量化模型

🦙

LLaMA 2

Meta开源模型

🌀

Mistral

高效推理模型

🔷

Qwen

通义千问

💚

CodeLlama

代码生成模型

🎭

Vicuna

高质量对话

💎

Gemma

Google轻量模型

🌟

Phi-2

微软小模型

🔮

自定义

任意GGUF模型

LM Studio vs 云API

特性 LM Studio 云API
数据隐私 ✓ 完全本地 ✗ 传输云端
使用成本 ✓ 零成本 ✗ 按量计费
响应延迟 ✓ <10ms ✗ 200-500ms
速率限制 ✓ 无限制 ✗ 有限制
离线使用 ✓ 支持 ✗ 需联网
模型选择 GGUF量化模型 官方模型

常见问题

LM Studio需要什么配置?

运行7B模型建议至少8GB内存,推荐16GB。如有Apple Silicon Mac或NVIDIA GPU,可以大幅提升推理速度。GGUF量化模型可以在较低配置上运行。

支持函数调用吗?

目前本地模型对函数调用的支持有限。部分模型可以通过提示工程模拟函数调用,但与OpenAI的原生实现存在差异。建议将函数调用场景迁移到支持的工具链。

如何选择合适的量化级别?

Q4_K_M是推荐的平衡点,在质量和性能间取得良好平衡。如果内存充足,可以选择Q5或Q6获得更好质量;如果内存紧张,Q3或Q2可以减小模型体积但会损失部分质量。

可以同时运行多个模型吗?

LM Studio支持同时加载多个模型,但受限于内存和显存资源。建议根据硬件配置合理规划,避免内存溢出。可以在不同端口运行多个LM Studio实例。

相关资源