本地AI模型的
OpenAI接口

LM Studio API代理将本地运行的GGUF模型转换为标准OpenAI API，支持Chat Completions和Embeddings接口，让任何应用都能无缝使用本地模型。

                        // 使用OpenAI SDK调用本地模型

                        import OpenAI from 'openai'

                        const client = new OpenAI({

                          baseURL: 'http://localhost:1234/v1'

                        })

                        const res = await client.chat.completions.create({

                          model: 'local-model',

                          messages: [{ role: 'user', content: 'Hi!' }]

                        })

功能特性

完整的OpenAI兼容API

提供与OpenAI完全一致的API接口，无需修改应用代码

💬

Chat Completions

支持对话补全API，包括流式响应、多轮对话、系统提示等功能。

📊

Embeddings

提供文本嵌入接口，支持向量检索、语义搜索等应用场景。

🔄

流式输出

支持Server-Sent Events流式响应，实时返回生成内容。

📋

模型列表

自动发现本地已加载的模型，提供模型列表API。

🔐

本地运行

所有处理在本地完成，数据不离开设备，保护隐私安全。

⚡

零延迟

无网络传输，响应速度极快，用户体验流畅。

使用方法

四步快速启动

下载LM Studio

从官网下载并安装LM Studio应用程序。

加载模型

在LM Studio中搜索并下载GGUF格式的模型文件。

启动服务器

在LM Studio中启动本地API服务器（默认端口1234）。

开始调用

修改应用的baseURL为本地地址，开始使用本地模型。

API参考

API端点

POST

/v1/chat/completions

创建对话补全，支持流式和非流式响应

{
  "model": "local-model",
  "messages": [
    { "role": "user", "content": "Hello!" }
  ],
  "stream": true
}

POST

/v1/embeddings

生成文本嵌入向量

{
"model": "local-embeddings",
"input": "Text to embed"
}

GET

/v1/models

获取可用模型列表

模型支持

支持的GGUF模型

支持所有GGUF格式的量化模型

🦙

LLaMA 2

Meta开源模型

🌀

Mistral

高效推理模型

🔷

Qwen

通义千问

💚

CodeLlama

代码生成模型

🎭

Vicuna

高质量对话

💎

Gemma

Google轻量模型

🌟

Phi-2

微软小模型

🔮

自定义

任意GGUF模型

对比

LM Studio vs 云API

特性	LM Studio	云API
数据隐私	✓ 完全本地	✗ 传输云端
使用成本	✓ 零成本	✗ 按量计费
响应延迟	✓ <10ms	✗ 200-500ms
速率限制	✓ 无限制	✗ 有限制
离线使用	✓ 支持	✗ 需联网
模型选择	GGUF量化模型	官方模型

FAQ

常见问题

LM Studio需要什么配置？

运行7B模型建议至少8GB内存，推荐16GB。如有Apple Silicon Mac或NVIDIA GPU，可以大幅提升推理速度。GGUF量化模型可以在较低配置上运行。

支持函数调用吗？

目前本地模型对函数调用的支持有限。部分模型可以通过提示工程模拟函数调用，但与OpenAI的原生实现存在差异。建议将函数调用场景迁移到支持的工具链。

如何选择合适的量化级别？

Q4_K_M是推荐的平衡点，在质量和性能间取得良好平衡。如果内存充足，可以选择Q5或Q6获得更好质量；如果内存紧张，Q3或Q2可以减小模型体积但会损失部分质量。

可以同时运行多个模型吗？

LM Studio支持同时加载多个模型，但受限于内存和显存资源。建议根据硬件配置合理规划，避免内存溢出。可以在不同端口运行多个LM Studio实例。

本地AI模型的OpenAI接口