智能缓存 · 降低成本

基于语义的
LLM智能缓存

利用向量相似度识别语义相近的请求，智能复用历史响应，大幅降低API调用成本，显著提升响应速度，让AI服务更高效更经济。

了解原理配置指南

"什么是机器学习？"

92%

⬇ 命中缓存

"机器学习是什么意思？"

✓

⬇

复用响应，无需调用API

50%

成本节省

10x

响应加速

95%

缓存命中率

0.1s

相似度计算

工作原理

智能语义匹配

不只是关键词匹配，理解请求的真实意图

向量化请求

使用Embedding模型将用户请求转换为高维向量表示。

相似度搜索

在缓存库中快速检索与当前请求语义相似的记录。

阈值判断

当相似度超过设定阈值时，判定为命中缓存。

智能响应

命中则返回缓存响应，否则调用API并缓存结果。

核心功能

企业级缓存能力

🎯

语义相似度

基于向量余弦相似度识别语义相近的请求，超越简单关键词匹配。

⚡

毫秒级检索

优化的向量索引算法，支持百万级缓存的快速检索。

🔄

自动过期

支持TTL和LRU策略，自动清理过期和低频缓存。

📊

详细统计

实时监控缓存命中率、成本节省、响应时间等关键指标。

🔧

灵活配置

可调整相似度阈值、缓存策略、排除规则等参数。

🔒

隐私保护

敏感信息自动脱敏，支持端到端加密存储。

对比

语义缓存 vs 传统缓存

✓ 语义缓存

✓ 识别语义相似请求
✓ "什么是AI" ≈ "AI是什么意思"
✓ 命中率提升3-5倍
✓ 智能理解用户意图
✓ 适应表述多样性

✗ 传统缓存

✗ 只能精确匹配
✗ "什么是AI" ≠ "AI是什么意思"
✗ 命中率低
✗ 无法理解语义
✗ 依赖完全相同表述

配置

快速配置

semantic-cache.yaml

# 语义缓存配置 similarity_threshold: 0.92 # 相似度阈值 (0-1) embedding_model: text-embedding-3-small cache: backend: redis ttl: 86400 # 缓存过期时间（秒） max_size: 100000 # 最大缓存条目数 vector_store: type: faiss dimension: 1536 index_type: IVF exclusions: patterns: - "当前时间" - "今天.*天气" sensitive_keys: - "api_key" - "password"

FAQ

常见问题

相似度阈值应该设置多少？

推荐设置在0.85-0.95之间。阈值越高，匹配越精确，但命中率降低；阈值越低，命中率提高，但可能出现语义偏差。对于准确性要求高的场景建议0.95，一般场景0.90即可。

会缓存错误的回答吗？

可以配置响应质量检测机制，只有高质量响应才会被缓存。支持基于置信度、响应长度、用户反馈等指标过滤。同时提供手动标记和清理接口，及时移除低质量缓存。

支持哪些向量数据库？

支持主流向量数据库：Pinecone、Weaviate、Milvus、Chroma、Qdrant、FAISS等。也可以使用Redis的向量搜索功能或PostgreSQL的pgvector扩展。轻量级场景可以使用内存中的FAISS索引。

如何处理多轮对话？

语义缓存支持上下文感知。可以选择缓存完整的对话历史，或只缓存最近的N轮对话。对于不同的对话模式，可以配置不同的缓存策略，确保缓存的相关性和准确性。

基于语义的LLM智能缓存

50%

10x

95%