利用向量相似度识别语义相近的请求,智能复用历史响应,大幅降低API调用成本,显著提升响应速度,让AI服务更高效更经济。
成本节省
响应加速
缓存命中率
相似度计算
工作原理
不只是关键词匹配,理解请求的真实意图
使用Embedding模型将用户请求转换为高维向量表示。
在缓存库中快速检索与当前请求语义相似的记录。
当相似度超过设定阈值时,判定为命中缓存。
命中则返回缓存响应,否则调用API并缓存结果。
核心功能
基于向量余弦相似度识别语义相近的请求,超越简单关键词匹配。
优化的向量索引算法,支持百万级缓存的快速检索。
支持TTL和LRU策略,自动清理过期和低频缓存。
实时监控缓存命中率、成本节省、响应时间等关键指标。
可调整相似度阈值、缓存策略、排除规则等参数。
敏感信息自动脱敏,支持端到端加密存储。
对比
配置
FAQ
推荐设置在0.85-0.95之间。阈值越高,匹配越精确,但命中率降低;阈值越低,命中率提高,但可能出现语义偏差。对于准确性要求高的场景建议0.95,一般场景0.90即可。
可以配置响应质量检测机制,只有高质量响应才会被缓存。支持基于置信度、响应长度、用户反馈等指标过滤。同时提供手动标记和清理接口,及时移除低质量缓存。
支持主流向量数据库:Pinecone、Weaviate、Milvus、Chroma、Qdrant、FAISS等。也可以使用Redis的向量搜索功能或PostgreSQL的pgvector扩展。轻量级场景可以使用内存中的FAISS索引。
语义缓存支持上下文感知。可以选择缓存完整的对话历史,或只缓存最近的N轮对话。对于不同的对话模式,可以配置不同的缓存策略,确保缓存的相关性和准确性。