全球边缘LLM代理
毫秒级响应

使用Cloudflare Workers构建分布式LLM代理服务,在200+边缘节点实现全球部署,支持OpenAI、Anthropic、Google等多模型统一代理,平均响应延迟低于50ms。

San Francisco
New York
London
Frankfurt
Singapore
Tokyo
Sydney
200+
全球边缘节点
<50ms
平均响应延迟
99.99%
服务可用性
10M+
日请求量
0
冷启动时间

边缘代理架构

三层架构设计,请求就近处理,智能路由到最优模型端点

边缘接入层

  • 全球200+边缘节点
  • Anycast智能路由
  • 请求认证与限流
  • 协议转换适配

智能路由层

  • 负载均衡算法
  • 健康检查机制
  • 故障自动转移
  • 成本优化路由

模型代理层

  • OpenAI API代理
  • Anthropic Claude代理
  • Google Gemini代理
  • 自定义模型接入

核心功能特性

企业级LLM代理解决方案,满足各种场景需求

超低延迟响应

请求就近处理,无需跨区域传输,平均响应时间低于50毫秒,显著提升用户体验。

统一API密钥管理

集中管理所有AI服务商密钥,支持密钥轮换、权限控制和审计日志,确保安全合规。

多模型统一接口

提供OpenAI兼容的统一API接口,无缝切换不同模型,简化应用开发流程。

智能负载均衡

自动检测模型端点健康状态,智能分配请求流量,确保服务稳定性和最优性能。

详细请求日志

完整记录所有API请求,包括时间戳、模型、Token用量、响应时间等,支持实时监控和分析。

灵活配置规则

支持自定义路由规则、重试策略、超时设置等,满足不同业务场景的个性化需求。

多租户支持

支持多租户隔离,每个租户独立配置API密钥、限流策略和计费方案。

安全防护

内置DDoS防护、请求签名验证、IP白名单等安全机制,保护API免受恶意攻击。

成本优化

智能选择最具性价比的模型端点,支持按Token计费,帮助企业节省AI调用成本。

快速开始

几分钟内完成部署,开始使用边缘LLM代理

Worker代码
Wrangler配置
客户端调用
// worker.js - LLM代理服务
export default {
  async fetch(request, env) {
    const url = new URL(request.url);
    
    // 验证API密钥
    const authHeader = request.headers.get('Authorization');
    if (!authHeader?.startsWith('Bearer ')) {
      return new Response('Unauthorized', { status: 401 });
    }

    // 解析请求体
    const body = await request.json();
    
    // 路由到目标模型
    const targetModel = body.model || 'gpt-3.5-turbo';
    const endpoint = getModelEndpoint(targetModel);
    
    // 转发请求
    const response = await fetch(endpoint, {
      method: 'POST',
      headers: {
        'Content-Type': 'application/json',
        'Authorization': `Bearer ${env.OPENAI_KEY}`
      },
      body: JSON.stringify(body)
    });
    
    return response;
  }
};

function getModelEndpoint(model) {
  const endpoints = {
    'gpt-4': 'https://api.openai.com/v1/chat/completions',
    'claude-3': 'https://api.anthropic.com/v1/messages',
    'gemini-pro': 'https://generativelanguage.googleapis.com/v1/models'
  };
  return endpoints[model] || endpoints['gpt-3.5-turbo'];
}

部署方式

选择适合你的部署方式,快速上线LLM代理服务

Wrangler CLI部署

使用Cloudflare官方CLI工具快速部署

1
安装Wrangler CLI
npm install -g wrangler
2
登录Cloudflare账户
wrangler login
3
配置环境变量
wrangler secret put OPENAI_KEY
4
部署Worker
wrangler deploy

GitHub Actions自动化

配置CI/CD流水线,自动部署更新

1
Fork项目到你的GitHub账户
2
配置GitHub Secrets
CLOUDFLARE_API_TOKEN
3
推送到main分支自动触发部署
4
查看Actions日志确认部署状态

定价方案

按需付费,无隐藏费用,随业务增长灵活扩展

免费版

$0/月
  • 100,000 请求/月
  • 3个API密钥
  • 基础日志
  • 社区支持
开始使用

企业版

定制
  • 无限请求
  • 私有部署
  • SLA保障
  • 专属客户经理
  • 定制开发
联系销售

方案对比

与传统方案对比,边缘代理具有显著优势

特性 Cloudflare Workers 传统服务器 自建代理
全球部署 ✓ 200+节点 ✗ 单区域 ✗ 需自行配置
响应延迟 ✓ <50ms ✗ 200-500ms ✗ 取决于位置
冷启动 ✓ 0ms ✓ 无冷启动 ✓ 无冷启动
自动扩展 ✓ 自动 ✗ 需配置 ✗ 手动扩展
运维成本 ✓ 无 ✗ 高 ✗ 最高
DDoS防护 ✓ 内置 ✗ 需额外购买 ✗ 需自行配置
成本效率 ✓ 高 ✗ 中 ✗ 低

常见问题

关于Cloudflare Workers LLM Proxy的常见疑问

Cloudflare Workers有请求限制吗?

免费套餐每天有100,000次请求限制,付费套餐可提升至无限请求。每个请求的CPU时间限制为10ms(免费)或50ms(付费),对于大多数LLM代理场景已足够使用。

如何处理流式响应(Streaming)?

Workers原生支持流式响应,可以直接转发LLM API的SSE(Server-Sent Events)流。使用TransformStream可以实现请求和响应的实时处理,包括内容过滤、日志记录等功能。

支持哪些AI模型服务商?

支持所有主流AI服务商,包括OpenAI(GPT-4、GPT-3.5)、Anthropic(Claude系列)、Google(Gemini)、Mistral AI、Cohere、Replicate等。只需配置相应的API密钥即可快速接入。

如何保证API密钥安全?

使用Cloudflare Secrets管理器存储敏感信息,密钥仅在Worker运行时可见。支持密钥轮换和权限控制,所有访问都有审计日志记录。建议为不同环境使用不同的密钥。

可以自定义域名吗?

可以。将域名托管到Cloudflare后,通过配置Routes即可绑定自定义域名。支持通配符路由和路径匹配,可以灵活配置多个子域名指向不同的Worker。

相关资源