大模型 API 怎么选、怎么不被烧死

AI 产品和普通 SaaS 最大的区别，是它的成本结构。

普通 SaaS 的边际成本接近于零——多一个用户多花的服务器钱可以忽略。但 AI 产品不一样：用户每点一次「生成」，你的 API 账单就涨一笔。一个重度用户、一段没优化的 prompt、一个被盗刷的 API Key，都能让你的账单在一天内翻几十倍。

我见过太多 AI 产品死在成本上——不是没人用，是用得越多亏得越多。这篇讲清楚怎么选模型、怎么控成本、怎么防止被烧死。

先认清一件事：模型是有成本梯度的

不同模型的价格能差出一两个数量级。把所有任务都丢给最贵的模型，是新手最常见的烧钱方式。

主流模型的大致价格梯度（截至 2026 年 6 月，按每百万 token 计，具体以官方为准）：

档位	代表模型	输入价格区间	适合任务
旗舰	GPT-4o、Claude Opus、Gemini Ultra	较高（$2.5-15/M）	复杂推理、长文档、代码、高质量创作
主力	Claude Sonnet、GPT-4o mini、Gemini Pro	中等（$0.15-3/M）	大部分日常任务，性价比最高
轻量	GPT-4o mini、Claude Haiku、Gemini Flash	低（$0.1-0.5/M）	分类、提取、改写、简单问答
开源/自托管	DeepSeek、Qwen、Llama 系列	极低或仅算力成本	跑量、对隐私敏感、成本极致优化

关键认知：输出 token 通常比输入 token 贵 3-5 倍。 所以让模型「少废话、直接给结果」不只是体验问题，也是省钱问题。

按场景配模型，不要一刀切

一个 AI 产品内部往往有多个调用环节，每个环节对模型能力的要求不同。把它们都用旗舰模型是浪费。

举个例子，一个 AI 写作产品的内部流程可能是这样配的：

环节	任务	选用模型	理由
意图识别	判断用户想干嘛	轻量模型	简单分类，不需要旗舰
内容生成	写正文	主力/旗舰模型	质量直接影响产品体验
标题/摘要	生成标题	轻量模型	短文本，便宜模型够用
敏感词过滤	内容审核	轻量模型或规则	不需要昂贵推理

原则：把钱花在用户能直接感知质量的环节，其余环节用便宜模型或者根本不用模型（能用规则/正则解决的别调 API）。

控成本的几个核心手段

缓存：最立竿见影的省钱方式

很多请求是重复的。同样的 prompt、同样的输入，没必要每次都调一遍 API。

精确缓存： 输入完全相同就直接返回缓存结果。适合确定性任务（翻译、固定格式转换）
语义缓存： 输入意思相近就复用结果（用 embedding 算相似度）。适合 FAQ、客服类
Prompt 缓存： OpenAI、Anthropic 都提供了 prompt caching——长的系统提示词部分可以被缓存，重复使用时大幅降价。如果你的 system prompt 很长且固定，一定要开

光是把固定的长 system prompt 做缓存，重度调用场景能省下一大笔。

降级：贵模型扛不住就退一步

设计一个降级链路，而不是死磕一个模型：

旗舰模型超时/限流/报错 → 自动切到主力模型
用户是免费用户 → 默认用便宜模型，付费用户才上旗舰
高峰期成本压力大 → 临时降级保成本

降级不只是省钱，也是保可用性——单一模型供应商挂了你的产品不至于全停。

限流和用量上限：防止单用户拖垮你

这是防止「被烧死」的关键。必须做：

单用户速率限制： 每个用户每分钟/每天能调多少次，设上限
用量配额： 免费用户每月 N 次，超了要么付费要么等下月
异常检测： 某个用户突然调用量暴增，自动熔断 + 告警
单次输入长度限制： 防止有人贴一本书进来把你的 token 烧爆

没有限流的 AI 产品，等于把信用卡裸放在公网上。

控制输出长度

在 prompt 里明确要求简洁输出
设置 max_tokens 上限
流式输出（streaming）虽然不省钱，但能让用户提前看到结果、提前停止，间接减少无效生成

API Key 防盗刷:别把密钥暴露在前端

这是血泪教训。绝对不要把 API Key 放在前端代码里。

前端能看到的东西，用户就能扒出来。API Key 一旦泄露，别人可以用你的额度疯狂调用，等你发现时账单已经几千上万美金了。OpenAI、Anthropic 的论坛里这种案例每个月都有。

正确做法：

API Key 只放在后端。 前端调用你的后端，后端再去调大模型，密钥永远不出服务器
设置消费上限。 在 OpenAI/Anthropic 后台设置每月 hard limit，到顶自动停，给账单上个保险
用代理层做统一管控。 如果调用多个模型，用一个网关层（如 LiteLLM、自建代理）统一管理 Key、限流、计费、日志
Key 轮换 + 权限隔离。 不同环境用不同 Key，生产 Key 定期轮换，泄露了能快速作废
监控异常调用。 调用量、来源 IP、消费速度异常时立刻告警

如果你做的是给用户填自己 API Key 的产品（BYOK 模式），也要做好用户 Key 的加密存储，不能明文落库。

用量监控:不监控就是闭眼烧钱

你必须随时知道钱花在哪了：

按用户/功能/模型维度统计消耗——哪个功能最烧钱，哪类用户成本最高
设置消费告警——日消费超过阈值立刻通知你
记录每次调用的 token 数和成本——出问题能追溯
定期看成本报表——OpenAI/Anthropic 后台有用量面板，至少每周看一次

很多人是收到天价账单才发现出事了。监控和告警让你在烧到失控前就能踩刹车。

给用户计费时,怎么不亏本

如果你的 AI 产品向用户收费，定价必须覆盖 API 成本，还要留出利润。常见的坑是定价时只算了「平均用户」，结果被重度用户吃垮。

几个原则：

算清楚单用户成本天花板。 不是平均成本，是最坏情况——一个把额度用满的用户会花你多少钱
订阅 + 用量上限组合。 $19/月包含 X 次调用，超出部分按量收费或限速。纯不限量订阅遇到重度用户必亏
免费版严格限量。 免费用户是成本中心，用量必须卡死
重度用户单独定价。 给真正高频的用户一个更高的档位，而不是让他们在便宜档位里把你薅穿
成本随模型降价更新定价。 大模型 API 价格一直在降，定期重算你的成本结构

参考定价模型的详细讨论，见 SaaS 定价踩坑记。

中国开发者的额外注意点

网络可用性： OpenAI、Anthropic、Google 的 API 对中国 IP 有限制，后端服务器需要部署在海外，或通过合规的海外节点调用
国产模型作为补充： DeepSeek、Qwen 等国产模型价格极低、国内可直接访问，适合做成本敏感的环节或国内市场的产品。能用国产模型满足质量要求的环节，没必要花贵价用海外模型
不要用来路不明的「中转 API」做生产环境： 便宜的第三方中转 API 稳定性和数据安全都没保障，关键业务别依赖（相关风险分析见 AI 中转站是门好生意吗）

一个最小可行的成本控制清单

刚开始做 AI 产品，按这个清单先把底线兜住：

API Key 只在后端，前端绝不暴露
OpenAI/Anthropic 后台设置月度消费 hard limit
给每个用户加速率限制和用量配额
长 system prompt 开启 prompt caching
按场景分配模型，别全用旗舰
设置日消费告警
限制单次输入长度和 max_tokens
定价时按「最坏情况用户」算成本，不是平均用户

把这八条做了，你不会因为成本失控而突然死掉。剩下的优化（语义缓存、降级链路、多模型网关）可以在产品跑起来后逐步加。