Agent 每次都调最贵的模型,但大部分请求根本用不着。这个问题我自己搭 agent 的时候也踩过——不同业务场景的简单任务比例差异很大,客服类可能 90% 是简单任务,代码生成可能反过来,不能照搬别人的比例。

「卡码大模型」最近发了篇文章拆这个,给了组挺直观的数据:用户说「你好」,GPT-5.5 回一句「有什么可以帮你的」就花了 0.03 美元。说「帮我总结这段话」,0.05 美元。换 GPT-4.1-mini 质量一模一样,价格差 10 倍。

文章的核心主张是混合路由:高频简单场景用规则拦截,模糊地带用轻量模型判断,不确定的一律大模型兜底。规则路由零成本但业务跑半年规则就互相冲突了,模型路由灵活但需要训练数据而且自己也会判错。混合路由的思路是每一层只处理自己有把握的,没把握的往下传。

路由模型推荐用评分器而不是分类器——输出一个 0-1 的难度分,比直接预测「该用哪个模型」更稳定,模型列表变了只调阈值不用重训。冷启动阶段全走大模型,用置信度当标签代理,跑一周后训初版模型,渐进放大小模型的比例。

级联降级听起来很聪明:小模型先试,不行再升级。文章算了笔账:假设 70% 简单、30% 复杂,一刀切大模型成本 100,级联降级 50,理想路由 40。级联比理想路由多花 25%,因为那 30% 复杂请求被小模型「白试」了一次。还有个坑是错误传播:小模型给的答案有时看起来对但有微妙错误,置信度判断放过去了,下游就踩坑。我之前试过类似方案,最后还是切回了先路由再选模型——级联的延迟问题在实时对话场景里太明显了。

路由设计的本质不是选模型,是理解自己业务的任务分布。


来源:卡码大模型 - 面试官惊呆了:"你的Agent都是调用的GPT5.5",我说:"是啊,必须用最强的,效果好",面试官:"先回去等通知吧"