Agent 路由优化：别再一刀切用大模型了

Agent 每次都调最贵的模型，但大部分请求根本用不着。这个问题我自己搭 agent 的时候也踩过——不同业务场景的简单任务比例差异很大，客服类可能 90% 是简单任务，代码生成可能反过来，不能照搬别人的比例。

「卡码大模型」最近发了篇文章拆这个，给了组挺直观的数据：用户说「你好」，GPT-5.5 回一句「有什么可以帮你的」就花了 0.03 美元。说「帮我总结这段话」，0.05 美元。换 GPT-4.1-mini 质量一模一样，价格差 10 倍。

文章的核心主张是混合路由：高频简单场景用规则拦截，模糊地带用轻量模型判断，不确定的一律大模型兜底。规则路由零成本但业务跑半年规则就互相冲突了，模型路由灵活但需要训练数据而且自己也会判错。混合路由的思路是每一层只处理自己有把握的，没把握的往下传。

路由模型推荐用评分器而不是分类器——输出一个 0-1 的难度分，比直接预测「该用哪个模型」更稳定，模型列表变了只调阈值不用重训。冷启动阶段全走大模型，用置信度当标签代理，跑一周后训初版模型，渐进放大小模型的比例。

级联降级听起来很聪明：小模型先试，不行再升级。文章算了笔账：假设 70% 简单、30% 复杂，一刀切大模型成本 100，级联降级 50，理想路由 40。级联比理想路由多花 25%，因为那 30% 复杂请求被小模型「白试」了一次。还有个坑是错误传播：小模型给的答案有时看起来对但有微妙错误，置信度判断放过去了，下游就踩坑。我之前试过类似方案，最后还是切回了先路由再选模型——级联的延迟问题在实时对话场景里太明显了。

路由设计的本质不是选模型，是理解自己业务的任务分布。

来源：卡码大模型 - 面试官惊呆了："你的Agent都是调用的GPT5.5"，我说："是啊，必须用最强的，效果好"，面试官："先回去等通知吧"

Agent 路由优化：别再一刀切用大模型了

评论 (0)

发表评论