两年前，我们生活在另一个世界。打开API——大型模型不断生成代码、文本、各种回答。没有人在意我们在Prompt中输入成千上万的文档，强制GPT-4做一些小事，比如文本大写化。为什么？因为很便宜。投资者付钱。公司补贴。这是一个免费使用资源的时期。

但梦已经结束。算力无处不在变得更昂贵——这不是预测，而是正在发生的现实。对NVIDIA H100的争夺已成为地缘政治冲突。数据中心的能耗接近电网的极限。大玩家不再行善。

当你的业务规模扩大，每日请求超过百万，微不足道的每千个Token的付费就变成了洪水般的支出。这是一个抽钱的机器。这是一个在深夜惊醒创业公司CFO的噩梦。Token已成为真正的货币单位。

你的Token在哪里流失？人们常常不理解。看着每月账单不断增长，就像看一本难懂的书。损失发生在最不显眼的地方。

第一：你礼貌地与AI对话。“你好，你能帮忙吗？非常感谢，请你……”人类这样做很正常，但在Token经济中这是抢劫。大型模型不需要你的“请”和“谢谢”。每个词——一个Token，每个空格——一笔钱。更糟的是极长的系统提示，在每次会话中反复出现：“遵循十项原则……” “如果不知道，就说不知道……”有用吗？是的。但如果重复数百万次，那就是天文数字的浪费。

第二：无控制的RAG。理想：提取三个相关句子。实际上：用户问了什么，系统就提取十万个字的PDF文档，然后扔给模型。开发者想：让模型自己找。这不是懒惰，这是对计算能力的犯罪。无关信息不仅干扰注意力机制，还会导致天文数字的Token消耗。你以为问了个简单问题，实际上让模型阅读了半个图书馆。

第三：无限制的代理。ReAct模式让AI像人一样思考和行动。但如果API断开或逻辑陷入循环，代理就会无限运行。每个思考循环都消耗昂贵的输出Token——它们的成本是输入的几倍。没有正确的应急停止机制的代理，就像一个黑洞，吞噬你的预算。

如何节省？第一：语义缓存。用户请求常常重复。“怎么重置密码？”每天会收到数百次。不要每次都用GPT-4——而是将请求转化为向量，与缓存比对。如果相似度高，就从缓存中返回答案。没有Token。延迟从秒到毫秒。这不仅是节省，更是体验的飞跃。

第二：提示压缩。长上下文是罪过。基于信息熵的算法分析哪些词关键，哪些多余。可以将1000Token的文本压缩到300，保持核心内容。让机器用机器语言交流——人类觉得笨拙，但AI理解。你节省了70%的成本。

第三：模型路由。不要把所有请求都扔到最贵的模型。对于简单的实体提取或翻译，路由到廉价的开源模型，比如Llama 3 8B。对于复杂的逻辑推理，使用GPT-4o或Claude 3.5 Sonnet。就像一个调校得很好的公司：前台能解决的问题不交给CEO。调校得最精准的人，能将总Token成本降低到竞争对手的十分之一。

先进的前沿已经意识到这一点。当观察最先进的代理生态系统——尤其是那些面向移动设备的——可以看到一场争夺最大Token优化的战斗。在移动设备上，没有大规模上下文的奢华。带宽有限，内存有限，能量有限。

OpenClaw几乎控制了Token的使用。它不采用粗暴的完整上下文堆叠，而依赖结构化输出。它让模型输出严格的JSON Schema。不给AI“对话”，而是“填写表格”。这样可以减少多余字符，节省流量。

Nous Research的Hermes Agent展示了微创的上下文管理。不是存储全部历史，而引入动态记忆。工作记忆：最近的3-5次对话。长时记忆：当上下文溢出时，轻量模型总结对话成几句话，存入向量数据库。旧对话被删除，但知识得以保存。这不是废料，而是微创删除。这样的上下文管理不仅突破了物理限制，还在宏观层面大幅降低了成本。

主要趋势很清楚：未来的代理不会比谁用的工具多，而是比谁能在极端有限的Token预算下完成最复杂的任务。跳舞在链条上。跳得最好的人赢。

但这一切都是技术细节。本质上——这是整个AI行业思维的转变。过去我们把Token当作消费品。看到折扣就扔进购物车。无论模型是否真正需要，重要的是“看起来很酷”。公司盲目将LLM接入一切，为每个员工开通账户，甚至为食堂菜单。账单来临时——震惊。

现在需要转向投资思维。每次Token的消耗都是投资。用投资回报率（ROI）来衡量。这个Token花了——它带来了什么？关闭工单的比例提高了吗？修复Bug的时间缩短了吗？还是只是“哈哈，这AI真搞笑”？

如果用传统机器学习的功能成本是10美分，而大模型每个Token要1美元，但只提升了2%的转化率——毫不犹豫地剔除。我们不再追求“庞大而全能”的AI，而是追求“微小而精准”的高效打击。

还要学会对业务部门说“不”。当问：“AI能否阅读所有1000份报告并总结？”——反问：“你的收入能覆盖几百万Token的花费吗？”计算一下。节省。像传统店主一样计算Token。

听起来不像科幻。听起来像乡村。但这是迈向成熟AI的必要阶段。

哈希率的普遍上升——不是危机，而是迟来的清洗。它戳破了无限补贴的泡沫，把大家拉回冷静的现实。但这很好。它迫使人们放弃盲目信仰“巨大力量——奇迹”，重新尊重工程效率。

存活和发展的公司——不是那些拥有最贵模型的，而是那些在Token数字快速变化中保持冷静、自信、相信自己赚得比花得多的公司。当潮水退去，就能看出谁是光着身子的。此次潮水退去的是哈希率带来的利益。只有像炼金术士一样榨取每一滴Token的人，才能真正拥有坚不可摧的护甲。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
WCTC交易王PK
30.97万热度
#
加密市场小幅下跌
21.07万热度
#
Polymarket每日热点
64.56万热度
#
Solana发布量子路线图
1274.25万热度
#
伊朗提出霍尔木兹海峡重开协议条件
29.67万热度

时代已经结束，曾经可以自由使用计算资源而不考虑成本的时代已经过去。哈希率变得更昂贵，这一切都在改变。

热门话题

WCTC交易王PK

加密市场小幅下跌

Polymarket每日热点

Solana发布量子路线图

伊朗提出霍尔木兹海峡重开协议条件

置顶