成本比较高 相差近20倍“大模型热”催生词元管理新市场

  发一句“你好 ”消耗数万词元(Token),一个季度花光全年AI预算……大模型虽好 ,但很多用户已招架不住猛增的词元账单。近日,多份大模型评测报告首次新增成本维度,报告显示不同大模型完成同一任务的成本相差比较高 近20倍 。

成本比较高
相差近20倍“大模型热”催生词元管理新市场-第1张图片

  业内人士认为 ,近来 大模型的计费过程仍是“黑箱” ,用户难以预测词元开支 、审计词元费用或者评估投入产出。随着词元消耗仍将保持高速增长,词元成本管理需求旺盛,有望带来新商机。

成本比较高
相差近20倍“大模型热	”催生词元管理新市场-第2张图片

  大模型决胜性价比

  一直以来 ,国内外各类大模型评测主要关注性能表现 。近日,多份中文大模型评测报告中首次新增成本评测,让用户得以通过定价看清开支 。

  6月30日 ,中文大模型评测机构SuperClue首次发布“Token成本象限图 ”,该象限维度由任务平均得分和平均每题费用 来定义。结果显示,不同大模型的平均每题费用 相差近20倍 ,任务平均得分比较高 相差超70%。

  其中,智谱GLM5.2(max)在任务得分和平均每题费用 均为比较高 ,领衔“高端质优”象限 。小米集团的MiMo-V2.5-pro则以最低的平均每题费用 和不俗的任务得分 ,领衔“经济适用者”象限。还有其他大模型分布在“超值领航者 ”和“溢价探索者”象限。

  据介绍,SuperClue本次测评了国内7个代表性大语言模型,测试任务是完成相同的工程问题 ,其间需驱动模型开展数十轮对话交互 ,逐步完成代码分析、修改与验证,最终得出不同模型的性价比、推理耗时 、交互轮数和词元消耗数量 。

  对于首次评测大模型性价比的缘由,SuperClue创始人徐亮告诉《经济借鉴 报》记者 ,近来 大模型变成了生产力工具,在关注模型效果的基础上,大众也关心调用词元的消耗情况以及最终完成任务的成本。

  不止评测机构 ,一些用户也开始关注大模型的实际使用成本。

  AI创业者习翔宇近期做了一场测试,他让多款国内外大模型重构一个静态网站,包含首页 、知识图谱页、文章列表和上百篇文章详情页等内容 。他最后发现 ,Claude跑一轮测试的成本超200元,而DeepSeek仅花费17.1元,其余大模型开支则在数十元到百余元不等 ,相差悬殊。

  多位业内人士告诉记者,很长时间里,用户往往只关注哪个大模型更强 ,但随着AI走进千行百业 ,词元开支不断增加,用户开始日趋关注实际成本。因此,未来针对大模型完成特定任务的成本评测会越来越多 ,以帮助用户更好地挑选合适的大模型 。

  AI好用而账单难算

  各类评测开始关注词元成本的背后,是难以预测的AI开支和难以看懂的大模型账单。记者查阅多家大模型定价资料发现,AI计费过程对于多数用户无异于“黑箱”。

  例如MiMo-V2.5和DeepSeek的定价都是基于百万词元输入和输出 ,其中输入又分为缓存命中和缓存未命中,两者费用 相差数十倍乃至上百倍 。用户在后台仅能查阅词元消耗数或者调用次数 。另一家大模型企业Kimi的后台里,只显示产品、模型 、项目和API key的消费明细。

  不止个人用户看不清楚 ,连企业用户也算不明白。市场调研公司艾瑞询问 调查发现,从中型公司到年支出过亿元的集团企业,几乎没有一家能在初次沟通时说清AI成本的全貌 。词元消耗以秒为单位增长 ,AI治理却近乎缺位,这一矛盾正在加剧。

  对于造成这一问题的缘由,艾瑞询问 相关负责人认为 ,词元消耗因为模型差异、提示词差异 ,相差数十倍乃至上百倍。一个失控的智能体几小时的词元就可能耗尽整月AI预算 。而且词元消耗如何折算成业务产出,近来 尚无标准。由于AI供应商多元化,账单天然存在碎片化问题 ,没有一张表能看清全貌。

  汇正财经执行总经理周荣圣长期关注AI领域,他告诉记者,企业使用AI相关服务的投入需要可溯源、可核算 ,才能向股东明确说明资金用途与价值 。但是,当前大模型计价规则不够透明,一些厂商还将词元计价改为积分(credit)计价模式 ,缺乏可审计性和可解释性。用户不仅难以明确核算词元成本,更难以在财务审计中核算其投入产出价值。

  “近来 确实没有词元成本评估机制或者事后审核机制 。 ”询问 机构IDC中国研究总监卢言霞告诉记者,现在市场还处于混战状态 ,技术提供商希望获得更大市场份额和更高收入,整个行业尚未有序发展,因此还没有到可以评估的阶段。

  受此影响 ,词元消费“黑箱”反过来抑制了AI的发展。在经历了几个月的AI狂飙后 ,随着成本陡增,不少企业已经对词元开支踩下“刹车” 。5月底以来,微软开始限制内部Claude Code许可;网约车平台Uber仅用4个月就耗尽了2026全年AI编程工具预算 。不仅仅是国外 ,国内部分互联网巨头也开始为员工的词元开支设限,将原本不设限的词元“自助餐 ”,改为整体限额 、团队共享额度。

  词元管理正当时

  随着AI走入千行百业 ,词元消耗仍将保持快速增长。IDC数据显示,按词元计算中国MaaS(模型即服务)市场规模,2025年同比2024年增长了16倍 ,预计2026年还将同比增长19.6倍 。

  卢言霞建议,短期来看,近来 模型选型还是效果第〖One〗、 性价比第二 ,同时考虑部署模式、模型参数等因素。但从长远来看,企业应尽早建立词元成本的评估机制,避免业务规模扩张后出现成本失控的局面 ,例如调研清楚不同大模型的计价模式 、供应商如何提供有效词元、输入输出如何控制。企业在建设智能体时 ,也应将词元消耗的可观测性、可统计性考虑在内 。

  作为长期评测大模型的AI专家,徐亮建议,首先是结合场景需求进行针对性选取 ,如对效果要求高可优先选取 GLM.5.2,如注重性价比则可优先选取 Mimo 2.5或DeepSeek V4。其次是形成核算管理制度,例如持续记录AI工具的使用场景 、词元成本、效率提升情况等信息 ,并进行周期性评估,也能有效挖掘高价值场景,并避免低效词元消耗。针对大众重点使用的场景 ,需开展综合评测,定期发布不同AI工具的效果、成本 、推理效率的对比分析评测,以辅助决策 。

  在此背景下 ,词元成本管理正成为新兴需求。近日,艾瑞询问 推出词元成本精益管理服务。艾瑞询问 相关负责人表示,多数企业尚未建立面向词元消耗的归因与效率评估机制 ,难以识别低效或重复调用 。同时 ,词元成本优化也没有统一答案,企业需结合自身场景诊断。

  对于个人用户而言,符合个人需求更为重要。习翔宇经过多番评测后发现 ,近来 行业主流评测榜单均以编程 、长程任务、工具调用能力为核心评价维度,仅对程序员群体有借鉴 价值 。非编程类场景的大模型能力难以量化,市场也缺乏针对性的评测维度 ,因此普通用户选取 时应以自身实际使用体验为核心标准,可以结合自身需求做好横向对比 。

(文章来源:经济借鉴 报)

标签:

相关推荐

  • A股低位板块崛起 资金流出部分高位股

    A股低位板块崛起 资金流出部分高位股

      ●本报记者吴玉华  7月3日,低位板块强势崛起,高位科技板块冲高回落,三大指数均上涨。整个A股市场超3800只股票上涨,在人形机器人板块爆发的带动下,汽车板块这一调整已久的低位板块领涨市场。整个A股市场成交额为3.21万亿元,较前一交易日缩量。资金面上,当日沪深两市主力资金净流出超87亿元,沪深300主力资金净流入超50亿元,部分高位股遭遇主力资金...

    2026/07/04
  • 2024敦煌限号/敦煌市限号

    2024敦煌限号/敦煌市限号

    敦煌限号规定〖壹〗、汽车限号是限单双号,最后一位数字为准。号牌最后一位阿拉伯数字为1和6的机动车周一限行、2和7的周二限行、3和8的周三限行、4和9的周四限行、5和0的周五限行。其中,因法定节假日放假调休而调整为上班的周周日,按对应调休的工作日限行。〖贰〗、法律分析:正常双休日、节假日不受尾号限行限制。法律依据:《中华人民共和国道路交通安全法》第二十二条...

    2026/07/04
  • 桑塔纳什么车型/桑塔纳什么牌子的

    桑塔纳什么车型/桑塔纳什么牌子的

    大众Santana是什么车型?santana是大众旗下的经典轿车品牌,中文名为桑塔纳。其原型是德国大众1981年推出的第二代帕萨特(PASSATB2),1985年成为大众在华首款国产车型。Santana是大众旗下的一款名为桑塔纳的轿车,以下是对其详细介绍:生产背景:桑塔纳是德国大众汽车公司在美国加利福尼亚州生产的品牌车,这一背景体现了大众汽车的全球化生产...

  • 31省区市新增境外输入确诊13例/31省区市新增10例确诊均为境外输入

    31省区市新增境外输入确诊13例/31省区市新增10例确诊均为境外输入

    黑龙江4月4日新增13例境外输入病例:均经绥芬河口岸入境〖壹〗、020年4月4日黑龙江省新增13例境外输入新冠肺炎确诊病例,均经绥芬河口岸入境,其中2例由境外输入无症状感染者转为确诊病例。以下是具体情况:整体疫情数据2020年4月4日0-24时,黑龙江省无新增本地确诊病例及疑似病例,新增境外输入确诊病例13例,新增境外输入无症状感染者12例。〖贰〗、近...

  • 海淀区疫情最新消息/海淀区疫情最新情况

    海淀区疫情最新消息/海淀区疫情最新情况

    北京7日新增1例本土病例:现住海淀区双榆树西里月7日0时至24时,北京新增1例本土确诊病例,现住海淀区双榆树西里,临床分型为轻型。以下是具体情况:病例发现与诊断过程:该病例3月6日出现发热等症状,3月7日自行前往医院发热门诊就诊,当日核酸检测结果为阳性,已转至定点医院。综合流行病史、临床表现、实验室检测和影像学检查等结果,当日诊断为确诊病例,临床分型为轻...

  • 科鲁兹属于什么车型(科鲁兹是什么品牌的车型)

    科鲁兹属于什么车型(科鲁兹是什么品牌的车型)

    科鲁兹320是什么意思?〖壹〗、科鲁兹320是指雪佛兰汽车公司推出的一款轿车,具体解释如下:车型定义:科鲁兹320是ChevroletCruze车型的一个版本,这里的“320”并非指具体的排量或功率,而是雪佛兰为了区分不同配置或版本而采用的命名方式。它并不代表该车型是Cruze系列的三分之二,而是一种市场定位或配置级别的标识。〖贰〗、科鲁兹320是指雪佛...

  • 全国今天疫情最新情况(全国今天疫情消息)

    全国今天疫情最新情况(全国今天疫情消息)

    国家卫健委:昨日新增确诊61例,其中本土57例月26日0—24时,全国新增确诊病例61例,其中本土病例57例,境外输入病例4例,具体情况如下:新增确诊病例总体情况全国31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例61例,包含境外输入病例4例和本土病例57例,无新增死亡病例及疑似病例。以下是今日要闻概览:国内疫情:31省区市新增确诊病例61例,...

  • 成本比较高
相差近20倍“大模型热”催生词元管理新市场

    成本比较高 相差近20倍“大模型热”催生词元管理新市场

      发一句“你好”消耗数万词元(Token),一个季度花光全年AI预算……大模型虽好,但很多用户已招架不住猛增的词元账单。近日,多份大模型评测报告首次新增成本维度,报告显示不同大模型完成同一任务的成本相差比较高近20倍。  业内人士认为,近来大模型的计费过程仍是“黑箱...

    2026/07/04
  • 绿源电瓶车型号/绿源电动车各种型号

    绿源电瓶车型号/绿源电动车各种型号

    绿源电动车怎么看型号?在哪里看,找不到首先绿源电动车要查知电动机型号,首先要找到它的电动机编码,然后到绿源官方网站查询。也可以到当地绿源专卖店(或维修定点单位)查询。电动机编码一般打在轮毂圈上。3,此处说的J是代表年A是91年以此类推,第二位代表月,也是以此类推,第3位字母代表生产厂家,C代表程序电机,64代表64V,420代表每分钟420转,后面几位是生...

  • 【每周限号车辆,每周限号时间表】

    【每周限号车辆,每周限号时间表】

    郑州车辆限号吗双休日和节假日不限行。请注意,限行对象包括本地号牌和外地号牌,但部分特定车辆如军车、警车、消防车、救护车等不受限行措施限制。对于违反机动车尾号限行规定的,公安交管部门将依法予以处罚。因此,在郑州驾驶的司机朋友们需要密切关注限行规定,合理安排出行计划。是的,郑州自2025年11月10日起已恢复机动车限号措施。以下是具体规定:限行时间每周工作日的...

    2026/07/04
返回顶部