成本比较高 相差近20倍“大模型热”催生词元管理新市场

  发一句“你好 ”消耗数万词元(Token),一个季度花光全年AI预算……大模型虽好 ,但很多用户已招架不住猛增的词元账单。近日 ,多份大模型评测报告首次新增成本维度,报告显示不同大模型完成同一任务的成本相差比较高 近20倍 。

成本比较高
相差近20倍“大模型热”催生词元管理新市场-第1张图片

  业内人士认为,近来 大模型的计费过程仍是“黑箱” ,用户难以预测词元开支、审计词元费用或者评估投入产出 。随着词元消耗仍将保持高速增长,词元成本管理需求旺盛,有望带来新商机。

成本比较高
相差近20倍“大模型热”催生词元管理新市场-第2张图片

  大模型决胜性价比

成本比较高
相差近20倍“大模型热	”催生词元管理新市场-第3张图片

  一直以来 ,国内外各类大模型评测主要关注性能表现。近日,多份中文大模型评测报告中首次新增成本评测,让用户得以通过定价看清开支 。

  6月30日 ,中文大模型评测机构SuperClue首次发布“Token成本象限图”,该象限维度由任务平均得分和平均每题费用 来定义。结果显示,不同大模型的平均每题费用 相差近20倍 ,任务平均得分比较高 相差超70%。

  其中,智谱GLM5.2(max)在任务得分和平均每题费用 均为比较高 ,领衔“高端质优”象限 。小米集团的MiMo-V2.5-pro则以最低的平均每题费用 和不俗的任务得分 ,领衔“经济适用者 ”象限。还有其他大模型分布在“超值领航者”和“溢价探索者”象限。

  据介绍 ,SuperClue本次测评了国内7个代表性大语言模型,测试任务是完成相同的工程问题,其间需驱动模型开展数十轮对话交互 ,逐步完成代码分析 、修改与验证,最终得出不同模型的性价比 、推理耗时、交互轮数和词元消耗数量 。

  对于首次评测大模型性价比的缘由,SuperClue创始人徐亮告诉《经济借鉴 报》记者 ,近来 大模型变成了生产力工具,在关注模型效果的基础上,大众也关心调用词元的消耗情况以及最终完成任务的成本。

  不止评测机构 ,一些用户也开始关注大模型的实际使用成本。

  AI创业者习翔宇近期做了一场测试,他让多款国内外大模型重构一个静态网站,包含首页、知识图谱页 、文章列表和上百篇文章详情页等内容 。他最后发现 ,Claude跑一轮测试的成本超200元,而DeepSeek仅花费17.1元,其余大模型开支则在数十元到百余元不等 ,相差悬殊。

  多位业内人士告诉记者 ,很长时间里,用户往往只关注哪个大模型更强,但随着AI走进千行百业 ,词元开支不断增加,用户开始日趋关注实际成本。因此,未来针对大模型完成特定任务的成本评测会越来越多 ,以帮助用户更好地挑选合适的大模型 。

  AI好用而账单难算

  各类评测开始关注词元成本的背后,是难以预测的AI开支和难以看懂的大模型账单 。记者查阅多家大模型定价资料发现,AI计费过程对于多数用户无异于“黑箱 ”。

  例如MiMo-V2.5和DeepSeek的定价都是基于百万词元输入和输出 ,其中输入又分为缓存命中和缓存未命中,两者费用 相差数十倍乃至上百倍。用户在后台仅能查阅词元消耗数或者调用次数 。另一家大模型企业Kimi的后台里,只显示产品、模型、项目和API key的消费明细。

  不止个人用户看不清楚 ,连企业用户也算不明白。市场调研公司艾瑞询问 调查发现,从中型公司到年支出过亿元的集团企业,几乎没有一家能在初次沟通时说清AI成本的全貌 。词元消耗以秒为单位增长 ,AI治理却近乎缺位 ,这一矛盾正在加剧。

  对于造成这一问题的缘由,艾瑞询问 相关负责人认为,词元消耗因为模型差异 、提示词差异 ,相差数十倍乃至上百倍。一个失控的智能体几小时的词元就可能耗尽整月AI预算 。而且词元消耗如何折算成业务产出,近来 尚无标准。由于AI供应商多元化,账单天然存在碎片化问题 ,没有一张表能看清全貌。

  汇正财经执行总经理周荣圣长期关注AI领域,他告诉记者,企业使用AI相关服务的投入需要可溯源、可核算 ,才能向股东明确说明资金用途与价值 。但是,当前大模型计价规则不够透明,一些厂商还将词元计价改为积分(credit)计价模式 ,缺乏可审计性和可解释性。用户不仅难以明确核算词元成本,更难以在财务审计中核算其投入产出价值。

  “近来 确实没有词元成本评估机制或者事后审核机制 。”询问 机构IDC中国研究总监卢言霞告诉记者,现在市场还处于混战状态 ,技术提供商希望获得更大市场份额和更高收入 ,整个行业尚未有序发展,因此还没有到可以评估的阶段 。

  受此影响,词元消费“黑箱”反过来抑制了AI的发展。在经历了几个月的AI狂飙后 ,随着成本陡增,不少企业已经对词元开支踩下“刹车 ”。5月底以来,微软开始限制内部Claude Code许可;网约车平台Uber仅用4个月就耗尽了2026全年AI编程工具预算 。不仅仅是国外 ,国内部分互联网巨头也开始为员工的词元开支设限,将原本不设限的词元“自助餐”,改为整体限额、团队共享额度。

  词元管理正当时

  随着AI走入千行百业 ,词元消耗仍将保持快速增长。IDC数据显示,按词元计算中国MaaS(模型即服务)市场规模,2025年同比2024年增长了16倍 ,预计2026年还将同比增长19.6倍 。

  卢言霞建议,短期来看,近来 模型选型还是效果第〖One〗 、 性价比第二 ,同时考虑部署模式、模型参数等因素。但从长远来看 ,企业应尽早建立词元成本的评估机制,避免业务规模扩张后出现成本失控的局面,例如调研清楚不同大模型的计价模式、供应商如何提供有效词元 、输入输出如何控制。企业在建设智能体时 ,也应将词元消耗的可观测性、可统计性考虑在内 。

  作为长期评测大模型的AI专家,徐亮建议,首先是结合场景需求进行针对性选取  ,如对效果要求高可优先选取 GLM.5.2,如注重性价比则可优先选取 Mimo 2.5或DeepSeek V4。其次是形成核算管理制度,例如持续记录AI工具的使用场景、词元成本 、效率提升情况等信息 ,并进行周期性评估,也能有效挖掘高价值场景,并避免低效词元消耗。针对大众重点使用的场景 ,需开展综合评测,定期发布不同AI工具的效果 、成本、推理效率的对比分析评测,以辅助决策 。

  在此背景下 ,词元成本管理正成为新兴需求。近日 ,艾瑞询问 推出词元成本精益管理服务。艾瑞询问 相关负责人表示,多数企业尚未建立面向词元消耗的归因与效率评估机制,难以识别低效或重复调用 。同时 ,词元成本优化也没有统一答案,企业需结合自身场景诊断 。

  对于个人用户而言,符合个人需求更为重要。习翔宇经过多番评测后发现 ,近来 行业主流评测榜单均以编程、长程任务 、工具调用能力为核心评价维度,仅对程序员群体有借鉴 价值。非编程类场景的大模型能力难以量化,市场也缺乏针对性的评测维度 ,因此普通用户选取 时应以自身实际使用体验为核心标准,可以结合自身需求做好横向对比 。

(文章来源:经济借鉴 报)

标签:

相关推荐

  • 成本比较高
相差近20倍“大模型热”催生词元管理新市场

    成本比较高 相差近20倍“大模型热”催生词元管理新市场

      发一句“你好”消耗数万词元(Token),一个季度花光全年AI预算……大模型虽好,但很多用户已招架不住猛增的词元账单。近日,多份大模型评测报告首次新增成本维度,报告显示不同大模型完成同一任务的成本相差比较高近20倍。  业内人士认为,近来大模型的计费过程仍是“黑箱...

    2026/07/03
  • 无锡增3例本土无症状(无锡1例无症状感染者)

    无锡增3例本土无症状(无锡1例无症状感染者)

    12月2日无锡疫情阳性感染者病例情况(12月2日无锡疫情阳性感染者病例情况...境外无症状感染者情况无症状感染者1:从法国出发,入境后开始闭环管理,12月2日核酸检测阳性,当日诊断为无症状感染者。月5日无锡阳性感染者病例情况2022年12月5日0时至24时,我市城区新增本土确诊病例1例,新增本土无症状感染者11例;江阴新增本土无症状感染者6例;宜兴新增本土...

  • 汽车型号大全图片(汽车型号大全图片及费用)

    汽车型号大全图片(汽车型号大全图片及费用)

    所有汽车标志图片及名称奔驰奔驰,德国汽车品牌,汽车的发明者,被认为是世界上最成功的高档汽车品牌之一,其完美的技术水平、过硬的质量标准、推陈出新的创新能力、以及一系列经典轿跑车款式令人称道。奔驰三叉星已成为世界上最著名的汽车及品牌标志之一。德国汽车品牌宝马(BMW):标志为蓝白相间,源于巴伐利亚州旗颜色,代表公司起源地。BMW是“巴伐利亚发动机厂”(Ba...

  • 【奔驰进口车型suv,奔驰进口车型有哪几款】

    【奔驰进口车型suv,奔驰进口车型有哪几款】

    奔驰SUV有哪些车型奔驰GLS:作为奔驰旗下大型豪华SUV,GLS以宽敞的内部空间、豪华的内饰配置和强大的动力性能著称,通常提供多排座椅布局,适合家庭出行或商务用途。奔驰GLE:定位中大型豪华SUV,兼具公路行驶舒适性与越野能力,部分车型配备空气悬架和四驱系统,内饰采用高端材质打造,科技配置丰富。奔驰GLB定位:紧凑型豪华SUV(7座可选)特点:提供5座...

  • 夏津限号查询/夏津哪些路口拍违章

    夏津限号查询/夏津哪些路口拍违章

    夏津双德制衣有限公司怎么样?夏津双德制衣有限公司是2018-07-23注册成立的有限责任公司(自然人独资),注册地址位于山东省德州市夏津县经济开发区青银高速以南华芳工业园以北500米。夏津双德制衣有限公司的统一社会信用代码/注册号是91371427MA3M6MYG2W,企业法人郑锋堂,近来企业处于开业状态。夏津双德制衣有限公司的经营范围是:服装、服装刺绣、...

    2026/07/03
  • 深城交:向特定对象发行股票获证监会同意注册批复

    深城交:向特定对象发行股票获证监会同意注册批复

      南财智讯7月3日电,深城交公告,公司于近日收到中国证券监督管理委员会出具的《关于同意深城交科技集团股份有限公司向特定对象发行股票注册的批复》(证监许可〔2026〕1605号),主要内容包括:〖One〗、同意公司向特定对象发行股票的注册申请;〖Two〗、公司本次发行应严格按照报送深圳证券交易所的申报文件和发行方案实施;〖Three〗、本批复自同意注册...

    2026/07/03
  • 【今天泰安限号,今天泰安限号吗】

    【今天泰安限号,今天泰安限号吗】

    泰山自驾限号吗,春节自驾泰山旅游停车泰山近来没有自驾限号政策。自驾车前往泰山是一个相对常见的选取,游客可以自由驾驶车辆或租车前往泰山旅游。然而,为了确保安全并缓解道路交通压力,建议在自驾前提前了解相关的交通规则和道路条件,并做好行程规划。此外,遵守交通法规、注意交通安全、遵守当地道路交通规则对于自驾游都是非常重要的。私家车限制:为了保护泰山自然环境和景区秩...

    2026/07/03
  • 【栾城限号路线,栾城限号路段】

    【栾城限号路线,栾城限号路段】

    栾城外环路限行吗?〖壹〗、限行区域位于石家庄栾城区,具体范围为:西外环以东(不含308国道西外环北口至衡井公路),东外环以西(不含东外环),衡井公路以南(不含衡井公路),南外环以北(不含南外环)。限行时间为每天7:00至20:00,法定节假日和公休日不受此限行规定限制。〖贰〗、限行。限行区域:三环路(含)、古城路(含)以内市区道路。限行措施:对进入限行区域...

    2026/07/03
  • 小米高管回应友商暗讽小米空调:产品会自己说话,用户会用脚投票

    小米高管回应友商暗讽小米空调:产品会自己说话,用户会用脚投票

      7月3日,小米集团大家电部总经理单联瑜发文回应友商“暗讽”小米空调。  单联瑜表示,此前之所以未对暗讽进行公开回应,主要基于两层考量。首先,行业的持续创新发展需要清朗的环境,而非乌烟瘴气的口水纷争,小米选取埋头提升产品和服务,以让消费者得到更多实惠。其次,在如今市场,话语权已掌握在消费者手中,头部企业随意给后来者贴标签的时代早已过去,产品会自己说话...

    2026/07/03
  • 关于佛山限号(佛山限号2021)

    关于佛山限号(佛山限号2021)

    佛山限号吗外地车可以进入吗〖壹〗、法律分析:不限号,佛山市内也是不限制外地外地车牌的小车。法律依据:《佛山市外地机动车辆管理办法(试行)》第六条外地机动车辆在佛山市辖区内道路行驶,须符合国家规定的机动车运行安全技术条件标准,悬挂机动车检验合格标志、保险标志,车况良好,车容整洁。〖贰〗、工作日限行:每个工作日上午7:30至晚上7:30,除佛山本地车辆外,其...

    2026/07/03
返回顶部