一个AI 产品经理的私人收藏,
让我们共同面对未来,拥抱AIGC时代。

从 Token 角度,测算 AI 算力需求

#行业报告

本报告旨在提供一个推理算力需求从用户渗透到 Token 调用、再到硬件支出的分析框架,我们通过对 Google 与微软(OpenAI)未来 Token 调用量、算力总需求和未来硬件支出节奏的测算,得出结论:推理算力需求增长速度快于单位算力成本的降低。我们持续看好推理端算力需求的加速增长。

核心观点

推理算力需求增长或快于算力单位成本下降

总算力支出受到算力需求与成本的共同影响。随 AI 应用用户数量的不断增长及 Agent 的渗透不断提升,推理端算力需求不断上升;同时,由于硬件的迭代与 infra 算法的不断改进,模型推理的单位成本不断下降,模型推理价格目前已下降到 2023 年初的 1/100 以下,目前市场对未来推理端算力支出节奏存在分歧。本报告旨在提供一个推理算力需求从用户渗透到 Token 调用、再到硬件支出的分析框架,我们通过对 Google 与微软(OpenAI)未来 Token 调用量、算力总需求和未来硬件支出节奏的测算,得出结论:推理算力需求增长速度快于单位算力成本的降低。我们持续看好推理端算力需求的加速增长。

海内外大厂 Token 调用量增长迅速,推理算力需求快速增长

海外 CSP 厂商来看,根据 25 年 5 月 Google I/O 大会数据,Google 的 Token 月均调用量从 24 年 4 月的 9.7 万亿增长至 25 年 4 月的 480 万亿,增长 50 倍。根据微软 FY25Q3 电话会数据,Azure AI 基础设施在 25 年一季度处理了超 100 万亿 Token,较去年同期增长 5 倍,其中 3 月份单月 Token 调用量达 50 万亿。

国内互联网大厂来看,25 年 5 月字节火山引擎 Token 日均调用量为 16.4 万亿(月均 508T),是 24 年 5 月的 137 倍。我们认为,海内外大厂 Token 调用量已出现明显加速拐点,推理端算力需求快速增长。

考虑到单位算力成本下降后,Google 算力支出仍有望高增

AI 搜索的渗透是 Google Token 调用量增长的主要驱动,通过对 AI Overview、AI Mode、Gemini 2C 应用和其他推理需求的测算,我们预测 Google 25 年第二季度 Token 总量有望达到 2009 万亿,环比增长 223%,相较于 24Q2 的 71 万亿 Token 增长接近 30 倍。单位算力成本 = 单位价格 / 算力,受软件算法优化与新版本芯片的部署影响,单位算力成本呈现下降趋势,根据我们测算,4/5/6 月单位算力成本分别环比下降 14%/13%/13%,下降幅度小于 4/5/6 月算力需求提升的环比增速 56%/38%/32%。根据我们测算结果,Google 25 年二季度推理算力开支仍有望环比增长 100% 以上。

用户使用量与 Deep Research 的渗透有望驱动微软算力需求高增

微软 Token 调用量的提升主要源于 OpenAIChatGPT 网页的访问量上升及 Deep Research 功能的渗透。考虑到以上两因素的影响,在我们的预测框架下,微软 25 年第二季度的总 Token 调用量有望达到 205 万亿,环比增长约 100%。算力成本角度,算法优化带来模型浮点运算利用率的提升,即同样数量的芯片能带来更多的有效算力。根据我们测算,考虑到算法优化带来的算力成本下降后,微软年底的推理算力卡需求量仍约为 3 月的两倍有余,我们预测微软的算力硬件需求仍将维持高速增长。

正文

海内外大厂 Token 调用量增长迅速,推理算力需求加速放量

大厂 Token 调用量增长迅速,推理算力需求加速放量。根据 25 年 5 月 Google I/O 大会,24 年 4 月,Google 的产品和 API 每月处理的 Token 总量为 9.7 万亿;25 年 5 月这个数字已超过 480 万亿,足足成长了 50 倍。根据微软 FY25Q3 电话会表述,Azure AI 基础设施在本季度处理了超 100 万亿 Token,较去年同期增长 5 倍,其中 3 月份单月 Token 调用量达 50 万亿。

国内来看,以字节为代表的互联网大厂 Token 调用量同样增长迅速。根据字节火山引擎春季大会披露,字节火山引擎上 5 月底日均 Token 调用量为 16.4 万亿(月均 508T),是 24 年 5 月的 137 倍,12 月的 4 倍,与 Google 4 月份披露的月均 480T Token 调用基本持平。今年 5 月与去年 12 月 Token 调用分布对比来看,AI 工具类 Token 消耗快速增长,其中 AI 搜索增长 10 倍,AI 编程增长 8.4 倍。其他场景方面,K12 在线教育场景五个月内 Token 消耗数增长 12 倍;视觉理解模型也推动了 Token 增长,新场景如智能巡检、视频检索等也实现日均百亿 Token 突破。我们认为,随应用场景的不断丰富,国内推理需求有望加速增长。

北美大厂 Token 调用量与算力需求测算

Google Token 调用量与算力需求测算

Google Token 调用量增长,主要源于 AI 搜索的拓展

Google Token 量快速上涨的原因:AI 搜索(AI Overview)

1) Google 与微软 Token 调用量差异并不源自于 Chatbot 类产品:Gemini 和 ChatGPT 在调用层面存在一定的相似性,Gemini 在用户数量方面只有 ChatGPT 的 1/3 左右,但 Token 量却是微软的 6 倍,因此两者的 Token 差距并不来自 Chatbot 类应用。

2) Google Token 调用量高增的驱动主要来自于 AI 搜索(AI Overview):搜索是 Google 相比微软最有优势的部分,Google 搜索占市场份额约 90%,年搜索量达到 5 万亿,24 年 5 月推出的 AI Overview 最有可能是导致 Google 和微软之间 Token 巨大差异的原因。今年第一季度,Google 的 Token 调用量曲线上扬,25Q1/Q2 分别环比增长 81%/56%,根据 Google 电话会,25 年一季度 AI Overview 迎来史上最大规模扩张,包括用户数量的增长和对问题回答的丰富,AI Overview 的扩张是驱动 Token 快速增长的核心。

Google Token 调用量测算

根据我们测算,25 年 5 月和 6 月推理 Token 量将分别达到 659/870 万亿,环比增长 37%/32%。25 年第二季度 Token 总量将达到 2009 万亿,环比增长 223%,相较于 24Q2 的 71 万亿 Token 增长接近 30 倍。

谷歌的推理 Token 主要包含三部分:AI 搜索、Gemini 2C 应用和其他推理需求。对于 Token 量变化,关键指标测算如下:

1) AI 搜索: AI 搜索 Token 量 = 月度 AI 搜索次数 单次搜索 Token 消耗

月度 AI 搜索次数 = 月度 Google 搜索次数 AI 搜索渗透率。根据 Google 在 25 年 3 月的披露,Google 每年搜索量达到 5 万亿次,以此预估 3 月份 Google 搜索量。从用户角度,3 月份 AI Overview 的月活跃用户已达 15 亿,谷歌搜索月活约 20 亿。从关键词触发角度,根据 Semrush,所有搜索关键词中触发 AI Overview 的比例约为 13.14%。因此按实际所有搜索中的 AI Overview 所占的比例来看,渗透率应低于 75%,假设 3 月渗透率为 55%。

单次搜索 Token 消耗:搜索的 Token 消耗在 Chat 和 Agent 之间,假设每次 AI Overview 消耗为 1200 个 Token。AI mode 在 25 年 3 月推出,能够将原问题拆成多个子问题进行搜索,其 Token 消耗量应为普通 AI Overview 的数倍,假设消耗为 5000Token。

2) Gemini:Gemini Token 量 = 30DAU 人均每日使用次数单次使用 Token 数

DAU = MAU (DAU/MAU)。25 年 3 月 Gemini 的月活和日活分别为 3.5 亿和 3500 万,根据 Google I/O 大会披露,4 月的月活为 4 亿。

人均每日使用次数:假设 3 月为 10 次,按中性增长的趋势推算其他月份情况。

单次使用 Token 数:由于 Agent 和 Chat 单次使用的 Token 数有显著差异,因此通过假设占比得到 Gemini 单次使用 Token 的均值。假设 25 年 3 月 Agent 的占比为 1%。

3) 其他推理需求:假设占整体 Token 的比例基本不变。

影响 Token 量变化的核心指标:

1) AI 搜索渗透率:月度 Google 搜索量超过 4000 亿,因此 AI 搜索渗透率的增长将带动 Token 调用量快速增加。

2) AI Mode 的占比:AI Mode 在 25 年 3 月测试,25 年 5 月正式向美国用户推出。相比于传统搜索,AI Mode 运行多个相关搜索,预测用户感兴趣的子问题并生成全面的整合性答案,因此 AI Mode 的 Token 调用量为 AI Overview 的数倍,AI Mode 占比的增加可以成倍增长 AI 搜索 Token 总量。

3) Gemini Agent 占比:Agent 的 Token 调用量可能达到 Chat 的数百倍,Agent 功能应用占比的增加将大幅带动 Gemini Token 的增长。

Google Token 量快速增长有望带来资本开支持续高增

我们预计,Google 二季度推理算力需求环比 +223%。假设 Gemini Pro 和 Gemini Flash 在 Token 中占比保持 50%/50%,推理过程所需要的算力可以由公式 C≈2NBS 来估算,算得 25 年第二季度总算力需求较一季度环比增长 223%。

影响推理算力变化的核心指标:模型参数量和大参数模型调用占比:在 Token 数占比相近的情况下,模型参数量直接影响最终的算力需求,单位 Token 下 Gemini Pro 的算力需求是 Gemini Flash 的 17 倍。如果未来大参数模型的应用占比增长或模型参数增长,都会直接带动推理算力需求的增长。

我们预计,二季度推理算力资本开支环比 +159%:根据我们测算,25 年第二季度,Token 量的增长将带给 Google 额外 14.5 亿美元的芯片资本开支,环比增长 159%,主要原因是 Token 量的大幅增长。整体推理算力资本开支的增长意味着推理需求的增长(Token 量增长)抵消了芯片迭代和算法优化导致的推理成本下降,我们看好算力资本开支的持续增长。

单位算力成本是影响推理资本开支变化的核心指标。单位算力成本 = 单位价格 / 算力,计算得算力成本呈现下跌趋势,4/5/6 月单位算力成本分别环比下降 14%/13%/13%。影响单位算力成本的因素主要有:

1) 新款芯片的迭代:可以量化为 新款芯片算力 占比 / 价格。以 TPU 迭代为例,TPU v7 的 FP16 算力相比 TPU v6 的增长 151%,价格增幅低于算力增幅的情况下,单位算力成本下降。

2) 算法迭代:目前假设每年算法导致推理成本下降为 1/4,如果算法迭代的速度放缓,将导致需要的芯片数增长。

微软 Token 调用量与算力需求测算

OpenAI Token 调用量增长主要源于用户数量增长与 Deep Research 功能的渗透

不同于 Google 的传统搜索中 AI 功能的渗透,OpenAI 的 Token 调用量的提升主要源于 ChatGPT 网页的访问量上升及 Deep Research 功能的渗透。

1. ChatGPT 部分:根据 Semrush 数据,OpenAI 截至 2025 年 3 月的总月访问量约为 6 亿次,平均访问时长约为 12min,假设用户平均每 2min 与 ChatGPT 进行一次问题交互,则对应 12min 的访问时长的单次访问问题总数为 6 个。假设单问题消耗的 Token 数量为 1000 个,则 OpenAI 的 ChatGPT 部分的 Token 调用总数为总访问量 x(单次访问时长/单问题时长)x 单问题 Token 数量=35.9 T Token。目前 ChatGPT 的总访问量与单次平均访问时长仍在快速增长,假设总访问量以 10% 左右的环比增速增长,则预计 2025 年第二季度的 ChatGPT 总 Token 调用量达 153T,较第一季度环比增长 85%。具体测算如下表所示:

2. Deep Research 部分:OpenAI 的 Deep Research 功能于 2025 年 2 月 2 日正式发布,完整版功能首先面向 Pro 版用户开放,而后进一步开放给了更多等级的订阅用户。其中,Plus、Team、教育和企业用户每月 10 次查询机会,Pro 用户每月 120 次查询机会。本文测算将 OpenAI 的付费用户视作为 Deep Research 功能的核心用户群体。根据 OpenAI 披露 OpenAI 的 2024 年 12 月的 WAU(周活跃用户)数量为 3 亿人,2025 年 2 月的 WAU 为 4 亿人,4 月 WAU 为 5 亿人,约环比增速 10% 以上。据 OpenAI 披露 2025 年 5 月的付费订阅用户数量达 3 万人,约占总 WAU 的 0.6%。Deep Research 单次回答问题推理时长一般在 5-10min,输出文字长度与参考网页数量一般为单次交互的几十倍以上,据此我们假设单次 Deep Research 的 Token 数为单次交互的 50 倍,即 5 万 Token。依据付费用户数量每月的 Deep Research 次数额度,我们假设每月每用户使用 Deep Research 的次数为 40 次。测算 2025 年 3 月 Deep Research Token 数量=付费用户数量 x 单次 Deep Research 的 Token 数 x 每月每用户使用 Deep Research 的次数=4.8T Token。

综上,根据我们测算,OpenAI 3 月的总 Token 调用量约为 40.7 T Token。OpenAI 的 Token 调用为微软的 Token 消耗总数最大的部分,假设 OpenAI Token 调用占微软总 Token 数量的 85%,据此计算微软 3 月份总 Token 调用量约为 48T,这与微软披露的 3 月份 Token 数量基本吻合(根据微软电话会披露,2025 年一季度微软总 Token 调用量约为 100T Token,3 月单月的 Token 调用量为 50T)。根据我们预测,微软 25 年第二季度的总 Token 调用量有望达到 205T,环比增长约 100%。

根据我们测算,微软二季度推理算力需求环比增长 99%。OpenAI 未公布模型参数量数据,假设与 Google 一样,一半使用 300B 左右大参数模型(GPT o3),一半使用 20B 左右小参数模型(GPT o4-mini)。利用公式 C≈2NBS 来估算 Token 量增长对于算力需求的影响,计算出 2025 年 3 月整体推理算力需求为 15.3 Trillion TFLOPs。我们预测微软 2025 年第二季度总算力需求为 65.6 Trillion TFLOPs,环比增长 99%,具体测算过程如下:

根据测算微软年底的推理算力卡需求量约为 3 月的两倍有余。根据英伟达官网,H100 在 FP16 精度下单芯片算力为 989 TFLOPs。随 infra 算法的优化与改进,推理过程的 MFU(Model FLOPs Utilization,模型浮点运算利用率)呈上升趋势,中性假设每月提升 1%,根据测算 2025 年 3 月份微软在推理部分的等效 H100 算力需求为 4.3 万张,未来月同比增速约为 10% 左右,根据测算微软年底的推理算力卡需求量约为 3 月的两倍有余。

结论:推理算力需求增长速度快于单位算力成本的降低

由于单位推理成本的不断下降,算力支出存在分歧。算力支出的影响因素可以拆分为算力需求和算力成本两项。AI 应用用户数量的不断增长及 Agent 的渗透驱动算力需求不断上升,同时,由于硬件的迭代与算法改进,驱动推理成本的不断下降,根据 Artificial Analysis 数据,模型推理价格目前已下降到 2023 年初 1/100 以下,因此对整体的算力支出存在分歧。

根据我们测算,推理算力需求增长速度快于单位算力成本的降低。下图展示了 Google 25 年 4 月对比 25 年 3 月的情况,25 年 4 月对比 3 月算力需求环比上升 56%,算力成本环比下降 14%,算力需求增长的影响高于算力成本下降的影响,未来算力支出将持续增长。同时,目前 Agent 还处于初期阶段,除 Deep Research 以外,更高级的 Agent 应用目前还未纳入测算范围。随更多 General Agent 的落地带来交互次数、任务复杂度、使用频率的提升,同时如屏幕识别等多模态的场景进一步加大 Token 的消耗,我们持续看好推理端算力需求的加速增长。

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

赞(0) 打赏
未经允许不得转载:AIPMClub » 从 Token 角度,测算 AI 算力需求

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫