一文读懂 CPU/GPU 算力:从参数到计算,不再被忽悠

一文读懂 CPU/GPU 算力:从参数到计算,不再被忽悠 标签硬件 · 原理 · 实战 · CPU · GPU · 算力 · 性能适合人群入门到进阶 · 约 4500 字 · 预计阅读 20 分钟 目录算力是什么算力的单位FLOPS 和 TOPSCPU 算力拆解参数 → 公式 → 例子GPU 算力拆解参数 → 公式 → 例子CPU vs GPU谁更强手算实例i9-13900K vs RTX 4090避坑指南别再被这些套路忽悠总结 思考题引言你有没有过这种经历——准备买一块显卡打开电商页面满屏都是82 TFLOPS、7680 个 CUDA 核心、2.5GHz Boost……心里一堆问号这些数字大不大好不好跟隔壁那款比谁更强更让人抓狂的是厂商喜欢在宣传页面上用INT8的 TOPS 指标来对比竞品的FP32FLOPS就像拿自己的百米冲刺速度跟别人的长跑配速比——数字更好看但根本不是同一回事。本文就来帮你把这些参数一网打尽理清概念、弄懂公式、手算案例以后看到任何芯片的参数表都能自己算出个大概不再被忽悠。一、算力是什么先用一个超接地气的比喻来解释算力这个词。️生活比喻搬砖工人想象一个工地需要把 1000 块砖头从 A 搬到 B。算力就是这个工人每秒能搬多少块砖。搬得越快算力越强。计算机的砖头就是浮点运算加减乘除这些数学操作。更严谨地说算力Computing Power是处理器在单位时间内能完成的计算操作数量。通常以每秒能做多少次浮点运算来衡量单位叫FLOPSFloating Point Operations Per Second即浮点运算次数/秒。那为什么 CPU 和 GPU 的算力衡量方式不一样呢这就要从它们的设计哲学说起——CPU 是个全能选手GPU 是个专精流水线工人。下文细说。二、算力的单位FLOPS 和 TOPS在看参数之前先把单位搞清楚否则数字再大也没法比。单位全称量级常见场景FLOPS每秒浮点运算次数基础单位通用计算GFLOPSGiga FLOPS10⁹CPU 单核TFLOPSTera FLOPS10¹²GPU 算力PFLOPSPeta FLOPS10¹⁵超级计算机TOPS每秒整数运算次数—AI 推理INT8/INT4精度类型FP64 / FP32 / FP16 / INT8 / INT4同一块芯片用不同的数值精度计算速度差距可以是数倍甚至十几倍。厂商经常在这里玩文字游戏一定要搞清楚精度位宽特点典型应用FP64双精度64 bit精度最高、速度最慢科学计算、物理仿真FP32单精度32 bit精度与速度均衡AI 训练、游戏渲染FP16半精度16 bit速度快约 2×精度略降混合精度 AI 训练INT8整型 8bit8 bit速度快约 4×量化后使用AI 推理部署INT4整型 4bit4 bit速度最快精度损失较大边缘推理、超轻量模型⚠️【注意】厂商宣传时经常把 INT8 的 TOPS 拿来跟别人的 FP32 TFLOPS 比较数字可能差 4 倍以上。对比时务必确认精度相同否则没有可比性三、CPU 算力拆解参数 → 公式 → 例子比喻CPU 是一位教授CPU 就像一位知识渊博的教授——能做微积分、能写诗、能下棋、能调度任务。核心数不多但每个核心都极其聪明特别擅长处理复杂的逻辑分支和顺序任务。核心参数一览主频 / 基频Base ClockCPU 在持续负载下的稳定工作频率单位 GHz代表每秒时钟周期数。是衡量每秒跳动多少下的指标。睿频 / Boost Clock短时单核最高频率受温度和功耗限制不可持续维持。通常比基频高 20%60%买 CPU 别只盯睿频基频才是真实可持续速度。核心数 线程数超线程 Hyper-Threading超线程Hyper-ThreadingHTIntel 的技术让 1 个物理核心模拟出 2 个逻辑线程。两个线程共享核心内部资源可提升多任务吞吐量但不等于算力翻倍实际提升约 20%30%。IPCInstructions Per Clock每时钟周期指令数这是最容易被忽略、但极为关键的指标。IPC 代表同样频率下架构越新的 CPU 每个周期能干更多活。举个例子Intel 第 13 代相比第 10 代在相同频率下 IPC 提升了约 30%——相当于同样时间内多完成了 30% 的工作频率数字一样实际性能却差距明显。这就是为什么新一代低频 CPU 可以打败老一代高频 CPU。缓存L1 / L2 / L3 Cache比喻缓存就是工作台 书架 仓库L1 缓存 桌面上的便利贴极快极小每核独享L2 缓存 身边的书架稍慢中等容量每核独享或共享L3 缓存 楼道的储藏室更慢更大多个核心共享内存RAM 去图书馆借书慢但有任何你要的资料缓存越大CPU够到数据越快等待内存的时间越少实际性能越高。TDPThermal Design Power热设计功耗处理器在持续满载时散热系统需要处理的最大热量。TDP 越高说明功耗越大同时也侧面反映持续算力上限——散热不够CPU 会主动降频温度墙。CPU 算力估算公式单核理论峰值 FP32 算力 单核峰值 主频 (GHz) × SIMD宽度 × FMA系数(×2) 示例AVX2指令集8路FP32频率 3.5GHz 单核峰值 ≈ 3.5 × 8 × 2 56 GFLOPSFP32 多核峰值 单核峰值 × 物理核心数 注受内存带宽和 L3 缓存制约实际多核效率 线性缩放【小贴士】频率高不一定赢睿频Boost只能在短时间内维持在长时间高负载下会因温度/功耗回落到基频。真实持续算力往往比理论峰值低 20%40%。四、GPU 算力拆解参数 → 公式 → 例子‍比喻GPU 是上千个小学生GPU 就像有几千个小学生同时做加法——每个人不聪明但胜在人多同一时刻能做海量重复计算。渲染图片时每个像素要做类似的计算让这几千个小学生同时上比一个教授一个一个算快太多了。核心参数一览流处理器 / CUDA 核心Stream Processors / CUDA CoresNVIDIA GPU 的基本计算单元。每个 CUDA 核心能独立执行浮点运算核心越多同时处理的线程越多。AMD 对应的叫流处理器Shader Processors。SMStreaming Multiprocessor流式多处理器GPU 的功能模块单位。每个 SM 包含若干 CUDA 核心、寄存器、共享内存、调度单元。计算算力时SM 数量是关键参数。张量核心Tensor CoreNVIDIA Volta 架构起引入的专用加速单元专为矩阵乘法Matrix Multiply-Accumulate, MMA设计。一次可以完成 4×4 矩阵乘加运算在 FP16 / BF16 / INT8 精度下算力是普通 CUDA 核心的数倍到数十倍。AI 训练和推理的核心加速器。光追核心RT Core专门加速光线追踪Ray Tracing中的 BVH边界体积层级遍历计算主要用于游戏渲染与通用算力关系不大AI 计算不使用此资源。显存带宽Memory BandwidthGPU 核心读写显存的速度单位 GB/s。大模型推理时GPU 大部分时间在等数据从显存搬运过来带宽不够计算单元再多也只能空等。这是 LLM 推理的真正瓶颈之一。Boost 核心频率Boost ClockGPU 动态超频后的最高频率通常在 1.52.8 GHz 范围内比 CPU 低得多因为 GPU 靠核心数量取胜而非频率。GPU 算力计算公式以 NVIDIA 为例FP32 理论峰值算力TFLOPS FP32 算力 SM数量 × 每个SM的CUDA核心数 × 2 × 核心频率(GHz) 说明 ×2 的含义GPU 每个周期执行 1 次 FMAFused Multiply-Add指令 FMA 乘法 加法 合并为 1 条指令 2 次浮点运算a×b c Tensor Core FP16 算力 ≈ FP32 算力 × 28视架构而定 Tensor Core 每周期可做更大矩阵块运算吞吐量远超普通 CUDA 核心【小贴士】FMA 是什么为什么要 ×2FMAFused Multiply-Add融合乘加指令 一次指令完成a × b c的计算。虽然是 1 条指令但它完成了 2 次浮点运算1次乘 1次加。所以计算 FLOPS 时要乘以 2这是行业惯例。实际算力 vs 理论峰值理论峰值是空跑时的最大值实际应用中算力利用率受以下因素拖累显存带宽瓶颈大模型推理时核心等数据的时间 计算时间调度与同步开销线程分配、内存对齐等损耗功耗墙TDP Wall持续满载时 GPU 降频保护应用层利用率写得不好的 CUDA 代码可能只有 40%60% 利用率一般来说AI 训练实际利用率在50%80%推理在30%60%之间。五、CPU vs GPU谁更强这个问题就像问锤子和扳手哪个更好用——完全取决于你要拧什么螺丝。各自擅长的任务任务类型CPU 擅长GPU 擅长逻辑控制✅ 复杂分支判断❌ 不擅长延迟敏感型✅ 操作系统调度、数据库❌大规模并行❌✅ 矩阵运算、渲染AI 训练❌✅ 核心主力AI 推理⚠️ 小模型可用✅ 大模型首选视频编解码⚠️ 软解可以✅ 硬解更快Web 服务✅❌为什么 GPU 在并行任务上吊打 CPU关键在于芯片内部的人员分配维度CPUGPU控制单元占比约 30%很大约 5%极小缓存占比约 40%很大约 20%较小计算单元占比约 30%较少约 75%极多并发线程数16256 个数万数十万执行模型SIMD单指令多数据较灵活SIMT单指令多线程更大规模适合任务类型延迟敏感型吞吐量敏感型CPU 把大量芯片面积用在了聪明的控制电路和大缓存上GPU 则把绝大部分面积全给了计算单元——简单但数量庞大。这就是两者在并行任务上天壤之别的根本原因。六、手算实例i9-13900K vs RTX 4090Intel i9-13900KCPU已知参数 P 核心数量8 个性能核 基础频率P-Core Base3.0 GHz SIMD 宽度AVX28路 FP32×8 FMA 系数×2 计算 多核峰值 8 × 3.0 × 8 × 2 384 GFLOPSFP32仅 P 核基频 加上 E 核及睿频估算总体约 0.50.6 TFLOPSFP32 官方数据约 0.6 TFLOPS计算吻合 ✓ 注CPU 的算力远不如 GPU强项在延迟和逻辑控制不在吞吐量。NVIDIA RTX 4090GPU已知参数 SM 数量128 个 每个 SM 的 CUDA 核心数128 个共 16384 个 CUDA 核心 FMA 系数×2 Boost 频率2.52 GHz 计算 FP32 算力 128 × 128 × 2 × 2.52 82,575 GFLOPS ≈ 82.6 TFLOPSFP32 官方标称82.58 TFLOPS计算完全吻合 ✓ 扩展 Tensor Core FP16≈ 330 TFLOPS INT8 算力≈ 660 TOPS 实际 AI 训练利用率约 60%75%有效约 5062 TFLOPS两者对比之下RTX 4090 的 FP32 算力约是 i9-13900K 的138 倍——这就是为什么跑深度学习要用 GPU而不是用 CPU 苦等。七、避坑指南别再被这些套路忽悠❌ 坑 1只看核心数不看架构代际老架构 16 核可能跑不过新架构 8 核。同样是8核Intel 第 13 代比第 10 代 IPC 高 30%。买 CPU 一定要在同一架构世代内比较正确做法先确认架构代际再比核心数和频率。❌ 坑 2混淆不同精度下的 TOPS/TFLOPSA 卡标 INT8 下 200 TOPSB 卡标 FP32 下 50 TFLOPS——乍看 A 更强但 INT8 本来就比 FP32 快约 4 倍。同等精度才能比较记住这个铁律正确做法统一用 FP32 TFLOPS 作为通用比较基准。❌ 坑 3把理论峰值当实际算力显卡标 82 TFLOPS不代表你跑深度学习能用上 82 TFLOPS。内存带宽、调度开销、功耗墙等因素会让实际利用率只有 50%75%要有算力利用率概念。正确做法参考实测 benchmark如 MLPerf而非只看规格表。❌ 坑 4把 AI 性能等同于游戏性能Tensor Core 主要用于 AI 矩阵运算游戏靠的是 CUDA 核心 带宽 RT Core。一款 AI 算力爆炸的卡打游戏不一定强反之亦然。正确做法明确自己的使用场景AI 训练看 Tensor Core游戏看光栅化光追性能。❌ 坑 5忽视显存带宽大模型推理的真正瓶颈LLM 推理时GPU 大部分时间在等数据从显存搬过来而不是在算。带宽不够算力再强也是空转。例子RTX 4090 有 1008 GB/s 带宽而某些 AI 专用卡如 H100 SXM达到 3.35 TB/s——后者在大模型推理上的优势远超 FP32 算力数字所体现的差距。正确做法跑大模型推理时显存带宽的重要性 ≥ 浮点算力。八、总结 思考题核心知识点回顾算力 每秒能做多少次运算单位是 FLOPS / TOPS精度不同不可直接比较CPU 教授擅长逻辑复杂、低延迟任务GPU 大批小学生擅长并行吞吐CPU 算力公式频率 × SIMD宽度 × FMA×2 × 核心数GPU 算力公式SM数 × 每SM的CUDA核心数 × 2 × 频率GHz TFLOPS理论峰值 ≠ 实际算力利用率通常在 50%80% 之间对比时务必同精度比较认准 FP32 作为通用基准下次看到厂商参数表先问三个问题这是什么精度的算力有没有和我的实际任务对应标的是理论峰值还是实测数据想清楚这三点基本就不会被忽悠了。 思考题欢迎评论区讨论题目一入门级你有一块 RTX 30808704 个 CUDA 核心68 个 SMBoost 1.71 GHz试着手算一下它的 FP32 理论峰值算力看看和官方标称29.77 TFLOPS是否吻合题目二进阶级同等 FP32 算力下你会选显存带宽更大的卡还是Tensor Core 更多的卡来跑 LLM 推理为什么欢迎在评论区留下你的计算过程和分析思路一起交流如果这篇文章对你有帮助点个赞再走吧收藏起来下次选硬件时翻出来对照着看绝对少走弯路