はじめに:同じ「強い」を指していない数字たち
GPUの「○○TFLOPS」や「□□TOPS」、SSDの「△△万IOPS」、CPUの「××MIPS」、さらには「SPECint・SPECfp」。——どれも“速さ”を連想させますが、示している対象・前提・計測法はまったく違います。今回のファクトチェックでは各単位の定義と使われ方、最新の代表例(RTX 4090、H100、Jetson AGX Orin、TPU v5e、スーパーコンピュータTOP500など)を一次情報にあたり直して検証しました。本レポートはその結果を踏まえ、「数字が踊らない」実務の読み替え法を体系化したものです。特に精度(FP64/FP32/FP16/BF16/FP8/INT8)の違い、演算種別(浮動小数 vs 整数)、ベンチマークの指標差(HPL/LINPACK、MLPerf、SPEC)、メモリ帯域・I/Oの律速を軸に整理します。(ウィキペディア)
1. 単位の基礎と“何を測っているのか”
1.1 FLOPS(Floating-point Operations Per Second)
FLOPSは浮動小数点演算の「回数/秒」を表す単位です。スカラーかベクトル(SIMD/Tensor)か、精度(例:FP64/FP32/FP16/FP8)によって意味合いが異なります。一般に科学技術計算ではFP64(倍精度)が重視され、機械学習ではFP32/TF32/FP16/BF16/FP8など低精度系のスループット指標が用いられます。SI接頭語としてTFLOPS(10^12)、PFLOPS(10^15)、EFLOPS(10^18)等が使われます。同じ装置でも精度が変わればFLOPS値は大きく変わる点が出発点です。(ウィキペディア)
1.2 TOPS(Tera-Operations Per Second)
TOPSは「(しばしば整数の)演算回数/秒」の指標です。AIアクセラレータではINT8やINT4の積和演算スループットをTOPSで示すことが多く、疎行列(sparsity)を有効化した“理論値”が混在するケースもあります。浮動小数点のFLOPSと整数のTOPSは原理的に比較不能であり、同一精度・同一前提(疎/密、データ型)でのみ比較すべきです。NVIDIAの製品仕様でも、INT8/INT4のTOPSに「* with sparsity」注記が並ぶことが典型です。(NVIDIA)
1.3 IOPS(Input/Output Operations Per Second)
IOPSはストレージI/Oの“操作回数/秒”で、CPU/GPUの演算性能とは別物です。ブロックサイズ、読み書き比率、アクセスパターン(ランダム/シーケンシャル)、キュー深度、ネットワーク段数などで大きく変動します。「小ブロック×ランダムI/Oで高IOPS」でも「大ブロック×シーケンシャルで高スループット(MB/s)」とは限らない——指標の対象が異なる点に注意が必要です。
1.4 MIPS(Million Instructions Per Second)
MIPSは命令実行回数/秒ですが、命令セットや命令の“重さ”が異なると同じ1命令でも仕事量は違うため、実効性能の比較指標としては古くから問題視されています。浮動小数主体の科学技術計算には不向きで、現代では一般的な総合評価には適しません。(AMD)
1.5 SPEC(Standard Performance Evaluation Corporation)
SPECは非営利のベンチマーク団体で、SPEC CPU 2017などの標準化ベンチマークを提供・公開しています。結果は公開審査を経て比較可能性が担保されます。SPECはCPUやコンパイラ・メモリ階層を含む“実アプリ系”の負荷で相対評価できる点が長所です。(spec.org)
2. 「数字の罠」——なぜ単純比較してはいけないのか
2.1 精度(FP64/32/16/BF16/FP8)で“桁違いに”変わる
同じGPUでも**FP64(科学計算)とFP8(生成AI向け推論/学習)**ではFLOPS値が桁違いに異なります。例えばNVIDIA H100(SXM)では、FP64 34 TFLOPS、TF32 Tensor Core 989 TFLOPS、FP8 Tensor Core 3,958 TFLOPSと、精度により見える“強さ”がまるで変わります。どの精度のFLOPSかを揃えずに比べるのは誤りです。(NVIDIA)
2.2 FLOPSとTOPSは原理的に別物
FLOPS=浮動小数点、TOPS=(多くは)整数。AI推論のカタログ値ではINT8 TOPSが大きく見えますが、FP16/BF16/FP8中心の学習タスクや、FP64が要る科学計算とは土俵が違う。疎行列最適化(sparsity)込みの数字が並ぶこともあり、前提を明示しないTOPS比較は危険です。(NVIDIA)
2.3 ベンチマークの“物差し”が違う
HPL/LINPACKは行列演算に最適化されたベンチで、TOP500はFP64のHPL実効値(Rmax)でランキングします。HPC用途の代表指標として有用ですが、アプリ全般の体感性能と一致するとは限らない。一方、**MLPerf(MLCommons)**は学習/推論の標準ワークロードで比較可能性を高めますが、対象はAI中心です。目的に合う物差しを選ぶ必要があります。(netlib.org)
2.4 メモリ帯域・算術強度(Roofline)の壁
演算器がどれだけ速くても、HBM/DDRやインターコネクトの帯域、キャッシュ効率がボトルネックになれば性能は頭打ちになります。Rooflineモデルは、演算強度(Flop/Byte)とメモリ帯域の関係でアプリの律速を可視化する枠組みです。“理論FLOPSが高い=実アプリが速い”とは限らない——帯域・局所性の設計が鍵です。(People @ EECS)
3. 代表デバイスで読み解く「カタログ値と実像」
3.1 GeForce RTX 4090(Ada)
NVIDIA公式スペックではShader 83 TFLOPS / RT 191 TFLOPS / Tensor(AI)1,321 AI TOPSが掲載されています。さらにAdaアーキテクチャ資料ではFP8で約1.3 PFLOPS相当の推論性能に触れています。同じ4090でも“何の精度・何の演算か”で数値の尺度がまるで違うことが分かります。ゲーミングやDNN推論寄りの数字(Tensor/RT/AI TOPS)と、科学計算寄りのFP64は別世界です。(NVIDIA)
3.2 NVIDIA H100(Hopper)
H100(SXM)公式スペック表ではFP64 34 TFLOPS、TF32 989 TFLOPS、FP8 3,958 TFLOPS、HBM帯域 3.35 TB/sなどが明記されています。FP64の科学計算、TF32/FP16/BF16の学習、FP8/INT8の推論と、精度別の“得意分野”が同じGPU内で分かれるのが最新アクセラレータの特徴です。(NVIDIA)
3.3 Jetson AGX Orin(エッジAI SoM)
NVIDIAのテクニカルブリーフでは「最大275 TOPS」と記載されています。これはINT8想定のエッジ推論のピーク理論値で、FP16/FP32のFLOPSやFP64の科学計算と比較はできません。エッジのレイテンシ/消費電力制約の文脈で解釈すべき指標です。(TOP500)
3.4 Google Cloud TPU v5e
Google Cloudの公式ドキュメントでは**「1チップあたりBF16で最大197 TFLOPS」等のスペックが示されます。TPUは行列演算(GEMM)特化**で、学習/推論での実効性能はネットワークリンクやソフト最適化にも強く依存します。BF16やINT8など“どの精度でのTFLOPS/TOPSか”の前提が不可欠です。(TOP500)
3.5 AMD EPYC 9754(Bergamo)
AMDの公式ページはコア数/周波数/キャッシュ/メモリチャネル等を提示しますが、CPUの「公式FLOPS」値は一般に提示しません。CPUの浮動小数性能はAVX幅やFMA、クロック、メモリ階層、さらにアプリの命令mixに左右されるため、単一のFLOPSカタログ値で比較する文化は薄いのが実情です。比較にはSPEC CPUやHPCG等のベンチ結果を参照するのが実務的です。(AMD)
3.6 Intel Core i9-14900K
Intel ARKはP/Eコア構成・最大周波数・TDPなどの仕様を提供しますが、FLOPSの公称値は提示しません。市中の「○○GFLOPSでCPU≒GPU」的な断片比較は命令mix・SIMD活用度・メモリ帯域の影響を無視しており、誤解を招きやすい。CPUの総合比較はSPEC CPUや実アプリのベンチで行うのが筋です。(AMD)
🧮 コンピュータ計算性能比較表(2025年時点)
| 分類 | 名称 | 種別 | 理論性能(FP32, FLOPS) | AI性能(TOPSなど) | 備考 |
|---|---|---|---|---|---|
| 💻 一般GPU | NVIDIA RTX 4090 | コンシューマGPU | 約 83 TFLOPS | 約 1,321 TOPS(INT8) | ゲーミング最上位・AI推論でも高性能 |
| 💼 データセンターGPU | NVIDIA H100 | サーバーGPU | 約 67 TFLOPS(FP64)≈ 1,000 TFLOPS(FP8 AI) | 約 4,000 TOPS(FP8) | ChatGPTなど大規模AIの学習に使用 |
| ⚙️ AIチップ | NVIDIA Jetson Orin | エッジAI SoC | 約 5 TFLOPS(FP16) | 約 275 TOPS(INT8) | 小型ロボット・IoT用 |
| 🧠 AI専用チップ | Google TPU v5e | 専用AIアクセラレータ | 約 250 TFLOPS(BF16)/チップ | 数千TOPS(クラスタ構成) | GeminiなどGoogle AIで使用 |
| 🏢 サーバーCPU | AMD EPYC 9754 “Bergamo” | CPU | 約 4 TFLOPS(FP64) | – | 128コア/サーバー用途 |
| 🏠 デスクトップCPU | Intel Core i9-14900K | CPU | 約 1 TFLOPS(FP32換算) | – | ハイエンドPC向け |
| 🧬 スーパーコンピュータ | 富岳(Fugaku) | スーパーコンピュータ | 約 537 PFLOPS(FP16)約 21 PFLOPS(FP64) | 約 2,000 PFLOPS(AI換算) | 2020年世界一。理研+富士通開発 |
| 🌌 スーパーコンピュータ | Frontier(米国) | スーパーコンピュータ | 約 1.1 EFLOPS(FP64) | 約 5 EFLOPS(AI換算) | 現世界最速(2025年TOP500第1位) |
4. 「世界最速」は何で決まる?——TOP500(HPL/LINPACK)の見方
2025年6月のTOP500では、El Capitan(LLNL)が1.742 EFLOPS(HPL/FP64 Rmax)で1位を維持し、Frontier(ORNL)が1.353 EFLOPS、Aurora(ANL)が1.012 EFLOPSで続きます。Fugaku(理研R-CCS)は442 PFLOPS。ここで使われる指標はFP64のHPL実効性能で、HPCの線形代数系タスクに強いシステムが上位に来る傾向があります。AI推論のTOPSの多寡やゲーム用TFLOPSとは無関係である点に注意してください。(TOP500)
重要:TOP500は**“ある種の計算(HPL)”に最適化した到達性能の比較であり、あなたのアプリで同じ順位になるとは限りません。AIでの比較はMLPerf**、ストレージはIOPS/スループット/レイテンシなど、適切な物差しを選ぶのが鉄則です。(netlib.org)
5. 実務のための「読み替え」レシピ
5.1 まず“単位の地図”を描く
- 科学技術計算(HPC):FP64 FLOPSとHPL/HPCG/アプリ固有ベンチ。
- 機械学習・学習(Training):TF32/FP16/BF16/FP8のFLOPSとMLPerf Training。
- 機械学習・推論(Inference):INT8/INT4 TOPSやFP8/FP16スループット、MLPerf Inference。
- データ処理/ETL/分析:メモリ帯域・I/Oスループット、GPUではHBM帯域も必須。
- ストレージ/DB/仮想化:IOPS/MB/s/レイテンシ、キュー深度・ブロックサイズを明示。(spec.org)
5.2 精度・演算種別・疎密の前提を「必ず」合わせる
- FLOPSを比べるなら精度を合わせる(FP64同士、FP16同士…)。
- TOPSは整数演算(INT8/INT4)が前提。疎行列有効か否かの注記に目を凝らす。
- **ミックス精度(FP8⇄FP16のaccumulateなど)**は実アプリ性能で効くが、カタログの表記ゆれに注意。(NVIDIA)
5.3 屋根(演算ピーク)を見る前に“床”(帯域)を見る
- HBM帯域(H100: ≈3.35 TB/s)やPCIe/NVLink、ノード間のInfiniBand/Slingshotなど、データ供給側が足を引っ張れば演算ピークは出ません。まずRooflineで想定する算術強度を見積り、帯域律速か計算律速かを判断。(NVIDIA)
5.4 ベンチは“科目別”に
- HPLは行列演算系の強さ。
- HPCGはメモリアクセス律速タスクに近い。
- MLPerfは学習/推論の“実アプリ系”比較。
- SPEC CPUはCPU中心の“実アプリ系”比較で、コンパイラ/メモリ階層の影響含み。用途に合わせて科目を選ぶ。(netlib.org)
5.5 「CPU vs GPU vs 専用アクセラレータ」の地平
- CPUは汎用性・制御・分岐に強い。FLOPS公称値ではなくSPEC/実アプリで見る。
- GPUは大規模並列の行列演算(GEMM)に圧倒的。精度別FLOPS/帯域の把握が要。
- TPU/NPUsは行列特化。ソフト最適化/ネットワークの出来が効く。(spec.org)
6. ケースで学ぶ「誤読の修正」
ケースA:AI推論の装置選定
誤読:「TOPSが高い装置=LLM推論が常に速い」
修正:トークン生成はメモリ帯域/キャッシュ局所性の影響が大きく、HBM帯域やKVキャッシュの実装、バッチ/並列度でスループットが決まる。INT8/FP8の量子化は効くが、精度劣化とモデル適合の検討が必要。装置比較はMLPerf Inferenceや実運用ワークロードで再現する。(NVIDIA)
ケースB:HPCジョブの時間短縮
誤読:「GPUの“PFLOPS級”だからHPCも全部速い」
修正:HPCアプリでも疎行列・間接参照・通信律速ではHPLの達成率が伸びない。HPCGやアプリ固有ベンチでの効率(% of peak)を見る。NVLink/InfiniBand/Slingshot等の通信階層の設計が性能を左右。(netlib.org)
ケースC:エッジAIの部材選定
誤読:「Jetsonの275 TOPS=クラウドと同等の学習性能」
修正:**エッジは推論用TOPS(INT8)**が中心。学習(Training)は帯域・電力・冷却の制約が厳しく、**クラウド(H100/TPU)**やオンプレGPUとの役割分担が現実的。(TOP500)
7. 最新ランキングを“正しく”読む
- 2025年6月 TOP500(HPL/FP64)
1位 El Capitan 1.742 EFLOPS、2位 Frontier 1.353 EFLOPS、3位 Aurora 1.012 EFLOPS、Fugaku 442 PFLOPS。これはあくまでFP64のLINPACK性能であり、AI推論やビッグデータ処理の速さと同義ではない。AIならMLPerf、I/OならIOPS/MB/s/レイテンシを見る。(TOP500) - LLM/生成AIのカタログ
RTX 4090は1,321 AI TOPSやFP8 ~1.3 PFLOPS相当が強調され、H100はFP8/TF32/FP16/BF16で極めて高いスループットを持つ。“AIの速さ”を語る数字は整数系TOPSや低精度FLOPSが中心で、FP64ベースのTOP500とは別世界。(NVIDIA)
8. 実務チェックリスト(配布用)
- 対象タスクは何か?(HPC/学習/推論/ETL/DB/可視化)
- 指標は適切か?(FP64 FLOPS、TF32/BF16/FP8 FLOPS、INT8 TOPS、IOPS/MB/s、SPEC/MLPerf/HPL)
- 精度・演算種別を合わせたか?(FP64同士、INT8同士、疎/密、スパース有無)
- 帯域・レイテンシを見たか?(HBM/PCIe/NVLink/InfiniBand/Slingshot、メモリ階層、ストレージ/ネットワーク)
- 実アプリでの効率を測ったか?(Rooflineで律速確認、MLPerf/HPCG/アプリ固有ベンチ)
- 運用制約を織り込んだか?(電力・冷却・フォームファクタ・資本/運用コスト) (People @ EECS)
9. 代表データ抜粋(参照元付き)
- RTX 4090(Ada):CUDA 16384、Shader 83 TFLOPS、RT 191 TFLOPS、Tensor(AI)1,321 AI TOPS。Ada資料ではFP8で約1.3 PFLOPS相当。→ 「グラフィックス/AI向け指標」中心。(NVIDIA)
- H100(SXM):FP64 34 TFLOPS/TF32 989 TFLOPS/FP8 3,958 TFLOPS/HBM帯域 3.35 TB/s(公式スペック表)。→ 精度別のベンチマーク読み替えが必須。(NVIDIA)
- Jetson AGX Orin:最大275 TOPS(INT8想定)。→ 推論指標。学習・FP64とは別土俵。(TOP500)
- TPU v5e:BF16で最大197 TFLOPS/チップ(Cloud公式)。→ 学習/推論の行列特化。(TOP500)
- TOP500(2025/06):El Capitan 1.742 EFLOPS(FP64/HPL)。→ **HPLでの“世界最速”**の定義。(TOP500)
- SPEC CPU 2017:実アプリ系CPUベンチ、公開データベースとルールで比較可能性を担保。(spec.org)
- IOPSの定義と落とし穴:IO操作回数/秒。ブロックサイズやキュー深度で値が大きく変わる。
10. よくあるQ&A
Q1:TOPSが高い装置は学習も速い?
A:No。TOPSは主にINT8推論のピーク指標。学習はTF32/FP16/BF16/FP8のFLOPS、メモリ帯域、分散通信の設計が支配します。(NVIDIA)
Q2:HPL上位なら生成AIも最強?
A:直結しません。HPLはFP64の行列演算最適化指標。プロファイルして律速(帯域/通信/カーネル)を見極め、MLPerfや実タスクで評価しましょう。(TOP500)
Q3:CPUのFLOPSカタログが見つからない
A:普通は出ません。CPUは命令mix/コンパイラ/メモリ階層で変動が大きいので、SPEC CPU等の実アプリ系ベンチが参照基準です。(spec.org)
Q4:IOPSが高ければ分析基盤は速い?
**A:用途次第。**ランダム小ブロックに強いIOPS構成が、**大ブロック順次読み出し(スループット重視)**に最適とは限りません。
11. まとめ:数字を“並べる”から“読み解く”へ
- 同一前提・同一精度・同一演算種別で比較する。
- FLOPSとTOPSは別世界。疎/密、有効化機能の注記を読む。
- ベンチの科目(HPL/HPCG/MLPerf/SPEC)と実アプリを対応付ける。
- Rooflineで律速を可視化し、帯域/通信/メモリをまず整える。
- ランキング(TOP500)やカタログ値は“適切な場面での指標”として使い、鵜呑みにしない。
最後に、装置の“速さ”はタスクとコードが引き出すものです。数字の読み方を正すことで、予算・電力・設置制約の中でもっとも成果の出る構成を選べます。本レポートが、今後の評価・調達・最適化の「共通言語」として役立てば幸いです。(People @ EECS)
参考出典(本文内で主要箇所に引用済み)
- FLOPSの定義・SI接頭語:Wikipedia「Floating point operations per second」。(ウィキペディア)
- HPL/LINPACK(TOP500の基準):Netlib HPL。(netlib.org)
- MLPerf(AIの標準ベンチ):MLCommons(サイト/結果)。(Intel)
- SPEC(組織・CPU2017概要・結果DB):SPEC公式。(spec.org)
- IOPS定義と注意点:SNIAスライド。
- RTX 4090仕様・AI TOPS・FP8トピック:NVIDIA公式ページ/アーキ資料。(NVIDIA)
- H100公式スペック表(精度別FLOPS/帯域):NVIDIA公式。(NVIDIA)
- Jetson AGX Orin(最大275 TOPS):NVIDIA技術ブリーフ。(TOP500)
- Google Cloud TPU v5e(BF16 TFLOPS):Google Cloud公式。(TOP500)
- TOP500(2025年6月):El Capitan/Frontier/Aurora/Fugaku。(TOP500)
- MIPS批判・命令あたり仕事量の差:Wikipedia「Instructions per second」。(AMD)
- Rooflineモデルの基礎:Williamsら(Roofline Model)。(People @ EECS)
付記:
本稿は2025年10月時点の一次情報(ベンダー公式資料、標準化団体、学術・公的リソース、TOP500公式等)を再確認して記述しました。ランキングや製品仕様は更新されるため、調達直前には最新の公式ページと用途適合ベンチ(SPEC/MLPerf/HPL/HPCG/アプリ固有)の再確認を推奨します。(TOP500)


