「計算性能の単位」を正しく使い分ける――FLOPS・TOPS・IOPS・MIPS・SPECの意味、限界、そして読み替え方

はじめに：同じ「強い」を指していない数字たち

GPUの「○○TFLOPS」や「□□TOPS」、SSDの「△△万IOPS」、CPUの「××MIPS」、さらには「SPECint・SPECfp」。——どれも“速さ”を連想させますが、示している対象・前提・計測法はまったく違います。今回のファクトチェックでは各単位の定義と使われ方、最新の代表例（RTX 4090、H100、Jetson AGX Orin、TPU v5e、スーパーコンピュータTOP500など）を一次情報にあたり直して検証しました。本レポートはその結果を踏まえ、「数字が踊らない」実務の読み替え法を体系化したものです。特に精度（FP64/FP32/FP16/BF16/FP8/INT8）の違い、演算種別（浮動小数 vs 整数）、ベンチマークの指標差（HPL/LINPACK、MLPerf、SPEC）、メモリ帯域・I/Oの律速を軸に整理します。(ウィキペディア)

1. 単位の基礎と“何を測っているのか”

1.1 FLOPS（Floating-point Operations Per Second）

FLOPSは浮動小数点演算の「回数/秒」を表す単位です。スカラーかベクトル（SIMD/Tensor）か、精度（例：FP64/FP32/FP16/FP8）によって意味合いが異なります。一般に科学技術計算ではFP64（倍精度）が重視され、機械学習ではFP32/TF32/FP16/BF16/FP8など低精度系のスループット指標が用いられます。SI接頭語としてTFLOPS（10^12）、PFLOPS（10^15）、EFLOPS（10^18）等が使われます。同じ装置でも精度が変わればFLOPS値は大きく変わる点が出発点です。(ウィキペディア)

1.2 TOPS（Tera-Operations Per Second）

TOPSは「（しばしば整数の）演算回数/秒」の指標です。AIアクセラレータではINT8やINT4の積和演算スループットをTOPSで示すことが多く、疎行列（sparsity）を有効化した“理論値”が混在するケースもあります。浮動小数点のFLOPSと整数のTOPSは原理的に比較不能であり、同一精度・同一前提（疎/密、データ型）でのみ比較すべきです。NVIDIAの製品仕様でも、INT8/INT4のTOPSに「* with sparsity」注記が並ぶことが典型です。(NVIDIA)

1.3 IOPS（Input/Output Operations Per Second）

IOPSはストレージI/Oの“操作回数/秒”で、CPU/GPUの演算性能とは別物です。ブロックサイズ、読み書き比率、アクセスパターン（ランダム/シーケンシャル）、キュー深度、ネットワーク段数などで大きく変動します。「小ブロック×ランダムI/Oで高IOPS」でも「大ブロック×シーケンシャルで高スループット（MB/s）」とは限らない——指標の対象が異なる点に注意が必要です。

1.4 MIPS（Million Instructions Per Second）

MIPSは命令実行回数/秒ですが、命令セットや命令の“重さ”が異なると同じ1命令でも仕事量は違うため、実効性能の比較指標としては古くから問題視されています。浮動小数主体の科学技術計算には不向きで、現代では一般的な総合評価には適しません。(AMD)

1.5 SPEC（Standard Performance Evaluation Corporation）

SPECは非営利のベンチマーク団体で、SPEC CPU 2017などの標準化ベンチマークを提供・公開しています。結果は公開審査を経て比較可能性が担保されます。SPECはCPUやコンパイラ・メモリ階層を含む“実アプリ系”の負荷で相対評価できる点が長所です。(spec.org)

2. 「数字の罠」——なぜ単純比較してはいけないのか

2.1 精度（FP64/32/16/BF16/FP8）で“桁違いに”変わる

同じGPUでも**FP64（科学計算）とFP8（生成AI向け推論/学習）**ではFLOPS値が桁違いに異なります。例えばNVIDIA H100（SXM）では、FP64 34 TFLOPS、TF32 Tensor Core 989 TFLOPS、FP8 Tensor Core 3,958 TFLOPSと、精度により見える“強さ”がまるで変わります。どの精度のFLOPSかを揃えずに比べるのは誤りです。(NVIDIA)

2.2 FLOPSとTOPSは原理的に別物

FLOPS＝浮動小数点、TOPS＝（多くは）整数。AI推論のカタログ値ではINT8 TOPSが大きく見えますが、FP16/BF16/FP8中心の学習タスクや、FP64が要る科学計算とは土俵が違う。疎行列最適化（sparsity）込みの数字が並ぶこともあり、前提を明示しないTOPS比較は危険です。(NVIDIA)

2.3 ベンチマークの“物差し”が違う

HPL/LINPACKは行列演算に最適化されたベンチで、TOP500はFP64のHPL実効値（Rmax）でランキングします。HPC用途の代表指標として有用ですが、アプリ全般の体感性能と一致するとは限らない。一方、**MLPerf（MLCommons）**は学習/推論の標準ワークロードで比較可能性を高めますが、対象はAI中心です。目的に合う物差しを選ぶ必要があります。(netlib.org)

2.4 メモリ帯域・算術強度（Roofline）の壁

演算器がどれだけ速くても、HBM/DDRやインターコネクトの帯域、キャッシュ効率がボトルネックになれば性能は頭打ちになります。Rooflineモデルは、演算強度（Flop/Byte）とメモリ帯域の関係でアプリの律速を可視化する枠組みです。“理論FLOPSが高い＝実アプリが速い”とは限らない——帯域・局所性の設計が鍵です。(People @ EECS)

3. 代表デバイスで読み解く「カタログ値と実像」

3.1 GeForce RTX 4090（Ada）

NVIDIA公式スペックではShader 83 TFLOPS / RT 191 TFLOPS / Tensor（AI）1,321 AI TOPSが掲載されています。さらにAdaアーキテクチャ資料ではFP8で約1.3 PFLOPS相当の推論性能に触れています。同じ4090でも“何の精度・何の演算か”で数値の尺度がまるで違うことが分かります。ゲーミングやDNN推論寄りの数字（Tensor/RT/AI TOPS）と、科学計算寄りのFP64は別世界です。(NVIDIA)

3.2 NVIDIA H100（Hopper）

H100（SXM）公式スペック表ではFP64 34 TFLOPS、TF32 989 TFLOPS、FP8 3,958 TFLOPS、HBM帯域 3.35 TB/sなどが明記されています。FP64の科学計算、TF32/FP16/BF16の学習、FP8/INT8の推論と、精度別の“得意分野”が同じGPU内で分かれるのが最新アクセラレータの特徴です。(NVIDIA)

3.3 Jetson AGX Orin（エッジAI SoM）

NVIDIAのテクニカルブリーフでは「最大275 TOPS」と記載されています。これはINT8想定のエッジ推論のピーク理論値で、FP16/FP32のFLOPSやFP64の科学計算と比較はできません。エッジのレイテンシ/消費電力制約の文脈で解釈すべき指標です。(TOP500)

3.4 Google Cloud TPU v5e

Google Cloudの公式ドキュメントでは**「1チップあたりBF16で最大197 TFLOPS」等のスペックが示されます。TPUは行列演算（GEMM）特化**で、学習/推論での実効性能はネットワークリンクやソフト最適化にも強く依存します。BF16やINT8など“どの精度でのTFLOPS/TOPSか”の前提が不可欠です。(TOP500)

3.5 AMD EPYC 9754（Bergamo）

AMDの公式ページはコア数/周波数/キャッシュ/メモリチャネル等を提示しますが、CPUの「公式FLOPS」値は一般に提示しません。CPUの浮動小数性能はAVX幅やFMA、クロック、メモリ階層、さらにアプリの命令mixに左右されるため、単一のFLOPSカタログ値で比較する文化は薄いのが実情です。比較にはSPEC CPUやHPCG等のベンチ結果を参照するのが実務的です。(AMD)

3.6 Intel Core i9-14900K

Intel ARKはP/Eコア構成・最大周波数・TDPなどの仕様を提供しますが、FLOPSの公称値は提示しません。市中の「○○GFLOPSでCPU≒GPU」的な断片比較は命令mix・SIMD活用度・メモリ帯域の影響を無視しており、誤解を招きやすい。CPUの総合比較はSPEC CPUや実アプリのベンチで行うのが筋です。(AMD)

🧮 コンピュータ計算性能比較表（2025年時点）

分類	名称	種別	理論性能（FP32, FLOPS）	AI性能（TOPSなど）	備考
💻 一般GPU	NVIDIA RTX 4090	コンシューマGPU	約 83 TFLOPS	約 1,321 TOPS（INT8）	ゲーミング最上位・AI推論でも高性能
💼 データセンターGPU	NVIDIA H100	サーバーGPU	約 67 TFLOPS（FP64）≈ 1,000 TFLOPS（FP8 AI）	約 4,000 TOPS（FP8）	ChatGPTなど大規模AIの学習に使用
⚙️ AIチップ	NVIDIA Jetson Orin	エッジAI SoC	約 5 TFLOPS（FP16）	約 275 TOPS（INT8）	小型ロボット・IoT用
🧠 AI専用チップ	Google TPU v5e	専用AIアクセラレータ	約 250 TFLOPS（BF16）／チップ	数千TOPS（クラスタ構成）	GeminiなどGoogle AIで使用
🏢 サーバーCPU	AMD EPYC 9754 “Bergamo”	CPU	約 4 TFLOPS（FP64）	–	128コア／サーバー用途
🏠 デスクトップCPU	Intel Core i9-14900K	CPU	約 1 TFLOPS（FP32換算）	–	ハイエンドPC向け
🧬 スーパーコンピュータ	富岳（Fugaku）	スーパーコンピュータ	約 537 PFLOPS（FP16）約 21 PFLOPS（FP64）	約 2,000 PFLOPS（AI換算）	2020年世界一。理研＋富士通開発
🌌 スーパーコンピュータ	Frontier（米国）	スーパーコンピュータ	約 1.1 EFLOPS（FP64）	約 5 EFLOPS（AI換算）	現世界最速（2025年TOP500第1位）

4. 「世界最速」は何で決まる？——TOP500（HPL/LINPACK）の見方

2025年6月のTOP500では、El Capitan（LLNL）が1.742 EFLOPS（HPL/FP64 Rmax）で1位を維持し、Frontier（ORNL）が1.353 EFLOPS、Aurora（ANL）が1.012 EFLOPSで続きます。Fugaku（理研R-CCS）は442 PFLOPS。ここで使われる指標はFP64のHPL実効性能で、HPCの線形代数系タスクに強いシステムが上位に来る傾向があります。AI推論のTOPSの多寡やゲーム用TFLOPSとは無関係である点に注意してください。(TOP500)

重要：TOP500は**“ある種の計算（HPL）”に最適化した到達性能の比較であり、あなたのアプリで同じ順位になるとは限りません。AIでの比較はMLPerf**、ストレージはIOPS/スループット/レイテンシなど、適切な物差しを選ぶのが鉄則です。(netlib.org)

5. 実務のための「読み替え」レシピ

5.1 まず“単位の地図”を描く

科学技術計算（HPC）：FP64 FLOPSとHPL/HPCG/アプリ固有ベンチ。
機械学習・学習（Training）：TF32/FP16/BF16/FP8のFLOPSとMLPerf Training。
機械学習・推論（Inference）：INT8/INT4 TOPSやFP8/FP16スループット、MLPerf Inference。
データ処理/ETL/分析：メモリ帯域・I/Oスループット、GPUではHBM帯域も必須。
ストレージ/DB/仮想化：IOPS/MB/s/レイテンシ、キュー深度・ブロックサイズを明示。(spec.org)

5.2 精度・演算種別・疎密の前提を「必ず」合わせる

FLOPSを比べるなら精度を合わせる（FP64同士、FP16同士…）。
TOPSは整数演算（INT8/INT4）が前提。疎行列有効か否かの注記に目を凝らす。
**ミックス精度（FP8⇄FP16のaccumulateなど）**は実アプリ性能で効くが、カタログの表記ゆれに注意。(NVIDIA)

5.3 屋根（演算ピーク）を見る前に“床”（帯域）を見る

HBM帯域（H100: ≈3.35 TB/s）やPCIe/NVLink、ノード間のInfiniBand/Slingshotなど、データ供給側が足を引っ張れば演算ピークは出ません。まずRooflineで想定する算術強度を見積り、帯域律速か計算律速かを判断。(NVIDIA)

5.4 ベンチは“科目別”に

HPLは行列演算系の強さ。
HPCGはメモリアクセス律速タスクに近い。
MLPerfは学習/推論の“実アプリ系”比較。
SPEC CPUはCPU中心の“実アプリ系”比較で、コンパイラ/メモリ階層の影響含み。用途に合わせて科目を選ぶ。(netlib.org)

5.5 「CPU vs GPU vs 専用アクセラレータ」の地平

CPUは汎用性・制御・分岐に強い。FLOPS公称値ではなくSPEC/実アプリで見る。
GPUは大規模並列の行列演算（GEMM）に圧倒的。精度別FLOPS/帯域の把握が要。
TPU/NPUsは行列特化。ソフト最適化/ネットワークの出来が効く。(spec.org)

6. ケースで学ぶ「誤読の修正」

ケースA：AI推論の装置選定

誤読：「TOPSが高い装置＝LLM推論が常に速い」
修正：トークン生成はメモリ帯域/キャッシュ局所性の影響が大きく、HBM帯域やKVキャッシュの実装、バッチ/並列度でスループットが決まる。INT8/FP8の量子化は効くが、精度劣化とモデル適合の検討が必要。装置比較はMLPerf Inferenceや実運用ワークロードで再現する。(NVIDIA)

ケースB：HPCジョブの時間短縮

誤読：「GPUの“PFLOPS級”だからHPCも全部速い」
修正：HPCアプリでも疎行列・間接参照・通信律速ではHPLの達成率が伸びない。HPCGやアプリ固有ベンチでの効率（% of peak）を見る。NVLink/InfiniBand/Slingshot等の通信階層の設計が性能を左右。(netlib.org)

ケースC：エッジAIの部材選定

誤読：「Jetsonの275 TOPS＝クラウドと同等の学習性能」
修正：**エッジは推論用TOPS（INT8）**が中心。学習（Training）は帯域・電力・冷却の制約が厳しく、**クラウド（H100/TPU）**やオンプレGPUとの役割分担が現実的。(TOP500)

7. 最新ランキングを“正しく”読む

2025年6月 TOP500（HPL/FP64）
1位 El Capitan 1.742 EFLOPS、2位 Frontier 1.353 EFLOPS、3位 Aurora 1.012 EFLOPS、Fugaku 442 PFLOPS。これはあくまでFP64のLINPACK性能であり、AI推論やビッグデータ処理の速さと同義ではない。AIならMLPerf、I/OならIOPS/MB/s/レイテンシを見る。(TOP500)
LLM/生成AIのカタログ
RTX 4090は1,321 AI TOPSやFP8 ~1.3 PFLOPS相当が強調され、H100はFP8/TF32/FP16/BF16で極めて高いスループットを持つ。“AIの速さ”を語る数字は整数系TOPSや低精度FLOPSが中心で、FP64ベースのTOP500とは別世界。(NVIDIA)

8. 実務チェックリスト（配布用）

対象タスクは何か？（HPC/学習/推論/ETL/DB/可視化）
指標は適切か？（FP64 FLOPS、TF32/BF16/FP8 FLOPS、INT8 TOPS、IOPS/MB/s、SPEC/MLPerf/HPL）
精度・演算種別を合わせたか？（FP64同士、INT8同士、疎/密、スパース有無）
帯域・レイテンシを見たか？（HBM/PCIe/NVLink/InfiniBand/Slingshot、メモリ階層、ストレージ/ネットワーク）
実アプリでの効率を測ったか？（Rooflineで律速確認、MLPerf/HPCG/アプリ固有ベンチ）
運用制約を織り込んだか？（電力・冷却・フォームファクタ・資本/運用コスト） (People @ EECS)

9. 代表データ抜粋（参照元付き）

RTX 4090（Ada）：CUDA 16384、Shader 83 TFLOPS、RT 191 TFLOPS、Tensor（AI）1,321 AI TOPS。Ada資料ではFP8で約1.3 PFLOPS相当。→ 「グラフィックス/AI向け指標」中心。(NVIDIA)
H100（SXM）：FP64 34 TFLOPS／TF32 989 TFLOPS／FP8 3,958 TFLOPS／HBM帯域 3.35 TB/s（公式スペック表）。→ 精度別のベンチマーク読み替えが必須。(NVIDIA)
Jetson AGX Orin：最大275 TOPS（INT8想定）。→ 推論指標。学習・FP64とは別土俵。(TOP500)
TPU v5e：BF16で最大197 TFLOPS/チップ（Cloud公式）。→ 学習/推論の行列特化。(TOP500)
TOP500（2025/06）：El Capitan 1.742 EFLOPS（FP64/HPL）。→ **HPLでの“世界最速”**の定義。(TOP500)
SPEC CPU 2017：実アプリ系CPUベンチ、公開データベースとルールで比較可能性を担保。(spec.org)
IOPSの定義と落とし穴：IO操作回数/秒。ブロックサイズやキュー深度で値が大きく変わる。

10. よくあるQ&A

Q1：TOPSが高い装置は学習も速い？
A：No。TOPSは主にINT8推論のピーク指標。学習はTF32/FP16/BF16/FP8のFLOPS、メモリ帯域、分散通信の設計が支配します。(NVIDIA)

Q2：HPL上位なら生成AIも最強？
A：直結しません。HPLはFP64の行列演算最適化指標。プロファイルして律速（帯域/通信/カーネル）を見極め、MLPerfや実タスクで評価しましょう。(TOP500)

Q3：CPUのFLOPSカタログが見つからない
A：普通は出ません。CPUは命令mix/コンパイラ/メモリ階層で変動が大きいので、SPEC CPU等の実アプリ系ベンチが参照基準です。(spec.org)

Q4：IOPSが高ければ分析基盤は速い？
**A：用途次第。**ランダム小ブロックに強いIOPS構成が、**大ブロック順次読み出し（スループット重視）**に最適とは限りません。

11. まとめ：数字を“並べる”から“読み解く”へ

同一前提・同一精度・同一演算種別で比較する。
FLOPSとTOPSは別世界。疎/密、有効化機能の注記を読む。
ベンチの科目（HPL/HPCG/MLPerf/SPEC）と実アプリを対応付ける。
Rooflineで律速を可視化し、帯域/通信/メモリをまず整える。
ランキング（TOP500）やカタログ値は“適切な場面での指標”として使い、鵜呑みにしない。

最後に、装置の“速さ”はタスクとコードが引き出すものです。数字の読み方を正すことで、予算・電力・設置制約の中でもっとも成果の出る構成を選べます。本レポートが、今後の評価・調達・最適化の「共通言語」として役立てば幸いです。(People @ EECS)

参考出典（本文内で主要箇所に引用済み）

FLOPSの定義・SI接頭語：Wikipedia「Floating point operations per second」。(ウィキペディア)
HPL/LINPACK（TOP500の基準）：Netlib HPL。(netlib.org)
MLPerf（AIの標準ベンチ）：MLCommons（サイト/結果）。(Intel)
SPEC（組織・CPU2017概要・結果DB）：SPEC公式。(spec.org)
IOPS定義と注意点：SNIAスライド。
RTX 4090仕様・AI TOPS・FP8トピック：NVIDIA公式ページ/アーキ資料。(NVIDIA)
H100公式スペック表（精度別FLOPS/帯域）：NVIDIA公式。(NVIDIA)
Jetson AGX Orin（最大275 TOPS）：NVIDIA技術ブリーフ。(TOP500)
Google Cloud TPU v5e（BF16 TFLOPS）：Google Cloud公式。(TOP500)
TOP500（2025年6月）：El Capitan/Frontier/Aurora/Fugaku。(TOP500)
MIPS批判・命令あたり仕事量の差：Wikipedia「Instructions per second」。(AMD)
Rooflineモデルの基礎：Williamsら（Roofline Model）。(People @ EECS)

付記：
本稿は2025年10月時点の一次情報（ベンダー公式資料、標準化団体、学術・公的リソース、TOP500公式等）を再確認して記述しました。ランキングや製品仕様は更新されるため、調達直前には最新の公式ページと用途適合ベンチ（SPEC/MLPerf/HPL/HPCG/アプリ固有）の再確認を推奨します。(TOP500)