「計算性能の単位」を正しく使い分ける――FLOPS・TOPS・IOPS・MIPS・SPECの意味、限界、そして読み替え方

はじめに:同じ「強い」を指していない数字たち

GPUの「○○TFLOPS」や「□□TOPS」、SSDの「△△万IOPS」、CPUの「××MIPS」、さらには「SPECint・SPECfp」。——どれも“速さ”を連想させますが、示している対象・前提・計測法はまったく違います。今回のファクトチェックでは各単位の定義と使われ方、最新の代表例(RTX 4090、H100、Jetson AGX Orin、TPU v5e、スーパーコンピュータTOP500など)を一次情報にあたり直して検証しました。本レポートはその結果を踏まえ、「数字が踊らない」実務の読み替え法を体系化したものです。特に精度(FP64/FP32/FP16/BF16/FP8/INT8)の違い、演算種別(浮動小数 vs 整数)ベンチマークの指標差(HPL/LINPACK、MLPerf、SPEC)メモリ帯域・I/Oの律速を軸に整理します。(ウィキペディア)


1. 単位の基礎と“何を測っているのか”

1.1 FLOPS(Floating-point Operations Per Second)

FLOPSは浮動小数点演算の「回数/秒」を表す単位です。スカラーかベクトル(SIMD/Tensor)か、精度(例:FP64/FP32/FP16/FP8)によって意味合いが異なります。一般に科学技術計算ではFP64(倍精度)が重視され、機械学習ではFP32/TF32/FP16/BF16/FP8など低精度系のスループット指標が用いられます。SI接頭語としてTFLOPS(10^12)、PFLOPS(10^15)、EFLOPS(10^18)等が使われます。同じ装置でも精度が変わればFLOPS値は大きく変わる点が出発点です。(ウィキペディア)

1.2 TOPS(Tera-Operations Per Second)

TOPSは「(しばしば整数の)演算回数/秒」の指標です。AIアクセラレータではINT8INT4の積和演算スループットをTOPSで示すことが多く、疎行列(sparsity)を有効化した“理論値”が混在するケースもあります。浮動小数点のFLOPSと整数のTOPSは原理的に比較不能であり、同一精度・同一前提(疎/密、データ型)でのみ比較すべきです。NVIDIAの製品仕様でも、INT8/INT4のTOPSに「* with sparsity」注記が並ぶことが典型です。(NVIDIA)

1.3 IOPS(Input/Output Operations Per Second)

IOPSはストレージI/Oの“操作回数/秒”で、CPU/GPUの演算性能とは別物です。ブロックサイズ、読み書き比率、アクセスパターン(ランダム/シーケンシャル)、キュー深度、ネットワーク段数などで大きく変動します。「小ブロック×ランダムI/Oで高IOPS」でも「大ブロック×シーケンシャルで高スループット(MB/s)」とは限らない——指標の対象が異なる点に注意が必要です。

1.4 MIPS(Million Instructions Per Second)

MIPSは命令実行回数/秒ですが、命令セットや命令の“重さ”が異なると同じ1命令でも仕事量は違うため、実効性能の比較指標としては古くから問題視されています。浮動小数主体の科学技術計算には不向きで、現代では一般的な総合評価には適しません。(AMD)

1.5 SPEC(Standard Performance Evaluation Corporation)

SPECは非営利のベンチマーク団体で、SPEC CPU 2017などの標準化ベンチマークを提供・公開しています。結果は公開審査を経て比較可能性が担保されます。SPECはCPUやコンパイラ・メモリ階層を含む“実アプリ系”の負荷で相対評価できる点が長所です。(spec.org)


2. 「数字の罠」——なぜ単純比較してはいけないのか

2.1 精度(FP64/32/16/BF16/FP8)で“桁違いに”変わる

同じGPUでも**FP64(科学計算)FP8(生成AI向け推論/学習)**ではFLOPS値が桁違いに異なります。例えばNVIDIA H100(SXM)では、FP64 34 TFLOPSTF32 Tensor Core 989 TFLOPSFP8 Tensor Core 3,958 TFLOPSと、精度により見える“強さ”がまるで変わります。どの精度のFLOPSかを揃えずに比べるのは誤りです。(NVIDIA)

2.2 FLOPSとTOPSは原理的に別物

FLOPS=浮動小数点、TOPS=(多くは)整数。AI推論のカタログ値ではINT8 TOPSが大きく見えますが、FP16/BF16/FP8中心の学習タスクや、FP64が要る科学計算とは土俵が違う疎行列最適化(sparsity)込みの数字が並ぶこともあり、前提を明示しないTOPS比較は危険です。(NVIDIA)

2.3 ベンチマークの“物差し”が違う

HPL/LINPACKは行列演算に最適化されたベンチで、TOP500はFP64のHPL実効値(Rmax)でランキングします。HPC用途の代表指標として有用ですが、アプリ全般の体感性能と一致するとは限らない。一方、**MLPerf(MLCommons)**は学習/推論の標準ワークロードで比較可能性を高めますが、対象はAI中心です。目的に合う物差しを選ぶ必要があります。(netlib.org)

2.4 メモリ帯域・算術強度(Roofline)の壁

演算器がどれだけ速くても、HBM/DDRやインターコネクトの帯域キャッシュ効率がボトルネックになれば性能は頭打ちになります。Rooflineモデルは、演算強度(Flop/Byte)とメモリ帯域の関係でアプリの律速を可視化する枠組みです。“理論FLOPSが高い=実アプリが速い”とは限らない——帯域・局所性の設計が鍵です。(People @ EECS)


3. 代表デバイスで読み解く「カタログ値と実像」

3.1 GeForce RTX 4090(Ada)

NVIDIA公式スペックではShader 83 TFLOPS / RT 191 TFLOPS / Tensor(AI)1,321 AI TOPSが掲載されています。さらにAdaアーキテクチャ資料ではFP8で約1.3 PFLOPS相当の推論性能に触れています。同じ4090でも“何の精度・何の演算か”で数値の尺度がまるで違うことが分かります。ゲーミングやDNN推論寄りの数字(Tensor/RT/AI TOPS)と、科学計算寄りのFP64は別世界です。(NVIDIA)

3.2 NVIDIA H100(Hopper)

H100(SXM)公式スペック表ではFP64 34 TFLOPS、TF32 989 TFLOPS、FP8 3,958 TFLOPS、HBM帯域 3.35 TB/sなどが明記されています。FP64の科学計算、TF32/FP16/BF16の学習、FP8/INT8の推論と、精度別の“得意分野”が同じGPU内で分かれるのが最新アクセラレータの特徴です。(NVIDIA)

3.3 Jetson AGX Orin(エッジAI SoM)

NVIDIAのテクニカルブリーフでは「最大275 TOPS」と記載されています。これはINT8想定のエッジ推論のピーク理論値で、FP16/FP32のFLOPSやFP64の科学計算と比較はできません。エッジのレイテンシ/消費電力制約の文脈で解釈すべき指標です。(TOP500)

3.4 Google Cloud TPU v5e

Google Cloudの公式ドキュメントでは**「1チップあたりBF16で最大197 TFLOPS」等のスペックが示されます。TPUは行列演算(GEMM)特化**で、学習/推論での実効性能はネットワークリンクやソフト最適化にも強く依存します。BF16やINT8など“どの精度でのTFLOPS/TOPSか”の前提が不可欠です。(TOP500)

3.5 AMD EPYC 9754(Bergamo)

AMDの公式ページはコア数/周波数/キャッシュ/メモリチャネル等を提示しますが、CPUの「公式FLOPS」値は一般に提示しません。CPUの浮動小数性能はAVX幅やFMA、クロック、メモリ階層、さらにアプリの命令mixに左右されるため、単一のFLOPSカタログ値で比較する文化は薄いのが実情です。比較にはSPEC CPUHPCG等のベンチ結果を参照するのが実務的です。(AMD)

3.6 Intel Core i9-14900K

Intel ARKはP/Eコア構成・最大周波数・TDPなどの仕様を提供しますが、FLOPSの公称値は提示しません。市中の「○○GFLOPSでCPU≒GPU」的な断片比較は命令mix・SIMD活用度・メモリ帯域の影響を無視しており、誤解を招きやすい。CPUの総合比較はSPEC CPUや実アプリのベンチで行うのが筋です。(AMD)


🧮 コンピュータ計算性能比較表(2025年時点)

分類名称種別理論性能(FP32, FLOPS)AI性能(TOPSなど)備考
💻 一般GPUNVIDIA RTX 4090コンシューマGPU約 83 TFLOPS約 1,321 TOPS(INT8)ゲーミング最上位・AI推論でも高性能
💼 データセンターGPUNVIDIA H100サーバーGPU約 67 TFLOPS(FP64)≈ 1,000 TFLOPS(FP8 AI)約 4,000 TOPS(FP8)ChatGPTなど大規模AIの学習に使用
⚙️ AIチップNVIDIA Jetson OrinエッジAI SoC約 5 TFLOPS(FP16)約 275 TOPS(INT8)小型ロボット・IoT用
🧠 AI専用チップGoogle TPU v5e専用AIアクセラレータ約 250 TFLOPS(BF16)/チップ数千TOPS(クラスタ構成)GeminiなどGoogle AIで使用
🏢 サーバーCPUAMD EPYC 9754 “Bergamo”CPU約 4 TFLOPS(FP64)128コア/サーバー用途
🏠 デスクトップCPUIntel Core i9-14900KCPU約 1 TFLOPS(FP32換算)ハイエンドPC向け
🧬 スーパーコンピュータ富岳(Fugaku)スーパーコンピュータ約 537 PFLOPS(FP16)約 21 PFLOPS(FP64)約 2,000 PFLOPS(AI換算)2020年世界一。理研+富士通開発
🌌 スーパーコンピュータFrontier(米国)スーパーコンピュータ約 1.1 EFLOPS(FP64)約 5 EFLOPS(AI換算)現世界最速(2025年TOP500第1位)

4. 「世界最速」は何で決まる?——TOP500(HPL/LINPACK)の見方

2025年6月のTOP500では、El Capitan(LLNL)が1.742 EFLOPS(HPL/FP64 Rmax)で1位を維持し、Frontier(ORNL)が1.353 EFLOPS、Aurora(ANL)が1.012 EFLOPSで続きます。Fugaku(理研R-CCS)は442 PFLOPS。ここで使われる指標はFP64のHPL実効性能で、HPCの線形代数系タスクに強いシステムが上位に来る傾向があります。AI推論のTOPSの多寡やゲーム用TFLOPSとは無関係である点に注意してください。(TOP500)

重要:TOP500は**“ある種の計算(HPL)”に最適化した到達性能の比較であり、あなたのアプリで同じ順位になるとは限りません。AIでの比較はMLPerf**、ストレージはIOPS/スループット/レイテンシなど、適切な物差しを選ぶのが鉄則です。(netlib.org)


5. 実務のための「読み替え」レシピ

5.1 まず“単位の地図”を描く

  1. 科学技術計算(HPC)FP64 FLOPSHPL/HPCG/アプリ固有ベンチ
  2. 機械学習・学習(Training)TF32/FP16/BF16/FP8のFLOPSMLPerf Training
  3. 機械学習・推論(Inference)INT8/INT4 TOPSFP8/FP16スループットMLPerf Inference
  4. データ処理/ETL/分析メモリ帯域・I/Oスループット、GPUではHBM帯域も必須。
  5. ストレージ/DB/仮想化IOPS/MB/s/レイテンシ、キュー深度・ブロックサイズを明示。(spec.org)

5.2 精度・演算種別・疎密の前提を「必ず」合わせる

  • FLOPSを比べるなら精度を合わせる(FP64同士、FP16同士…)
  • TOPSは整数演算(INT8/INT4)が前提疎行列有効か否かの注記に目を凝らす。
  • **ミックス精度(FP8⇄FP16のaccumulateなど)**は実アプリ性能で効くが、カタログの表記ゆれに注意。(NVIDIA)

5.3 屋根(演算ピーク)を見る前に“床”(帯域)を見る

  • HBM帯域(H100: ≈3.35 TB/s)やPCIe/NVLinkノード間のInfiniBand/Slingshotなど、データ供給側が足を引っ張れば演算ピークは出ません。まずRooflineで想定する算術強度を見積り、帯域律速計算律速かを判断。(NVIDIA)

5.4 ベンチは“科目別”に

  • HPLは行列演算系の強さ。
  • HPCGはメモリアクセス律速タスクに近い。
  • MLPerfは学習/推論の“実アプリ系”比較。
  • SPEC CPUはCPU中心の“実アプリ系”比較で、コンパイラ/メモリ階層の影響含み。用途に合わせて科目を選ぶ。(netlib.org)

5.5 「CPU vs GPU vs 専用アクセラレータ」の地平

  • CPUは汎用性・制御・分岐に強い。FLOPS公称値ではなくSPEC/実アプリで見る。
  • GPUは大規模並列の行列演算(GEMM)に圧倒的。精度別FLOPS/帯域の把握が要。
  • TPU/NPUsは行列特化。ソフト最適化/ネットワークの出来が効く。(spec.org)

6. ケースで学ぶ「誤読の修正」

ケースA:AI推論の装置選定

誤読:「TOPSが高い装置=LLM推論が常に速い」
修正トークン生成はメモリ帯域/キャッシュ局所性の影響が大きく、HBM帯域KVキャッシュの実装バッチ/並列度でスループットが決まる。INT8/FP8の量子化は効くが、精度劣化モデル適合の検討が必要。装置比較はMLPerf Inference実運用ワークロードで再現する。(NVIDIA)

ケースB:HPCジョブの時間短縮

誤読:「GPUの“PFLOPS級”だからHPCも全部速い」
修正:HPCアプリでも疎行列・間接参照・通信律速ではHPLの達成率が伸びないHPCGやアプリ固有ベンチでの効率(% of peak)を見る。NVLink/InfiniBand/Slingshot等の通信階層の設計が性能を左右。(netlib.org)

ケースC:エッジAIの部材選定

誤読:「Jetsonの275 TOPS=クラウドと同等の学習性能」
修正:**エッジは推論用TOPS(INT8)**が中心。学習(Training)は帯域・電力・冷却の制約が厳しく、**クラウド(H100/TPU)**やオンプレGPUとの役割分担が現実的。(TOP500)


7. 最新ランキングを“正しく”読む

  • 2025年6月 TOP500(HPL/FP64)
    1位 El Capitan 1.742 EFLOPS、2位 Frontier 1.353 EFLOPS、3位 Aurora 1.012 EFLOPS、Fugaku 442 PFLOPS。これはあくまでFP64のLINPACK性能であり、AI推論やビッグデータ処理の速さと同義ではないAIならMLPerfI/OならIOPS/MB/s/レイテンシを見る。(TOP500)
  • LLM/生成AIのカタログ
    RTX 40901,321 AI TOPSFP8 ~1.3 PFLOPS相当が強調され、H100FP8/TF32/FP16/BF16で極めて高いスループットを持つ。“AIの速さ”を語る数字は整数系TOPSや低精度FLOPSが中心で、FP64ベースのTOP500とは別世界。(NVIDIA)

8. 実務チェックリスト(配布用)

  1. 対象タスクは何か?(HPC/学習/推論/ETL/DB/可視化)
  2. 指標は適切か?(FP64 FLOPS、TF32/BF16/FP8 FLOPS、INT8 TOPS、IOPS/MB/s、SPEC/MLPerf/HPL)
  3. 精度・演算種別を合わせたか?(FP64同士、INT8同士、疎/密、スパース有無)
  4. 帯域・レイテンシを見たか?(HBM/PCIe/NVLink/InfiniBand/Slingshot、メモリ階層、ストレージ/ネットワーク)
  5. 実アプリでの効率を測ったか?(Rooflineで律速確認、MLPerf/HPCG/アプリ固有ベンチ)
  6. 運用制約を織り込んだか?(電力・冷却・フォームファクタ・資本/運用コスト) (People @ EECS)

9. 代表データ抜粋(参照元付き)

  • RTX 4090(Ada):CUDA 16384、Shader 83 TFLOPSRT 191 TFLOPSTensor(AI)1,321 AI TOPS。Ada資料ではFP8で約1.3 PFLOPS相当。→ 「グラフィックス/AI向け指標」中心。(NVIDIA)
  • H100(SXM)FP64 34 TFLOPSTF32 989 TFLOPSFP8 3,958 TFLOPSHBM帯域 3.35 TB/s(公式スペック表)。→ 精度別のベンチマーク読み替えが必須。(NVIDIA)
  • Jetson AGX Orin最大275 TOPS(INT8想定)。→ 推論指標。学習・FP64とは別土俵。(TOP500)
  • TPU v5eBF16で最大197 TFLOPS/チップ(Cloud公式)。→ 学習/推論の行列特化。(TOP500)
  • TOP500(2025/06):El Capitan 1.742 EFLOPS(FP64/HPL)。→ **HPLでの“世界最速”**の定義。(TOP500)
  • SPEC CPU 2017実アプリ系CPUベンチ、公開データベースとルールで比較可能性を担保。(spec.org)
  • IOPSの定義と落とし穴IO操作回数/秒。ブロックサイズやキュー深度で値が大きく変わる。

10. よくあるQ&A

Q1:TOPSが高い装置は学習も速い?
A:No。TOPSは主にINT8推論のピーク指標。学習はTF32/FP16/BF16/FP8のFLOPSメモリ帯域分散通信の設計が支配します。(NVIDIA)

Q2:HPL上位なら生成AIも最強?
A:直結しません。HPLはFP64の行列演算最適化指標。プロファイルして律速(帯域/通信/カーネル)を見極め、MLPerfや実タスクで評価しましょう。(TOP500)

Q3:CPUのFLOPSカタログが見つからない
A:普通は出ません。CPUは命令mix/コンパイラ/メモリ階層で変動が大きいので、SPEC CPU等の実アプリ系ベンチが参照基準です。(spec.org)

Q4:IOPSが高ければ分析基盤は速い?
**A:用途次第。**ランダム小ブロックに強いIOPS構成が、**大ブロック順次読み出し(スループット重視)**に最適とは限りません。


11. まとめ:数字を“並べる”から“読み解く”へ

  • 同一前提・同一精度・同一演算種別で比較する。
  • FLOPSとTOPSは別世界。疎/密、有効化機能の注記を読む。
  • ベンチの科目(HPL/HPCG/MLPerf/SPEC)と実アプリを対応付ける。
  • Rooflineで律速を可視化し、帯域/通信/メモリをまず整える。
  • ランキング(TOP500)やカタログ値は“適切な場面での指標”として使い、鵜呑みにしない

最後に、装置の“速さ”はタスクとコードが引き出すものです。数字の読み方を正すことで、予算・電力・設置制約の中でもっとも成果の出る構成を選べます。本レポートが、今後の評価・調達・最適化の「共通言語」として役立てば幸いです。(People @ EECS)


参考出典(本文内で主要箇所に引用済み)

  • FLOPSの定義・SI接頭語:Wikipedia「Floating point operations per second」。(ウィキペディア)
  • HPL/LINPACK(TOP500の基準):Netlib HPL。(netlib.org)
  • MLPerf(AIの標準ベンチ):MLCommons(サイト/結果)。(Intel)
  • SPEC(組織・CPU2017概要・結果DB):SPEC公式。(spec.org)
  • IOPS定義と注意点:SNIAスライド。
  • RTX 4090仕様・AI TOPS・FP8トピック:NVIDIA公式ページ/アーキ資料。(NVIDIA)
  • H100公式スペック表(精度別FLOPS/帯域):NVIDIA公式。(NVIDIA)
  • Jetson AGX Orin(最大275 TOPS):NVIDIA技術ブリーフ。(TOP500)
  • Google Cloud TPU v5e(BF16 TFLOPS):Google Cloud公式。(TOP500)
  • TOP500(2025年6月):El Capitan/Frontier/Aurora/Fugaku。(TOP500)
  • MIPS批判・命令あたり仕事量の差:Wikipedia「Instructions per second」。(AMD)
  • Rooflineモデルの基礎:Williamsら(Roofline Model)。(People @ EECS)

付記:
本稿は2025年10月時点の一次情報(ベンダー公式資料、標準化団体、学術・公的リソース、TOP500公式等)を再確認して記述しました。ランキングや製品仕様は更新されるため、調達直前には最新の公式ページと用途適合ベンチ(SPEC/MLPerf/HPL/HPCG/アプリ固有)の再確認を推奨します。(TOP500)