SparseFormerアーキテクチャの技術:視覚認識におけるパラダイムシフト

序論
本レポートは、ユーザーからの「GoogleのSparseFormerアーキテクチャー」に関する問い合わせに応え、当該アーキテクチャの技術的詳細、性能、およびコンピュータビジョン分野における位置づけを網羅的に解説するものである。まず、本アーキテクチャの帰属について明確化することが重要である。ユーザーはGoogleとの関連性を示唆したが、視覚認識のための主要なSparseFormerアーキテクチャは、シンガポール国立大学(NUS)、Tencent AI Lab、Ant Group、南京大学の研究者らによる共同研究の成果である 1。Googleとの関連性は、SparseFormerがGoogleによって普及したVision Transformer (ViT) のような「密な(dense)」処理パラダイムに対する概念的な挑戦者として位置づけられる点にある 6。
本レポートの中心的な論点は、SparseFormerが単なる既存モデルの漸進的な改良ではなく、コンピュータビジョンにおける支配的な「密な処理」パラダイムへの根本的な挑戦であるという点にある 2。人間の視覚が持つスパース(疎)で注意駆動型の特性を模倣することにより、SparseFormerは極めて効率的でスケーラブルな視覚認識モデルへの新たな道筋を提示している 1。
本レポートは以下の構成で展開される。まず、SparseFormerが登場する背景となった従来の密なパラダイムとその課題を概説する。次に、SparseFormerの根底にある生物模倣的な哲学と、その中核をなすアーキテクチャの技術的詳細を深掘りする。続いて、ベンチマークデータを用いた実証的な性能評価、そしてモデルのスケーリング課題を克服した画期的な「ブートストラッピング」手法について詳述する。さらに、画像分類以外のタスクへの応用可能性と、査読プロセスで指摘された限界点を考察し、最後に開発者向けの実践的なリソースを紹介することで、SparseFormerに関する包括的な理解を提供する。
第1章:主流である密なパラダイムとその内在的コスト
現代のコンピュータビジョン分野は、畳み込みニューラルネットワーク(CNN)やVision Transformer(ViT)に代表される「密なパラダイム」に基づいたアーキテクチャによって支配されてきた。このパラダイムの基本原則は、画像内のすべての視覚単位、すなわちピクセルやパッチを網羅的に走査し、一様に処理することにある 1。このアプローチは、画像内のどの空間的位置にも重要な前景オブジェクトが現れる可能性があるという仮定に基づいた、古典的なスライディングウィンドウ手法の思想を継承している 2。このため、モデルは画像全体に対して均質な演算を適用することが求められる。
しかし、この密なアプローチには、計算効率とスケーラビリティの観点から重大な欠点が付随する。第一に、計算資源の冗長性である。画像内の大部分を占めることが多い、情報量の少ない背景領域に対しても、前景オブジェクトと同様の計算コストをかけて処理が行われる。これは本質的に非効率なプロセスである 2。
第二に、スケーリングの問題である。特に、ViTにおける自己注意(self-attention)機構の計算量が入力パッチ数の二乗に比例して増加する(O(N2))ため、入力画像の解像度が高くなるにつれて、計算コストとメモリフットプリントは爆発的に増大する 2。これにより、高解像度画像の処理は、多くの実用的なシナリオにおいて法外なコストを要するものとなっている。
これらの課題は単なる技術的な最適化の問題に留まらない。密なパラダイムの根底にある問題は、生物学的な視覚システムとの哲学的な不一致にある。人間の視覚は、受動的に視野全体の情報を均質に処理するグリッドスキャンではなく、能動的かつスパースなサンプリングプロセスである 1。生物システムが進化の過程で回避してきた非効率性を、現在の主要なAIモデルはアーキテクチャ上の選択として採用してしまっている。この認識は、効率化の探求を単なる工学的最適化から、生物模倣的なアーキテクチャの再設計という、より根源的な挑戦へと昇華させる。SparseFormerは、まさにこの哲学的転換点から生まれたアーキテクチャであると言える。
第2章:SparseFormerの哲学:視覚への生物模倣的アプローチ
SparseFormerの設計思想の根源には、人間の視覚システムへの深い洞察がある。人間は、シーンを認識する際に、視野内のすべての詳細を同時に処理しているわけではない。代わりに、サッカードと呼ばれる高速な眼球運動を通じて、情報量が多い、あるいは顕著な関心領域(Region of Interest, RoI)に視線を次々と向ける「瞥見(glimpse)」によって情報を収集する 1。
SparseFormerは、この概念を計算モデルとして具現化する。その核心は、計算の主戦場を密なピクセル空間から、スパースな潜在空間(latent space)へと移行させることにある。数百から数千の画像パッチを処理する代わりに、画像全体を表現するために、ごく少数の固定された「潜在トークン」のみを使用する。その数は、標準的なモデルで81個、最小構成ではわずか9個にまで削減される 2。
この潜在空間を利用するアプローチは、DeepMindのPerceiverのようなモデルとも共通点を持つが、SparseFormerを決定的に特徴づけるのは、その画像空間との相互作用の方法にある。Perceiverが画像特徴と潜在トークン間の相互作用に密なクロスアテンションを用いるのに対し、SparseFormerは独自に考案した「スパース特徴サンプリング」機構を採用している 2。これにより、画像空間へのアクセスコストが根本的に効率化される。Perceiverの計算量が画像の高さと幅に依存する
$O(H \cdot W \cdot C)$であるのに対し、SparseFormerはトークン数$N$とサンプリング点数Pにのみ依存する$O(N \cdot P \cdot C)$となり、入力解像度の影響を受けない 2。
このアーキテクチャがもたらす最も重要な革新は、意味表現と空間的位置の分離である。各潜在トークンは、「何を探すべきか」(意味的埋め込み)と「どこを探すべきか」(RoI記述子)という2つの責務を同時に担う 2。この二重の役割分担により、モデルは限られた計算リソースを、画像内で最も情報価値の高い領域に動的に割り当てることが可能になる。モデルはまず「どこを見るべきか」という問題を解き、その後に「何を見ているのか」という問題を解く。この処理の分離と逐次的な実行は、中心窩を持つ人間の視覚システムと直接的に類似しており、極端なトークン削減を可能にする中核的なメカニズムとなっている。
第3章:アーキテクチャの深層:スパース認識のメカニズム
3.1. 全体フレームワーク
SparseFormerのアーキテクチャは、大きく3つのコンポーネントで構成される。まず、入力画像は軽量なCNNステムを通過し、初期的な特徴マップが抽出される 1。この特徴マップを対象に、後続の2つの主要なTransformerモジュールが動作する。
- Focusing Transformer: モデルの「能動的視覚」を担う部分であり、スパースな特徴抽出とRoIの動的な調整を担当する。
- Cortex Transformer: モデルの「認知的処理」を担う部分であり、Focusing Transformerによって抽出・洗練されたスパースな情報に基づいて、高レベルな推論を行う。
この一連の流れにより、モデルは画像全体を密に処理することなく、少数のトークンを用いて効率的に認識タスクを遂行する。
3.2. Focusing Transformer:スパース性のエンジン
Focusing Transformerは、SparseFormerの効率性を支える心臓部であり、その動作はいくつかの独創的なメカニズムに基づいている。この詳細な仕組みは、論文で詳細に解説されている 2。
潜在トークンとRoI
モデルは、N個の潜在トークンを保持する。各トークンは単なるベクトルではなく、d次元の意味的埋め込みベクトルと、画像の正規化座標系における幾何学的なRoI記述子 (x, y, w, h) から構成される複合的なエンティティである。これらのトークンとRoIは、モデルの学習可能なパラメータとして、訓練開始時に初期化される 2。
スパース特徴サンプリング
これは、密な走査を伴わずに画像から特徴を抽出するための核心的な技術である。
- サンプリング点の生成: 各トークンは、自身の現在のRoIを基準として、P個のサンプリング点を生成する。これらの点のRoI中心からの相対的なオフセットは、トークンの意味的埋め込みベクトルを入力とする学習可能な線形層によって動的に決定される 2。
- バイリニア補間: モデルは、生成されたサンプリング点の絶対座標に基づき、CNNステムが出力した特徴マップから、バイリニア補間を用いて直接特徴をサンプリングする。この明示的な座標指定によるサンプリングこそが、グリッド状の密な演算を回避し、計算量を入力画像の解像度 H x W から独立させる決定的なステップである 1。
反復的なRoI調整
このメカニズムにより、モデルは注意を動的に顕著な領域へと集中させることができる。Focusing Transformerの各ステージで、トークンはサンプリングした特徴を用いて自己注意機構により埋め込みを更新する。その後、更新された埋め込みベクトルが別の線形層に入力され、現在のRoIに対する調整デルタ (Δtx, Δty, Δtw, Δth) が予測される 1。このデルタを用いてRoIが更新されることで、トークンは数回の反復を経て、徐々に前景オブジェクトに焦点を合わせていく。特筆すべきは、このRoI調整プロセスが、物体検出タスクのように明示的な位置監督信号(バウンディングボックス等)を必要とせず、最終的な分類損失のみを逆伝播させることでエンドツーエンドで学習される点である 1。
このアーキテクチャは、効果的な内部フィードバックループを形成している。シーンの現在の理解状態(トークンの埋め込み)が、次にどこを見るべきか(RoIの調整)を決定し、新たに見えたもの(サンプリングされた特徴)が、その理解をさらに洗練させる。この「見て、考えて、次にどこを見るかを決める」という反復的な洗練プロセスこそが、SparseFormerがごく少数のサンプルからでも包括的なシーン表現を構築できる理由である。
3.3. Cortex Transformer:深層的な潜在空間処理
Cortex Transformerは、標準的な深層Transformerエンコーダであり、アーキテクチャ的には目新しさはない 2。その役割は、Focusing Transformerによる数段階の反復を経て最終的に洗練された
N個の潜在トークンの埋め込みベクトルを受け取り、それらの間で複雑な相互作用と特徴変換を行い、最終的な分類に必要な高レベルな表現を生成することにある。このモジュールはモデルのパラメータと計算の大部分を占めるが、処理対象が常に少数のN個のトークン(例:N=81)に限定されているため、標準的なViTがH/16×W/16個ものパッチトークンを処理するのに比べて、その計算コストは劇的に低減される 2。
第4章:実証的分析:効率性の最前線における性能
SparseFormerの概念的な優位性を具体的な数値で裏付けるため、本章では画像認識分野の標準的なベンチマークであるImageNet-1Kデータセットにおける性能を、既存の密なモデルと比較・分析する。
4.1. ImageNet-1Kベンチマーク比較
SparseFormerの有効性を評価するため、その性能をDeiTやSwin Transformerといった確立されたモデルと比較する。以下の表は、精度、計算コスト(FLOPs)、モデルサイズ(パラメータ数)、そして実用的な処理速度(スループット)という複数の重要な指標をまとめたものである。この表は、SparseFormerが提唱する「より好ましい精度とスループットのトレードオフ」2という主張を定量的に検証するための強力な証拠となる。
| モデル | Top-1 精度 (%) | FLOPs (G) | パラメータ数 (M) | スループット (img/s) | 出典 |
| DeiT-S | 79.8 | 4.6 | 22 | 983 | 2 |
| Swin-T | 81.3 | 4.5 | 29 | 726 | 2 |
| SparseFormer-T | 81.0 | 2.0 | 32 | 1270 | 2 |
| DeiT-B | 81.8 | 17.5 | 86 | 306 | 2 |
| Swin-S | 83.0 | 8.7 | 50 | 437 | 2 |
| SparseFormer-B | 82.6 | 7.8 | 81 | 520 | 2 |
4.2. 効率性のフロンティアに関する分析
上記の表から、SparseFormerの卓越した効率性が明確に読み取れる。
- **SparseFormer-T(Tinyモデル)**は、Swin-Tとほぼ同等のTop-1精度(81.0% vs 81.3%)を達成しながら、計算コスト(FLOPs)は半分以下(2.0G vs 4.5G)に抑え、スループットは70%以上も向上させている(1270 img/s vs 726 img/s)2。これは、同程度の性能を持つモデルを、より高速かつ低コストで実行できることを意味する。
- **SparseFormer-B(Baseモデル)**は、DeiT-Bを精度で上回り(82.6% vs 81.8%)、計算コストは半分以下(7.8G vs 17.5G)、スループットは70%近く高い(520 img/s vs 306 img/s)2。より大規模なモデルにおいても、SparseFormerのアーキテクチャが優れた効率性を維持していることが示されている。
これらの結果は、SparseFormerが既存のモデルとは異なる、より優れた効率性のフロンティア(efficiency frontier)上に位置していることを示唆している。特に、計算リソースが限られる低〜中程度の計算領域において、その優位性は際立っている 2。SparseFormerは、精度を犠牲にすることなく、計算効率を劇的に改善するという、コンピュータビジョン分野における長年の課題に対する有力な解決策を提示している。
第5章:ブートストラッピングによるスケーリング課題の克服
5.1. ブートストラッピングの論理的根拠
初期のSparseFormerは、推論時の効率性において画期的な成果を示した一方で、重大な課題も抱えていた。それは、モデルをゼロから訓練する(training from scratch)際の計算コストが非常に高く、より大規模なモデルへとスケールアップさせることが困難であるという点だった 11。実際、原論文で報告された最大のモデルは良好な性能を示したものの、当時の最先端(state-of-the-art)には及ばなかった 11。この事実は、SparseFormerのポテンシャルを最大限に引き出すための、より効率的な訓練・スケーリング戦略の必要性を示唆していた。
5.2. ブートストラッピングの方法論
この課題に応えるため、後続の研究(CVPR 2024で発表)では「ブートストラッピング」と名付けられた独創的な訓練手法が提案された 11。この手法は、大規模な事前学習済みVision Foundation Model(視覚基盤モデル)の知識を効率的にSparseFormerへと転移させるものであり、以下のステップで実行される 11。
- 重みの継承: まず、「教師」となる強力な事前学習済みViTモデル(例:AugReg-ViT-L、CLIP-ViT-L)を選定する。そして、そのモデルの標準的なTransformerブロックの重みを、SparseFormerのCortex Transformerブロックに直接コピーする 11。
- 凍結と微調整: 継承した重みの大部分、特にCortex Transformerの後方レイヤーは「凍結」され、訓練中に更新されないように設定される。前方から中間にかけての少数のブロックのみが更新可能な「微調整(tunable)」対象となる 11。一方で、SparseFormer固有のコンポーネントであるFocusing Transformerはランダムに初期化され、ゼロから学習される 11。
- 表現の整列: この手法の核心は、訓練目的にある。モデルは、ラベル情報を一切使用せず、画像データのみを用いて訓練される。目的関数は、同じ入力画像に対して、SparseFormerが出力する最終的なトークンの埋め込みと、凍結された教師モデルが出力するトークンの埋め込みとの間のコサイン類似度を最大化(コサイン距離を最小化)することである 11。これにより、SparseFormerは、はるかに少ないトークンを使いながら、教師モデルと同等の強力な表現を生成するよう学習を強いられる。
- 効率性: このプロセスは驚くほど効率的である。ゼロからの訓練が数十GPU日を要するのに対し、ブートストラッピングは少数のGPUを用いてわずか数時間で完了する 11。
5.3. ブートストラッピングの成果
ブートストラッピング手法は、SparseFormerの性能と実用性を飛躍的に向上させた。以下の表は、この手法の有効性を定量的に示している。この比較は、巨大な基盤モデルが持つ高い精度をほぼ維持したまま、推論速度と効率を劇的に改善できることを証明しており、SparseFormerが高性能な視覚モデルを実世界に展開するための実用的なツールとなり得ることを強く示唆している。
| モデル | Top-1 精度 (%) | 視覚トークン数 | スループット (img/s) | 出典 |
| AugReg-ViT-L/16 (教師) | 85.8 | 576 | 388 | 11 |
| SF-L@AugReg (生徒) | 84.5 | 49 | 1557 | 11 |
| SF-L@AugReg (生徒) | 85.5 | 80 | ~931 (2.4倍) | 11 |
この結果は、ブートストラッピングがSparseFormerを単なる学術的に新規なアーキテクチャから、実用的なモデル圧縮・高速化技術へと昇華させたことを物語っている。わずか49個のトークンを用いることで、教師モデルの精度を1.3%下回るだけで、スループットを4倍に向上させている。トークン数を80個に増やすと、精度の低下はわずか0.3%に留まり、スループットは2.4倍となる 11。この手法は、巨大で低速な基盤モデルの「知識」を、軽量で高速な特殊モデルへと「蒸留」する道筋を提供する。しかも、そのプロセスに元の訓練データセットのラベルを必要としないため、プライベートなデータで学習されたモデルに対しても適用できる可能性がある。ブートストラッピングは、最先端の研究(基盤モデル)と実用的な応用(高速推論)との間のギャップを埋める、強力な架け橋となる技術である。
第6章:汎化性能、応用、および批判的評価
6.1. 分類タスクを超えて
SparseFormerのスパースな設計思想は、画像分類以外のドメインにおいてもその価値を発揮する可能性を秘めている。
- 動画認識: 密な処理が画像以上に計算コストの問題となる動画ドメインは、SparseFormerの設計と自然に適合する。論文では、標準的な動画認識ベンチマークであるKinetics-400において、既存の密なモデルよりも低い計算コストで有望な性能を達成できることが示されている 1。
- 密な予測タスク: 論文の付録では、物体検出(MS COCO)やセマンティックセグメンテーション(ADE20k)といった、ピクセルレベルの密な予測が求められるタスクへの適用も検討されている 2。特に、ブートストラッピングされたSparseFormerは、ADE20kにおいて51以上のmIoUを達成するなど、強力な性能を示している 11。
6.2. 査読による批判的評価
SparseFormerの評価を多角的に行うため、査読プロセスで示された専門家の意見を分析することは有益である 10。
- 長所(Strengths): 査読者は一貫して、そのアーキテクチャの新規性、堅実な性能、低いメモリフットプリント、そして高いスループットを高く評価した。特に、その効率性と実用性が大きな利点として挙げられている 10。
- 短所および懸念点(Weaknesses/Concerns): 一方で、いくつかの重要な懸念も指摘された。最も大きな懸念は、複雑な密な予測タスクへの汎化性能であった。査読者は、スパースな注意機構というモデルの本質が、正確な空間的位置特定に必要な特定種類の長距離依存関係を捉える能力を制限する可能性があると指摘した。セグメンテーションや検出タスクにおける性能は有望であるものの、依然として最先端の密なモデルには及ばないと評価された 10。また、RoI調整メカニズムがピクセルレベルの正確性を要求されるタスクに対して、強力な空間的監督なしに学習される点も、潜在的な弱点として挙げられた 10。
これらの評価から、SparseFormerに内在するアーキテクチャ上のトレードオフが浮かび上がる。分類タスクにおける強み、すなわち無関係な背景情報を無視する能力は、シーンのすべての文脈情報が重要となり得る密な予測タスクにおいては、潜在的な弱点となり得る。モデルは意味的な「認識」に最適化されており、必ずしも包括的な「シーン理解」に最適化されているわけではない。この設計上の選択が効率性をもたらす一方で、密な情報が不可欠なタスクでの性能を制限する要因となっている。これはモデルの欠陥というよりは、利用者が理解すべき根本的な設計上のトレードオフである。
第7章:「SparseFormer」という名称:必要な明確化
AI研究の急速な進展に伴い、示唆に富むモデル名が複数の異なる研究プロジェクトで独立して使用されることがある。「SparseFormer」もその一例であり、ユーザーの混乱を避けるために、本レポートで扱う視覚認識モデルと、同名でありながら関連のない他のアーキテクチャとを明確に区別する必要がある。
- 医療時系列データ向け: 医療時系列(MedTS)分類のために設計されたモデル。マルチグラニュラリティ(多粒度)のトークン・スパース化を用いる 17。
- 高解像度画像からの物体検出向け: 高解像度で広角な(HRW)ショットからの物体検出に特化したモデル。オブジェクトが存在しそうなスパースなウィンドウに対して注意トークンを選択的に使用する 18。
- 深度補完向け: SfM/SLAMパイプラインから得られるスパースな3Dマップを、RGB画像をガイドに密な深度マップへと変換するための注意ベースのネットワーク 20。
これらのモデルは、それぞれが「スパース性」という概念をTransformerアーキテクチャに応用している点で共通しているが、対象とするタスク、技術的アプローチ、そして研究チームは全く異なる。このように、同じ名称が異なる文脈で再利用される現状は、科学文献における明確性を維持するために、本レポートのような正確な文書化と引用の重要性を浮き彫りにしている。
第8章:実践的な実装とリソース
SparseFormerを実際に利用しようとする開発者や研究者向けに、公式なリソースが提供されている。
公式GitHubリポジトリ
開発の中心となっているのは、github.com/showlab/sparseformerで公開されている公式リポジトリである 11。このリポジトリには、モデルのソースコード、事前学習済みモデルの重み、そして利用ガイドが含まれている。
利用ガイド
リポジトリで提供されているライブラリを用いることで、SparseFormerを容易に利用することができる 21。
- インストール: リポジトリのルートディレクトリで以下のコマンドを実行することで、ライブラリとしてインストールできる。
pip install -e. - 事前学習済みモデルの読み込み: create_modelファクトリ関数を用いることで、事前学習済みモデルを簡単にインスタンス化できる。これには、初期のv1モデルの重みと、より新しく強力なブートストラッピング済みモデルの重みの両方が含まれる。
Python
from sparseformer.factory import create_model
# ブートストラッピング済みのCLIP-Largeベースのモデルをダウンロードして読み込む
model = create_model(“sparseformer_btsp_openai_clip_large”, download=True) - 高度な利用法: このコードベースは、広く使われているtimmライブラリのViTモデルの重みと互換性があるように設計されている。これにより、ユーザーは独自のSparseFormerバリアントを定義し、timmで提供されている他の事前学習済みViTモデルの重みを読み込んで実験することが可能である 21。
- 動画とメディア: MediaSparseFormerという実装が提供されており、画像と動画の両方を統一的に扱うことができる。画像は単一フレームの動画として処理される 21。
これらのリソースにより、研究コミュニティはSparseFormerの追試や、さらなる応用研究を容易に行うことができる。
結論と今後の展望
SparseFormerは、コンピュータビジョンにおける支配的な密な処理パラダイムに挑戦し、人間の視覚システムから着想を得たスパースなアプローチを提案した。その核心的な貢献は、以下の3点に集約される。
- パラダイムの転換: 密なグリッド走査を回避し、少数の潜在トークンと動的な関心領域(RoI)調整に基づく、計算効率に優れた新たな視覚認識の枠組みを提示した。
- 独創的なアーキテクチャ: スパース特徴サンプリングと反復的なRoI調整を担うFocusing Transformerという新規コンポーネントを導入し、効率と性能を両立させた。
- 実用性の確立: ブートストラッピング手法により、大規模な基盤モデルの知識を効率的に転移させる道筋を示し、学術的な新規性だけでなく、実用的なモデル高速化・圧縮技術としての価値を確立した。
本アーキテクチャは、「視覚モデリングの代替的な方法」8を提供し、今後のスパースなニューラルアーキテクチャ研究を触発する可能性を秘めている。今後の研究の方向性としては、密な予測タスクにおける性能限界を緩和するためのアーキテクチャ改良や、スパース性の哲学を視覚以外のドメインへ応用することが考えられる。特に、ブートストラッピングされたSparseFormerは、マルチモーダル大規模言語モデル(MLLM)において、効率的な視覚エンコーダとして機能することが期待されており 14、AIモデル全体の効率化と高性能化に貢献する重要な要素となるだろう。SparseFormerは、効率性と生物学的妥当性を追求する次世代AIアーキテクチャの探求において、重要な一歩を記したと言える。
引用文献
- Meet SparseFormer: A Neural Architecture for Sparse Visual Recognition with Limited Tokens – MarkTechPost https://www.marktechpost.com/2023/04/12/meet-sparseformer-a-neural-architecture-for-sparse-visual-recognition-with-limited-tokens/
- SPARSEFORMER: SPARSE VISUAL RECOGNITION VIA LIMITED … https://proceedings.iclr.cc/paper_files/paper/2024/file/f5537b8d8fd126c7fe9d7429b181b1eb-Paper-Conference.pdf
- 12th International Conference on Learning Representations (ICLR 2024) (Table of Contents) – Proceedings.com https://www.proceedings.com/content/074/074958webtoc.pdf
- 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2024) (Table of Contents) – Proceedings.com https://www.proceedings.com/content/076/076082webtoc.pdf
- CVPR 2024 – Table of Contents – shpylgoreih https://shpylgoreih.fr/documents/CVPR_2024_Table_of_Contents.pdf
- cmhungsteve/Awesome-Transformer-Attention: An ultimately comprehensive paper list of Vision Transformer/Attention, including papers, codes, and related websites – GitHub https://github.com/cmhungsteve/Awesome-Transformer-Attention
- SparseFormer: Sparse Visual Recognition via Limited Latent Tokens – ResearchGate https://www.researchgate.net/publication/369911977_SparseFormer_Sparse_Visual_Recognition_via_Limited_Latent_Tokens
- [2304.03768] SparseFormer: Sparse Visual Recognition via Limited Latent Tokens – arXiv https://arxiv.org/abs/2304.03768
- SparseFormer: Sparse Visual Recognition via Limited Latent https://iclr.cc/media/iclr-2024/Slides/19535_ujLRd6i.pdf
- SparseFormer: Sparse Visual Recognition via Limited Latent Tokens … https://openreview.net/forum?id=2pvECsmld3
- Bootstrapping SparseFormers from Vision … – CVF Open Access https://openaccess.thecvf.com/content/CVPR2024/papers/Gao_Bootstrapping_SparseFormers_from_Vision_Foundation_Models_CVPR_2024_paper.pdf
- Meet SparseFormer: A Neural Architecture for Sparse Visual Recognition with Limited Tokens | daily.dev https://app.daily.dev/posts/meet-sparseformer-a-neural-architecture-for-sparse-visual-recognition-with-limited-tokens-can9e9cj7
- ICLR Poster SparseFormer: Sparse Visual Recognition via Limited Latent Tokens https://iclr.cc/virtual/2024/poster/19535
- [2312.01987] Bootstrapping SparseFormers from Vision Foundation Models – arXiv https://arxiv.org/abs/2312.01987
- Bootstrapping SparseFormers from Vision Foundation Models – arXiv https://arxiv.org/html/2312.01987v2
- Trending Papers – Hugging Face https://paperswithcode.com/paper/sparseformer-sparse-visual-recognition-via
- [2503.15578] Sparseformer: a Transferable Transformer with Multi-granularity Token Sparsification for Medical Time Series Classification – arXiv https://arxiv.org/abs/2503.15578
- SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer – arXiv https://arxiv.org/abs/2502.07216
- [Literature Review] SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer – Moonlight https://www.themoonlight.io/en/review/sparseformer-detecting-objects-in-hrw-shots-via-sparse-vision-transformer
- [2206.04557] SparseFormer: Attention-based Depth Completion Network – arXiv https://arxiv.org/abs/2206.04557
- showlab/sparseformer: (ICLR 2024, CVPR 2024 … – GitHub https://github.com/showlab/sparseformer


