DINOは、Facebook AIが開発した、ラベルなし画像データでVisionTransformerを事前学習するためのシステムです。従来の教師あり学習とは異なり、ラベルなしデータのみを使用することで、画像の特徴表現を学習します。
DINOの特徴:
- 自己蒸留: 教師モデルと生徒モデルを用いた自己蒸留技術を使用します。教師モデルは、生徒モデルの指数移動平均で更新されます。
- データ拡張: 画像にカラージッター、ランダムクロップ、ソーラリゼーションなどの様々なデータ拡張を適用します。
- 優れた性能: 画像検索、線形分類、ゼロショット分類などのタスクにおいて、従来のモデルを上回る性能を達成します。
DINOの成功要因:
- 効果的なデータ拡張: 画像の重要な特徴にモデルの焦点を当てるように設計されています。
- 学習データセット: 画像の重要な情報についてモデルに暗黙的に教えるように構成されています。
補足:
- DINOは、ViT (Vision Transformer) アーキテクチャに基づいています。
- DINOは、ImageNetなどの大規模な画像データセットで学習できます。
- DINOは、物体検出、セグメンテーションなどの様々なタスクに適用できます。
参考資料:
- DINO: Emerging Properties in Self-Supervised Vision Transformers: https://arxiv.org/abs/2104.14294