2件の記事
研究者らは、マスクされた位置の視覚的不確実性を軽減するため、画像キャプションを活用した「Text-Conditional JEPA(TC-JEPA)」を提案し、より意味豊かな視覚表現の学習を実現しました。
対照的学習は、類似するサンプルを近接させ、異なるサンプルを遠ざける表現を学ぶ手法である。このアプローチは教師あり・なしの両データに適用可能で、視覚および言語タスクにおいて優れた性能を発揮する。