1件の記事
著者は、画像キャプションや視覚的質問応答といったビジョン言語タスクにおいて、従来の物体検出ネットワークに依存する手法ではなく、事前学習済みモデルを拡張するアプローチに焦点を当てて解説している。