1件の記事
研究者はTransformerの自己注意を改良した「独占的自己注意(XSA)」を発表した。これはトークン自身の情報を除外し、直交する情報のみに焦点を当てる手法で、最大27億パラメータのモデルにおいて言語モデリング性能を向上させる。