#attention mechanism のAIニュース
4件の記事
百度、長文解析向け KV キャッシュを一定に保つ 3B モデル「Unlimited OCR」を発表
百度は、出力が増加してもメモリ使用量が一定となる「Reference Sliding Window Attention」を採用した 3B パラメータモデル「Unlimited OCR」を発表し、長文の OCR 処理を高速化した。
MarkTechPost·6月25日·★★★★
Wall Attention(GitHub リポジトリ)
開発者が公開した「Wall Attention」という技術の GitHub リポジトリが紹介された。具体的な機能や変更点は本文抜粋から読み取れないため、詳細は不明である。
TLDR AI·6月3日·★★★★
Differential Transformer V2が発表されたので、今更ながらV1論文を読んで差分を確認してみた
Differential Transformer V2は、V1の2つのアテンションの差分を取るシンプルなアイデアを発展させ、アテンションノイズ抑制やスケーリング効率向上などの改善を実現した。
ABEJA Tech Blog·1月30日·★★★★
RePo: コンテキスト再配置を備えた言語モデル
SakanaAIが、固定されたトークンインデックスではなく、物理的近接性を意味的関連性として扱う従来の言語モデルの非効率性を解決する「コンテキスト再配置」を備えた言語モデル「RePo」を発表した。
Sakana AI·1月19日·★★★★