#flash attention のAIニュース
3件の記事
Ettin Reranker ファミリーの紹介(19 分読み)
Ettin ModernBERT エンコーダーを基盤とした 6 つの最新 CrossEncoder 型再ランクモデルが公開されました。これらは 17M から 1B パラメータまで用意され、強力な教師モデルからの知識蒸留により精度と速度を大幅に向上させました。
TLDR AI·5月20日·★★★★
NVIDIA CUDA TileにおけるFlash Attentionのピークパフォーマンス調整
NVIDIAが、現代AIの重要なワークロードであるFlash Attentionの実装方法と、CUDA Tileを使用した最適化テクニックを解説している。
NVIDIA Developer Blog·3月5日
ついにBERTの代替モデル登場:ModernBERTを発表
Hugging Faceは、既存のBERT系モデルに置き換え可能なエンコーダー専用モデル「ModernBERT」を発表した。最大8192トークンのシーケンス長に対応し、処理速度と下流タスクの性能を向上させた。
Answer.AI·12月19日·★★★★★