#model architecture のAIニュース
5件の記事
LLM が実際にどのように動作するか(26 分読了)
TLDR AI は、大規模言語モデルの内部仕組みと動作原理を解説する記事を発表しました。
TLDR AI·6月8日·★★★★
今日は何も大きな出来事はありませんでした
Smol AI News は、5 月 20 日から 21 日にかけての期間に、主要な AI ニュースや技術進展がない静かな一日であったと報告しています。
Smol AI News·5月21日·★★★★
HRM-Text(GitHub リポジトリ):計算資源とデータを大幅に削減したテキスト生成モデル
HRM アーキテクチャに基づく 10 億パラメータのテキスト生成モデル「HRM-Text」が公開され、基盤モデルより計算量や学習データを最大数百倍削減可能で、8〜16 台の H100 GPU で数日・数千ドルで学習できる。
TLDR AI·5月19日·★★★★
本日の動向:ArceeのTrinity-Large-ThinkingとZ.aiのGLM-5V-Turboなど
ArceeはApache 2.0ライセンスで400B/13BのTrinity-Large-Thinkingを公開し、PinchBenchで2位を獲得した。Z.aiはマルチモーダル融合のGLM-5V-Turboをリリースし、TIIもオープン語彙のFalcon Perceptionを提供した。
Smol AI News·4月1日·★★★★
マンバの解説
Transformerモデルの長文処理の非効率性を解決する、状態空間モデルに基づく新たなAIモデル「マンバ」が登場。
The Gradient·3月28日·★★★★★