1件の記事
DeepSeekチームは、CEO梁文鋒共著の新論文で、大規模言語モデルの学習におけるハードウェア課題とアーキテクチャ設計の関係を明らかにした。この研究は、低コストで大規模モデルを訓練するためのハードウェア aware な協調設計の手法を示している。