メインコンテンツへスキップ

#研究手法 のAIニュース

7件の記事

機械学習研究の芸術と禅(11 分読了)

TLDR AI は、AI 研究者になるための道は読み込みと構築にあり、成功には時間と努力、そして世界クラスとなるためには並外れた規律が必要であると述べている。

TLDR AI·6月16日

LLMアーキテクチャを理解するための私のワークフロー

著者が記事や講演、LLM-Galleryで使用するLLMアーキテクチャの図面作成ワークフローを公開した。公式技術文書から始めるが、最近の論文は詳細不足のため、公開されたモデル重みから推測する手法を説明している。

Sebastian Raschka·4月18日

学習中にAIモデルをより軽量かつ高速にする新技術

MITの研究者が、AIモデルの学習中にモデルを軽量化・高速化する新技術を開発した。従来は大規模モデルの学習後に縮小するか、小規模モデルで性能を犠牲にする必要があったが、この技術は学習プロセス自体を効率化する。

MIT ML News·4月9日·★★★★

Googleの研究が発見:AIベンチマークは人間の意見の相違を体系的に無視している

Googleの研究チームが、AIベンチマークで標準的に使用される3〜5人の人間評価者では信頼性が不十分であり、アノテーション予算の配分方法が予算規模と同様に重要だと指摘した。

The Decoder·4月5日

大規模言語モデル訓練における下流タスク指標のスケーリング特性の再検討

研究チームが、大規模言語モデルの訓練予算からベンチマーク性能のスケーリングを直接モデル化する枠組みを提案し、固定トークン対パラメータ比率では単純なべき法則が複数の下流タスクの精度を正確に記述できることを発見した。

Apple Machine Learning·3月26日·★★★★

AIの「diff」ツール:新モデルの動作の違いを発見

研究者が、AIモデルの新旧バージョンの動作の違いを特定する「diff」ツールを開発した。このツールは、モデルの振る舞いの変化を可視化し、AIの解釈可能性を向上させることを目的としている。

Anthropic Research·3月13日·★★★★

言語モデルが幻覚を起こす時、自身の数学に「こぼれたエネルギー」を残す

ローマ・サピエンツァ大学の研究者が、大規模言語モデルが幻覚を起こす際に計算内に残す測定可能な痕跡を検出するトレーニング不要の手法を開発した。この手法は従来のアプローチよりも汎化性能が高い。

The Decoder·3月7日