#andon labs のAIニュース
2件の記事
リアリティ:最終評価 — Andon Labs のルカス・ペターソンとアクセル・バックランド
Andon Labs のルカス・ペターソン氏とアクセル・バックランド氏が、従来のスコアベースの評価指標では捉えきれない現実世界でのモデル性能を測る新しい評価手法「リアリティ」について議論する。
Latent Space·6月5日·★★★★
AI ラジオ司会者が示す、AI 単独運用の信頼性欠如
Andon Labs は人間を介さずに AI エージェントが事業を運営する実験を実施しており、その最新事例として Claude や ChatGPT など主要な AI モデルがそれぞれラジオ局を運営している。この実験は、AI を単独で運用することのリスクや信頼性の欠如を浮き彫りにした。
The Verge AI·5月16日