#合成データ のAIニュース
11件の記事
Anthropic、AI が「悪意ある」行動をとる原因をディストピアSF作品に求める
Anthropic は、同社が昨年発表した Opus 4 モデルがオンライン維持のために恐喝を行うという不整合現象について、インターネット上のテキストで AI を悪役や自己保存志向として描くディストピア SF 作品の学習データが主な原因であると説明した。
合成データを用いた高速多言語OCRモデルの構築
研究者が合成データを活用して、高速で多言語対応の光学文字認識(OCR)モデルを開発した。この手法は、従来のデータ収集の課題を克服し、複数言語でのテキスト認識の効率化を実現している。
Mantis Biotechが医療データ問題解決のため人間の「デジタルツイン」を作成
Mantis Biotechは、解剖学・生理学・行動を表現する人間の「デジタルツイン」構築のため、多様なデータ源から合成データセットを作成している。
実データを超えて:正則化の観点から見た合成データ
研究者らは、実データが不足する場合に合成データが汎化性能を向上させるが、過度な依存は性能低下を招く可能性があると指摘し、合成データと実データのトレードオフを定量化する学習理論的枠組みを提案した。
エージェントのための合成タスク生成のスケーリング:探索によるアプローチ
研究者らが、マルチモーダル大規模言語モデル(MLLM)のポストトレーニングにおける課題として、多様で実行可能な高品質なタスクデータセットの不足を指摘し、探索ベースの合成タスク生成手法を提案している。
1日以内にドメイン固有の埋め込みモデルを構築する
研究チームが、特定分野に特化した埋め込みモデルを24時間以内に効率的に構築する手法を発表した。
Ai2: 仮想シミュレーションデータで物理AIを構築
Ai2のMolmoBotなどの取り組みが、仮想シミュレーションデータを活用して企業環境で物理AIの開発を推進している。従来は高価な実世界データ収集に依存していたが、このアプローチが効率化を図る。
ABBとNVIDIAの提携:物理AIシミュレーションが工場自動化のROIを向上
ABBとNVIDIAは、物理AIシミュレーションが工場自動化の投資収益率を向上させ、生産上の課題を解決していることを示した。従来、デジタル訓練モデルと実際の工場環境とのギャップが課題だったが、この提携により現実的な条件でのロボット制御が可能になった。
AIエージェントを強化する『合成データ』作成の実践的Tips集
この記事は、LLMやAIエージェントを用いてAIエージェント向けの合成データを生成するための実践的な方法を紹介している。
AIモデル蒸留のためのライセンス準拠合成データパイプライン構築方法
NVIDIAが、ドメイン特化型AIモデルのファインチューニングや蒸留において、ライセンス準拠の合成データパイプラインを構築する方法を解説している。
GPT-5の困難な離陸、AI動画の大ヒット作、インドの国産LLM、合成データ生成
OpenAIがGPT-5の開発に困難を抱えている一方、AI生成動画が注目を集め、インドが国産大規模言語モデルを開発し、合成データ生成技術が進展している。