#apple machine learning のAIニュース
24件の記事
VSAS-Bench:リアルタイム評価のための視覚ストリーミングアシスタントモデルのベンチマーク
Apple Machine Learning は、リアルタイム視覚アシスタントモデルの評価手法として、応答のタイミングや一貫性を測定する「VSAS-Bench」を発表した。既存のオフライン評価とは異なり、ストリーミング環境での性能を多角的に検証する新しい基準を提供する。
BalCapRL:強化学習に基づく多モーダル大規模言語モデルの画像キャプション作成のためのバランス型フレームワーク
研究者らは、既存の評価指標が特定の品質に偏りトレードオフを生む課題を解決するため、詳細かつ正確な画像キャプション生成を実現する新しい強化学習ベースのバランス型フレームワーク「BalCapRL」を発表した。
マルチビュー撮影から大規模高品質 3D ガウス頭部再構築手法「HeadsUp」を提案
研究者らは、多数のカメラからの入力画像を圧縮し、中性頭部テンプレートに固定された UV パラメータ化された 3D ガウシアンとして復元するスケーラブルなフィードフォワード手法「HeadsUp」を発表した。この手法は、入力画像の数や解像度に関わらず 3D ガウシアンの数を独立させられる。
テキスト条件付き JEPA:意味豊かな視覚表現を学習する手法
研究者らは、マスクされた位置の視覚的不確実性を軽減するため、画像キャプションを活用した「Text-Conditional JEPA(TC-JEPA)」を提案し、より意味豊かな視覚表現の学習を実現しました。
実用的な学習型画像圧縮において重要なのは何か
研究者らは、人間の視覚系に最適化された実用的な画像コーデックの設計における重要なモデル選択を包括的に研究し、知覚品質と実行時間の両立を目指す。
SpecMD:予測的専門家プリフェッチングに関する包括的研究
研究者らは、Mixture-of-Experts モデルの性能向上に不可欠な専門家のキャッシュ機構について、既存のハードウェア中心の方策との相互作用を解明するため、標準化された研究手法「SpecMD」を開発した。
反復的ノイズ除去を備えた正規化フローの定式化
研究者が、画像生成モデルの性能向上を目指すため、拡散モデルとは異なる完全なエンドツーエンド方式を採用した「iTARFlow」という新しい手法を開発しました。
確率的 KV ルーティング:適応型深層別キャッシュ共有を実現
研究者らは、トランスフォーマー言語モデルの推論コスト削減のため、時間軸以外の「深さ」次元に焦点を当てた新しい手法「確率的 KV ルーティング」を提案し、キーバリューキャッシュのメモリ使用量を大幅に削減できることを示した。
PORTool:多ツール統合推論における報酬付きツリーを用いた重要度認識型方策最適化手法
研究チームは、大規模言語モデル(LLM)を活用したエージェントの訓練において、成果のみによる報酬では中間ステップの評価が曖昧になる課題を解決するため、重要度を考慮しツール使用能力を強化する新アルゴリズム「PORTool」を発表しました。
正規化フローを用いたエンドツーエンド動画生成モデル「STARFlow-V」の発表
研究チームは、計算コストが高い動画生成領域において拡散モデルに代わる手法として、正規化フローに基づく新しい動画生成モデル「STARFlow-V」を発表した。
手話モデルを用いた手話注釈の自己開始的生成手法
研究者らは、高品質な手話データ不足という課題に対し、動画と英語を入力として候補注釈を自動生成する疑似注釈パイプラインを開発した。これにより、コストのかかる大規模注釈作業を軽減し、未利用のデータを活用可能にする。
バイアス軽減のための直接ステアリング最適化(DSO)手法の提案
生成モデルが視覚障害者支援などで意思決定を行う際、入力画像の人種や性別などの属性に依存したバイアスが結果に影響を与える問題がある。この研究では、性能低下を最小限に抑えつつバイアスを軽減する「直接ステアリング最適化(DSO)」手法を提案し、ユーザーのニーズに応じたバランス調整を実現する。
適応的思考:大規模言語モデルは潜在空間での思考の必要性を認識している
研究チームは、推論時の計算コスト最適化に向け、クエリの複雑度に応じて大規模言語モデルが潜在的な思考(中間推論)を行うタイミングを自己一貫性手法で制御する新アプローチを発表した。
LaDiR:潜在拡散がLLMのテキスト推論能力を強化
アント・リンボーは、連続的な潜在表現の表現力と反復的修正機能を統合した新規推論フレームワークLaDiRを提案。この手法は、LLMの連鎖的思考生成における限界を克服し、より効率的かつ多様な解決策の探索を可能にする。
StereoFoley:映像から物体認識型ステレオ音声を生成するフレームワーク
研究者らは、映像から意味的に整合し時間同期された空間正確なステレオ音声を 48kHz で生成する「StereoFoley」というフレームワークを発表した。既存モデルがモノラルに限定される中、この手法は物体認識に基づく立体音像を実現する。
条件付き拡散モデルにおける構成的一般化の局所的メカニズム
研究者らは、訓練時に経験していないオブジェクト数を持つ画像生成能力(長さ一般化)について、制御された環境で検証した。その結果、場合によっては達成可能だが常に成功するわけではないことが示され、この能力の背後にあるメカニズムが不明確であることが確認された。
ParaRNN:並列学習可能な大規模非線形RNN
アップル研究所は、RNNの並列学習手法「ParaRNN」を開発し、数十億パラメータ規模の大規模RNN学習を初めて可能にした。これにより推論効率の高いモデル設計の選択肢が広がった。
「大規模言語モデルは文脈を理解できるか?」
著者たちは、大規模言語モデル(LLM)の文脈理解能力を評価する新たなベンチマークを作成し、既存データセットを基に提示した。
モデルのロジットは何を保持しているのか?(答えは驚くべきものかもしれない!)
研究者はビジョン言語モデルを用い、内部ロジットから生成出力へ圧縮される過程で保持される情報の違いを比較した。これにより、モデル所有者が想定しない情報がユーザーに漏洩するリスクを明らかにした。
サブサンプリングとランダム割り当てにおける効率的なプライバシー損失計算
著者らは、tステップ中からkステップをランダムに選択するサンプリング手法のプライバシー増幅特性を検討し、差分学習やプライベート集約において標準手法より有用性が高いことを示した。
無限へと向かう:ツール利用が状態空間モデルの長さ一般化を可能にする
研究者らは、状態空間モデル(SSM)が理論的に「真に長文」生成問題を正確に解決できないことを示したが、ツール利用によってこの制限を克服し長さ一般化を実現できると報告した。
Athena: LLMを用いた反復的足場付きアプリ生成のための中間表現
研究チームが、大規模言語モデル(LLM)による完全なユーザーインターフェース生成の課題を解決するため、複数ファイル間の関係を管理する中間表現「Athena」を開発した。
GenCtrl -- 生成モデルのための形式的制御可能性ツールキット
研究者らは、生成モデルの制御可能性を理論的に評価する枠組みを提案し、人間とモデルの相互作用を制御プロセスとして捉えた新アルゴリズムを開発した。
知性と判断の分離不可能性:AIアライメントのためのフィルタリングの計算論的困難性について
研究者らは、大規模言語モデル(LLMs)の有害コンテンツ生成防止を目的としたフィルタリングについて、入力プロンプトと出力の両方のフィルタリングが計算論的に困難であることを示した。