Apple Machine Learning の最新記事
公式78件の記事
ゴルディロックスRL:推論のためのスパース報酬から脱却するためのタスク難易度調整
研究者らは、大規模言語モデルの推論能力を強化するための新しい教師駆動型データサンプリング手法「ゴルディロックス」を提案した。この手法は、タスクの難易度を適切に調整することで、従来の強化学習におけるスパース報酬問題を解決し、サンプル効率を向上させる。
Prose2Policy (P2P): 自然言語アクセスポリシーを実行可能なRegoコードに変換する実用的なLLMパイプライン
Prose2Policy (P2P)は、自然言語のアクセス制御ポリシーをOpen Policy AgentのRegoコードに変換するLLMベースのツールで、ポリシー検出から自動テスト生成までをカバーするエンドツーエンドパイプラインを提供する。
TrajTok:軌跡トークンの学習により動画理解が向上
研究者らが、動画モデルの効率と拡張性を向上させるため、外部パイプラインに依存しない統合型トークナイザー「TrajTok」を提案した。
AMES:後期相互作用検索による近似マルチモーダルエンタープライズ検索
研究者らがAMESを発表。テキスト・画像・動画を共有表現空間に埋め込み、アーキテクチャ再設計なしで生産環境のエンタープライズ検索エンジンにマルチモーダル後期相互作用検索を導入可能と実証した。
RubiCap: ルーブリックに基づく強化学習による詳細な画像キャプション生成
研究者らは、高品質な画像キャプション生成の課題に対処するため、ルーブリックに基づく強化学習手法「RubiCap」を提案した。この手法は、多様性と汎化性を向上させ、大規模な注釈コストを削減することを目指している。
mAceReason-Math:RLVR対応の高品質多言語数学問題データセット
研究者らが、多言語数学問題の高品質データセット「mAceReason-Math」を公開した。このデータセットは、検証可能な報酬による強化学習(RLVR)の訓練用に設計されており、英語以外の言語での数学・論理問題解決能力の向上に貢献する。
多言語推論ジム:手続き的推論環境の多言語スケーリング
研究者らは、14言語で検証可能な推論問題を手続き的に生成する「多言語推論ジム」を発表した。94のタスクテンプレートを10言語でネイティブ話者検証し、言語的自然さを確保した。
LiTo: 表面ライトフィールドのトークン化
研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。
ロバストな動画顔偽造検出のためのマルチ周波数融合
研究チームが、単一の軽量な融合手法で2つの手作り特徴量を組み合わせ、より少ないパラメータで高精度な動画顔偽造検出を実現した。Xceptionベースモデルに低周波ウェーブレット特徴と位相特徴を融合するLFWS、およびウェーブレット特徴とLBPを融合するLFWLを構築した。
半離散カップリングを用いたフローマッチング
研究者らが、ODEを積分してノイズからデータを生成するフローモデルの学習手法「フローマッチング」を、半離散カップリングを用いて改善する方法を提案した。
GenCtrl -- 生成モデルのための形式的制御可能性ツールキット
研究者らは、生成モデルの制御可能性を理論的に評価する枠組みを提案し、人間とモデルの相互作用を制御プロセスとして捉えた新アルゴリズムを開発した。
幻覚スパン検出のための推論学習
研究者が、大規模言語モデルの幻覚(根拠のない生成内容)をスパン単位で検出するために、明示的な推論プロセスを導入する手法を提案した。従来の二値分類ではなく多段階判断を可能にし、信頼性向上を目指す。
EMBridge:クロスモーダル表現学習による筋電信号からのジェスチャー汎化の向上
研究チームは、高品質な構造化データ(映像・画像・骨格)の埋め込みと筋電信号を整合させることで、筋電信号の表現品質を向上させ、ウェアラブルデバイスでの連続ジェスチャー予測を可能にするEMBridgeを提案した。
知性と判断の分離不可能性:AIアライメントのためのフィルタリングの計算論的困難性について
研究者らは、大規模言語モデル(LLMs)の有害コンテンツ生成防止を目的としたフィルタリングについて、入力プロンプトと出力の両方のフィルタリングが計算論的に困難であることを示した。
私たちの認識の仕方が本当に重要である:区別可能なバリエーションによるUIコンポーネントのインスタンス化
フロントエンド開発者は、視覚的・行動的特性をパラメータ化してUIコンポーネントを広く再利用可能に作成するが、これによりインスタンス化が困難になる。この問題に対処するため、研究者らは模倣的かつ明確に区別可能な「区別可能なバリエーション」を導入し、開発者がコンポーネントの設計空間を探索しやすくする手法を提案している。
検索関連性のスケーリング:LLM生成判定によるApp Storeランキングの強化
Apple社は、App Storeの検索関連性を最大化するため、ユーザーの行動データとテキスト関連性を組み合わせた手法を開発した。専門家によるテキスト関連性ラベルの不足を補うため、大規模言語モデル(LLM)を活用して検索結果の品質を向上させている。
建設的回路増幅:標的サブネットワーク更新によるLLMの数学推論能力向上
LLM内部の特定タスクを担う「回路」と呼ばれる疎なサブネットワークを強化する手法を提案。標的的な更新により数学推論能力を向上させる研究。
A.R.I.S.: 深層学習を用いた電子廃棄物分類のための自動リサイクル識別システム
従来の電子廃棄物リサイクルは材料分離・識別能力が不十分で資源損失が大きい。A.R.I.S.は低コスト・携帯型のシュレッダー電子廃棄物選別機で、深層学習により材料回収率を向上させる。
LLMにおけるテキストと音声理解のギャップを埋める
音声対応LLMは、言語理解タスクでテキスト専用モデルや従来手法より性能が低く、このギャップを解消する研究が進められている。
AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク
GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。
単一抽出器を超えて:LLM事前学習のためのHTMLからテキスト抽出の再考
大規模LLM事前学習データセット構築の初期段階であるHTMLからのテキスト抽出について、既存の単一抽出器の限界を指摘し、多様なウェブコンテンツに適応する抽出方法の必要性を提言する研究。
depyf: 機械学習研究者のためのPyTorchコンパイラの不透明な箱を開く
PyTorch 2.xのコンパイラは深層学習プログラムを高速化するが、Pythonバイトコードレベルで動作するため不透明で、研究者には活用が難しい。depyfはこの課題を解決するツールである。
推論におけるCoTの可能性:トレースダイナミクスを詳しく見る
Chain-of-thought(CoT)プロンプトは、大規模言語モデルに人間のような推論を促す標準技術で、最終回答前に個々のステップを明示させる。
Apple 推論と計画ワークショップ 2025
AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。
キーバリューキャッシュからの効率的なエビクション学習
大規模言語モデルの推論効率化に向け、従来のヒューリスティック手法に依存しない、キーバリューキャッシュの効率的なエビクション手法の研究。
検索拡張生成と多目的アライメントによるクエリ自動補完におけるランキングと生成の統合
クエリ自動補完の課題を解決するため、検索拡張生成と多目的アライメントを用いてランキングと生成を統合する新手法を提案。
自己証明するモデル
学習済みモデルの特定入力に対する正しさを保証するため、理論に基づく自己証明モデルを提案。平均精度ではなく個別入力の信頼性を確保する手法。
Ferret-UI Lite:小型オンデバイスGUIエージェント構築からの教訓
Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。