#multimodal のAIニュース

15件の記事

MolmoMotion:言語指示に基づく 3D モーション予測技術の発表

Hugging Face が、言語による指示で 3D の動きを予測する新しいモデル「MolmoMotion」を発表しました。この技術は、テキスト入力から物体やキャラクターの未来の動作を推定する能力を持ちます。

Hugging Face Blog·6月18日·★★★★

Apple 2027 年噂:AI 搭載カメラ付き AirPods と第 2 世代折りたたみ iPhone

ブルームバーグのマーク・ガーマン記者は、Apple が 2027 年後半にカメラを搭載した AirPods を発売する計画があると報じた。また、同社は第 2 世代となる折りたたみ iPhone の開発も進めているとされている。

The Verge AI·6月17日·★★★★

Google の最も奇妙な名前の AI ツール「Dreambeans」が、あなたの人生をアニメーションに変える

Google が発表した新 AI ツール「Dreambeans」は、ユーザーの日常生活や写真をアニメ風のキャラクターとして描画し、現実をカートゥーン調の映像に変換する機能を提供します。

TechCrunch AI·6月4日

マイクロソフトと OpenAI の決裂後、両社は激しく対立する準備を整えた

マイクロソフトは年次カンファレンスで、自社開発の推論モデルやセキュリティツールなど新たな AI 施策を発表し、OpenAI との決裂後に業界を主導する姿勢を示した。

The Verge AI·6月3日·★★★★

Google の新「何でもから何でも」AI モデルは驚異的

The Verge AI が、Google が発表した汎用的な画像生成 AI モデルについて報じた。このモデルはテキストや画像などあらゆる入力から任意の出力を生成できる能力を持ち、著者が子供の人形を旅行中の姿に合成した実験事例も紹介している。

The Verge AI·5月23日

VSAS-Bench:リアルタイム評価のための視覚ストリーミングアシスタントモデルのベンチマーク

Apple Machine Learning は、リアルタイム視覚アシスタントモデルの評価手法として、応答のタイミングや一貫性を測定する「VSAS-Bench」を発表した。既存のオフライン評価とは異なり、ストリーミング環境での性能を多角的に検証する新しい基準を提供する。

Apple Machine Learning·5月22日·★★★★

AI エージェントとスキルを活用し、動画を即座に検索可能かつ実行可能なインテリジェンスへ変換

NVIDIA は、AI エージェントとスキル機能を用いて、組織が動画からリアルタイムで意味のある洞察を抽出し、それを即座に検索・活用できる技術を発表した。

NVIDIA Developer Blog·5月14日

思考機械が新モデル「TML-Interaction-Small」を発表、リアルタイム音声のSOTAを達成し標準VADを不要に

思考機械(Thinking Machines)は、2760億パラメータのMoEモデル「TML-Interaction-Small」を発表した。このモデルはリアルタイム音声処理における最新技術水準を更新し、従来の音声検出機能(VAD)を不要にする成果を示している。

Latent Space·5月12日·★★★★

メタ、Hatch AI エージェントを待機リスト付きで準備、ソーシャルスキル強化へ

メタは、画像・動画生成やショッピング機能を Instagram や Facebook に統合した消費者向け AI エージェント「Hatch」を開発中。6 月の内部テストを経て、待機リスト経由で広くリリースする計画であり、Q4 には Instagram 専用のショッピングツールも導入予定だ。

TLDR AI·5月8日·★★★★

今日は何も起こらなかった

OpenAI が汎用推論モデルを用いてエルデシュの単位距離問題に反証を示し、数学者らによって検証された。一方、Cohere はオープンソースの「Command A+」をリリースした。

Smol AI News·5月4日·★★★★★

AI におけるダーウィニズム的専門化

推論市場はワークロードの違いにより分断され、モデル生態系がレイテンシ層やマルチモーダルモデルなどに細分化されている。各モデルタイプには異なるインフラ要件があり、これが新たな勝者を生む余地を作っている。

TLDR AI·4月30日·★★★★

最新オープンアーティファクト(第18号):Arceeの400B MoE、LiquidAIの過小評価された1Bモデル、新型Kimi、そして活発な月の予感

2025年1月はモデルリリースが低調だったが、DeepSeek V4やClaude Sonnet 5の公開期待が高まっている。Arceeの400B MoEやLiquidAIの1Bモデルなど、注目のオープンソースモデルが注目される中、業界は今後の活発な動向を見据えている。

Interconnects·2月2日·★★★★

LLM研究論文:2025年リスト(7月から12月)

有料購読者向けに、2025年後半の注目すべきLLM研究論文リストを紹介する記事。著者が厳選した論文をまとめている。

Sebastian Raschka·12月30日·★★★★

LLM研究論文:2025年リスト(1月〜6月)

Sebastian Raschka博士は、2025年1月から6月にかけて発表された200本以上のLLM研究論文をテーマ別に整理したリストを公開している。

Sebastian Raschka·7月1日

Stability AIがWPPから投資を受け、メディア・エンターテインメント制作の未来を形作る新パートナーシップを発表

Stability AIがWPPから投資を受け、企業向け生成AIの導入における重要なマイルストーンとなる戦略的パートナーシップを発表した。

Stability AI·3月6日·★★★★