X: AK の最新記事

HF Papers AIエージェント基盤発表

arXiv検索のためのAIエージェント基盤「HF Papers」を紹介

SpecEyes: エージェント型マルチモーダルLLMの高速化

推測的知覚と計画によるエージェント型マルチモーダルLLMの高速化に関する論文発表

WildWorldデータセット発表

動的世界モデリング向け大規模データセットの公開

X: AK·3月26日·★★★★

MinerU-Diffusion論文発表

文書OCRを拡散デコードによる逆レンダリングとして再考する新手法

空間トークン生成による視覚言語モデル強化

Perceptio: 空間トークン生成で視覚言語モデルの知覚能力を向上させる新手法

一般化離散拡散モデル発表

スナップショットからの一般化離散拡散に関する新論文

LongCat-Flash-Prover発表

エージェントツール統合強化学習による形式推論の進展

世界モデル評価手法「Omni-WorldBench」発表

包括的な相互作用中心評価手法の論文公開

hf-mount発表

Hugging Face Hubのストレージバケット・モデル・データセットをローカルマウント可能に

X: AK·3月25日·★★★★

高速音声動画生成モデル発表

単一ストリーム構造による高速音声動画生成基盤モデル

X: AK·3月24日

動画生成モデルの新手法

前方処理RLを用いた蒸留オート回帰動画モデルの研究発表

X: AK·3月24日

HopChain: マルチホップデータ合成

汎用的な視覚言語推論のための新しい手法を提案

X: AK·3月24日

Loc3R-VLM発表

言語ベースの3D推論モデルLoc3R-VLMの論文公開

X: AK·3月21日

動画編集の新手法発表

指示に基づく動画編集のための新技術「SAMA」を紹介

X: AK·3月21日

NvidiaがNemotron-Cascade 2を公開

NvidiaがHugging Faceで新しいモデルNemotron-Cascade 2をリリース

X: AK·3月21日

空間理解の新モデル発表

生成モデルによる暗黙的3D事前知識を活用したシーン理解の研究論文

X: AK·3月21日·★★★★

MetaClaw: メタ学習エージェント発表

環境でメタ学習し進化するAIエージェントの論文発表

X: AK·3月20日

MolmoPoint: VLM向け新手法

VLMsのポインティング精度向上のための新手法「Grounding Tokens」を提案

MolmoPoint: VLM向け新手法

VLMsのポインティング精度向上のための新手法「MolmoPoint」発表

Hugging Face AIエージェント論文

AIエージェント向けHugging Face論文の紹介

V-Co論文発表

視覚表現の整合性向上に関する新手法の研究論文

MiroThinker-1.7とH1発表

検証による高性能研究エージェントの論文発表

世界シミュレーションモデルの実世界都市への適用

実世界の大都市データを用いた世界シミュレーションモデルの研究論文発表

X: AK·3月18日·★★★★

Ropedia Xperience-10M公開

大規模なエゴセントリックマルチモーダルデータセットがHugging Faceで公開

X: AK·3月18日

VLMがシェルゲーム解決可能か研究

視覚言語モデルのシェルゲーム解決能力を検証する研究論文発表

X: AK·3月16日

長期記憶埋め込みベンチマーク発表

LMEB（長期記憶埋め込みベンチマーク）の研究論文が公開されました。

X: AK·3月16日

マルチモーダルOCR新モデル発表

文書解析ベンチマークで2位のマルチモーダルOCRモデルが発表されました

X: AK·3月16日

動画推論モデルの屋外適用可能性

動画推論モデルの屋外環境での実用性に関する研究論文が発表されました。

X: AK·3月14日

エージェントと人間の文書推論

文書コレクション上でのエージェントと人間の推論方法を比較する研究

X: AK·3月14日

空間知能の新手法発表

テスト時学習による視覚空間知能のストリーミング手法を提案

X: AK·3月14日

MA-EgoQA: 複数エージェントのエゴセントリック動画QA

複数の具現化エージェントによるエゴセントリック動画の質問応答に関する研究論文発表

X: AK·3月13日

OpenClaw-RL発表

会話でエージェントを訓練する新手法の論文公開

X: AK·3月13日

MM-Zero: ゼロデータからの自己進化VLM

データなしで自己進化するマルチモーダルVLMの論文発表

X: AK·3月12日

Omni-Diffusion発表

マスク離散拡散による統一マルチモーダル理解・生成モデル

X: AK·3月12日

LLMの推論と知識の関係

LLMにおける推論がパラメトリック知識を解放する仕組みに関する研究論文

X: AK·3月12日

Hugging Faceがストレージバケットを開始

Hugging Faceが新たにストレージバケットサービスを開始しました。

自律型ニューラルアーキテクチャ研究

自己評価型強化学習エージェントによる自律的ニューラルアーキテクチャ研究の発表

非自己回帰LLM音声認識モデル発表

トランスクリプト編集による新音声認識手法の論文公開

1.58ビットLLMの新手法

Sparse-BitNet、半構造化スパース性に適した1.58ビットLLMを発表

X: AK·3月11日·★★★★

分布誘導型信頼度校正

モデルの信頼度を分布に基づいて校正する新手法の紹介

教師なしRLVRのLLM学習拡張可能性

教師なしRLVRによる大規模言語モデル学習の拡張性に関する研究論文

LLMの長文生成の一貫性バグ

大規模言語モデルの長文生成における一貫性問題に関する研究論文