X: AK の最新記事
88件の記事
自律進化探索の新手法発表
自律進化探索のためのエージェント変異演算子に関する論文公開
ClaudeがHF論文CLIで自動研究
ClaudeがHugging Face論文CLIを使用して自動研究を行う方法を紹介
CUA-Suite発表
コンピュータ使用エージェント向け大規模人間注釈ビデオデータセット
Qworld論文発表
LLM評価基準に関する新論文が公開されました
Ego2Webベンチマーク発表
エゴセントリック動画に基づくWebエージェント評価基準の新論文
HF Papers AIエージェント基盤発表
arXiv検索のためのAIエージェント基盤「HF Papers」を紹介
SpecEyes: エージェント型マルチモーダルLLMの高速化
推測的知覚と計画によるエージェント型マルチモーダルLLMの高速化に関する論文発表
WildWorldデータセット発表
動的世界モデリング向け大規模データセットの公開
MinerU-Diffusion論文発表
文書OCRを拡散デコードによる逆レンダリングとして再考する新手法
空間トークン生成による視覚言語モデル強化
Perceptio: 空間トークン生成で視覚言語モデルの知覚能力を向上させる新手法
一般化離散拡散モデル発表
スナップショットからの一般化離散拡散に関する新論文
LongCat-Flash-Prover発表
エージェントツール統合強化学習による形式推論の進展
世界モデル評価手法「Omni-WorldBench」発表
包括的な相互作用中心評価手法の論文公開
hf-mount発表
Hugging Face Hubのストレージバケット・モデル・データセットをローカルマウント可能に
高速音声動画生成モデル発表
単一ストリーム構造による高速音声動画生成基盤モデル
動画生成モデルの新手法
前方処理RLを用いた蒸留オート回帰動画モデルの研究発表
HopChain: マルチホップデータ合成
汎用的な視覚言語推論のための新しい手法を提案
Loc3R-VLM発表
言語ベースの3D推論モデルLoc3R-VLMの論文公開
動画編集の新手法発表
指示に基づく動画編集のための新技術「SAMA」を紹介
NvidiaがNemotron-Cascade 2を公開
NvidiaがHugging Faceで新しいモデルNemotron-Cascade 2をリリース
空間理解の新モデル発表
生成モデルによる暗黙的3D事前知識を活用したシーン理解の研究論文
MetaClaw: メタ学習エージェント発表
環境でメタ学習し進化するAIエージェントの論文発表
MolmoPoint: VLM向け新手法
VLMsのポインティング精度向上のための新手法「Grounding Tokens」を提案
MolmoPoint: VLM向け新手法
VLMsのポインティング精度向上のための新手法「MolmoPoint」発表
Hugging Face AIエージェント論文
AIエージェント向けHugging Face論文の紹介
V-Co論文発表
視覚表現の整合性向上に関する新手法の研究論文
MiroThinker-1.7とH1発表
検証による高性能研究エージェントの論文発表
世界シミュレーションモデルの実世界都市への適用
実世界の大都市データを用いた世界シミュレーションモデルの研究論文発表
Ropedia Xperience-10M公開
大規模なエゴセントリックマルチモーダルデータセットがHugging Faceで公開
VLMがシェルゲーム解決可能か研究
視覚言語モデルのシェルゲーム解決能力を検証する研究論文発表
長期記憶埋め込みベンチマーク発表
LMEB(長期記憶埋め込みベンチマーク)の研究論文が公開されました。
マルチモーダルOCR新モデル発表
文書解析ベンチマークで2位のマルチモーダルOCRモデルが発表されました
動画推論モデルの屋外適用可能性
動画推論モデルの屋外環境での実用性に関する研究論文が発表されました。
エージェントと人間の文書推論
文書コレクション上でのエージェントと人間の推論方法を比較する研究
空間知能の新手法発表
テスト時学習による視覚空間知能のストリーミング手法を提案
MA-EgoQA: 複数エージェントのエゴセントリック動画QA
複数の具現化エージェントによるエゴセントリック動画の質問応答に関する研究論文発表
OpenClaw-RL発表
会話でエージェントを訓練する新手法の論文公開
MM-Zero: ゼロデータからの自己進化VLM
データなしで自己進化するマルチモーダルVLMの論文発表
Omni-Diffusion発表
マスク離散拡散による統一マルチモーダル理解・生成モデル
LLMの推論と知識の関係
LLMにおける推論がパラメトリック知識を解放する仕組みに関する研究論文
Hugging Faceがストレージバケットを開始
Hugging Faceが新たにストレージバケットサービスを開始しました。
自律型ニューラルアーキテクチャ研究
自己評価型強化学習エージェントによる自律的ニューラルアーキテクチャ研究の発表
非自己回帰LLM音声認識モデル発表
トランスクリプト編集による新音声認識手法の論文公開
1.58ビットLLMの新手法
Sparse-BitNet、半構造化スパース性に適した1.58ビットLLMを発表
分布誘導型信頼度校正
モデルの信頼度を分布に基づいて校正する新手法の紹介
教師なしRLVRのLLM学習拡張可能性
教師なしRLVRによる大規模言語モデル学習の拡張性に関する研究論文
LLMの長文生成の一貫性バグ
大規模言語モデルの長文生成における一貫性問題に関する研究論文
ロボット汎用ポリシーのメモリ評価
ロボット汎用ポリシーのメモリ性能を評価・理解する研究論文発表
Penguin-VL効率限界の探求
LLMベース視覚エンコーダーでVLMの効率限界を探る新モデル発表
MatAnyone 2公開
動画マット合成モデルMatAnyone 2がHugging Faceで公開