Hugging Face Blog の最新記事
公式130件の記事
専門化は規模より勝る:AI調達決定で最も見落とされている戦略的変数
Hugging Face は、AI 導入においてモデルの規模拡大よりも専門化が重要であると指摘し、多くの企業がこの戦略的変数を過小評価している現状を警告した。
PaddleOCR 3.5:Transformers バックエンドによる OCR および文書解析タスクの実行
Hugging Face が、PaddleOCR 3.5 の新機能として Transformers ベースバックエンドの導入を発表し、OCR や文書解析タスクの実行が可能になったことを示した。
Granite Embedding Multilingual R2:Apache 2.0 ライセンスの多言語埋め込みモデルが 32K コンテキストに対応し、1 億パラメータ未満で最高クラスの検索品質を実現
IBM が Apache 2.0 ライセンスの下、32,000 トークンのコンテキスト長をサポートする多言語埋め込みモデル「Granite Embedding Multilingual R2」を公開しました。このモデルはパラメータ数が 1 億未満でありながら、検索品質において最上位クラスのパフォーマンスを発揮します。
連続バッチ処理における非同期性の解放
研究チームが、連続バッチ処理の効率を向上させる新たな非同期処理手法を開発し、大規模言語モデルの推論速度を大幅に改善した。
AWS における基盤モデルのトレーニングと推論のための構築ブロック
Amazon Web Services(AWS)は、大規模言語モデルなどの基盤モデルを効率的に学習・運用するための専用インフラとツールセットを提供し始めた。これにより、開発者は複雑な環境構築を簡略化できる。
MachinaCheck:AMD MI300X 上で構築したマルチエージェント CNC 製造可能性システム
研究者らが AMD の高性能 AI チップ「MI300X」を活用し、複数の AI エージェントを連携させることで、CNC 加工の製造可能性を自動評価するシステム「MachinaCheck」を開発しました。
プライバシーを保護する腫瘍学臨床意思決定支援のための二層マルチエージェントフレームワーク「OncoAgent」の提案
研究者らが、患者データを秘匿しながら腫瘍学の臨床判断を支援する二層構成のマルチエージェントシステム「OncoAgent」を開発し、その有効性を示した。
CyberSecQwen-4B:防衛型サイバーセキュリティには小型・特化型・ローカル実行モデルがなぜ必要か
研究者らが、防御型サイバーセキュリティにおいて、データ漏洩リスクを避けつつ迅速な対応を可能にするため、小型で専門的なローカル実行可能なモデルの重要性を論じた。
EMO:専門家の混合による突発的モジュラリティのための事前学習
研究者らが、専門家の混合モデルを用いた事前学習手法「EMO」を開発し、AI モデルに突発的なモジュラリティの獲得を実現した。この技術は複雑なタスク処理における効率化と柔軟性の向上に寄与する可能性がある。
MedQA:CUDA を不要とする AMD ROCm での臨床 AI 微調整
研究者らが、NVIDIA の CUDA に依存せず AMD の ROCm プラットフォーム上で医療用 AI モデル「MedQA」を微調整する手法を発表し、ハードウェアの選択肢を広げた。
vLLM V0 から V1:RL における修正前の正しさの重視
vLLM チームは、強化学習(RL)を適用する際、モデルの性能を向上させるための修正を行う前に、まず推論結果の正確性を確保することが重要であると発表した。
DeepSeek-V4:エージェントが実際に活用できる100万トークンコンテキスト
DeepSeekは、自律型エージェントが実際に活用できる100万トークンのコンテキスト長を実現した新モデル「DeepSeek-V4」を公開した。
Chrome拡張機能でTransformers.jsを使用する方法
開発者はChrome拡張機能にTransformers.jsを組み込み、ブラウザ上で機械学習モデルを実行する。これによりサーバー依存を排除し、プライバシー保護と低レイテンシを実現する実装手順を示す。
Jetson Orin Nano Super上でのGemma 4 VLAデモ
GoogleはGemma 4 VLAモデルをNVIDIA製Jetson Orin Nano Super上で動作させるデモを実施した。
QIMMA:品質重視のアラビア語LLMリーダーボード
開発チームは、アラビア語大規模言語モデルの性能を品質基準で評価するリーダーボード「QIMMA」を公開した。同ボードは、モデルの正確性と信頼性を最優先し、アラビア語処理能力を比較する。
合成ペルソナで韓国語AIエージェントを実社会の属性に適合させる方法
筆者は、合成ペルソナを用いて韓国語AIエージェントを実社会の人口統計に適合させる手法を解説する。開発者はこれにより、対象属性を正確に反映したエージェントを構築できる。
AIとサイバーセキュリティの未来:オープン性が重要な理由
AI技術の進展に伴い、サイバーセキュリティ業界はオープンな情報共有と透明性を確保する必要がある。
合成データを用いた高速多言語OCRモデルの構築
研究者が合成データを活用して、高速で多言語対応の光学文字認識(OCR)モデルを開発した。この手法は、従来のデータ収集の課題を克服し、複数言語でのテキスト認識の効率化を実現している。
NVIDIA Isaac GR00T N1.7:ヒューマノイドロボット向けオープン推論VLAモデル
NVIDIAが、ヒューマノイドロボット向けのオープン推論VLAモデル「Isaac GR00T N1.7」を発表した。同モデルは、ロボットの環境理解と推論能力を向上させることを目的としている。
Ecom-RLVE:Eコマース対話エージェントのための適応可能な検証環境
研究者がEcom-RLVEを発表した。これはEコマース対話エージェントのための適応可能な検証環境であり、AIエージェントの性能評価と改善を目的としている。
自分自身が開いたであろうプルリクエスト
開発者が自ら作成したプルリクエストについて、AIがコード変更を提案する技術の可能性を示唆する記事。
Sentence Transformersを用いたマルチモーダル埋め込み・リランカーモデルのトレーニングとファインチューニング
Sentence Transformersライブラリの開発者が、テキストと画像を統合的に処理するマルチモーダル埋め込みモデルとリランカーモデルのトレーニング・ファインチューニング手法を発表した。
VAKRAの内部:エージェントの推論、ツール使用、失敗モード
OpenAIがVAKRAエージェントの推論能力、ツール使用、失敗モードを分析し、AIエージェントの信頼性向上に向けた課題を明らかにした。
HCompanyのHoloTabを紹介。あなたのAIブラウザコンパニオン。
HCompanyがAIブラウザコンパニオン「HoloTab」を発表した。同社はユーザーのブラウジング体験を支援するAI搭載ツールを提供する。
Waypoint-1.5:日常的なGPU向けの高忠実度インタラクティブワールド
Waypoint-1.5は、日常的なGPUで高忠実度のインタラクティブな仮想世界を生成できる技術を発表した。
Sentence Transformersによるマルチモーダル埋め込みとリランカーモデル
Sentence Transformersチームが、テキストと画像を統合的に処理できるマルチモーダル埋め込みモデルと、検索結果の精度を向上させるリランカーモデルを発表した。
ALTK-Evolve:AIエージェントのオンザジョブ学習
研究者がALTK-Evolveを開発した。AIエージェントが実務中に継続的に学習・適応する手法を提案した。
SafetensorsがPyTorch Foundationに参加
Hugging Faceが開発したセキュアなテンソル保存形式「Safetensors」が、PyTorch Foundationに正式に参加し、AIモデルの安全性向上と業界標準化を推進する。
Gemma 4を歓迎:デバイス上のフロンティアマルチモーダルインテリジェンス
Googleがデバイス上で動作するマルチモーダルAIモデル「Gemma 4」を発表した。同モデルは画像・音声・テキストを統合処理でき、クラウド依存を減らすオンデバイスAIの進展を示している。
Holo3:コンピュータ利用の新たなフロンティアを切り拓く
Holo3が、コンピュータ利用の新たなフロンティアを切り拓く技術を発表した。同技術は、ユーザー体験の革新を目指すものである。
ファルコン・パーセプション
AI企業がFalcon Perceptionを発表した。この技術は高度な視覚認識システムであり、自律走行車や監視システムへの応用が期待される。
Gradioのバックエンドで任意のカスタムフロントエンドを構築
Gradioチームは、GradioのバックエンドAPIを活用して、ユーザーが任意のカスタムフロントエンドインターフェースを構築できる機能を発表した。これにより、機械学習モデルのデプロイとテストの柔軟性が向上する。
Granite 4.0 3B Vision:企業文書向けのコンパクトなマルチモーダルAI
IBMが企業文書向けに開発したGranite 4.0 3B Visionは、テキストと画像を同時処理できる小型マルチモーダルAIモデルで、文書解析の効率化を実現する。
165ドルで25種のmRNA言語モデルを訓練
研究者が165ドルの低コストで25種の生物のmRNA配列を学習する言語モデルを開発し、遺伝子解析の効率化を実証した。
TRL v1.0:分野の前提が崩れても機能するポストトレーニングライブラリ
Hugging Faceが、AIモデルのポストトレーニング用ライブラリ「TRL v1.0」をリリースした。このライブラリは、研究分野の前提が変化しても柔軟に対応できる設計となっている。
あなたのOpenClawを解放せよ
OpenAIがOpenClawの新機能を発表し、開発者がより柔軟にAIツールをカスタマイズできるようにした。
音声エージェント評価の新フレームワーク(EVA)
研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。
1日以内にドメイン固有の埋め込みモデルを構築する
研究チームが、特定分野に特化した埋め込みモデルを24時間以内に効率的に構築する手法を発表した。
Nemotron 3 Content Safety 4B:マルチモーダル・多言語コンテンツモデレーション
NVIDIAが、画像とテキストを同時に分析できるマルチモーダルAIモデル「Nemotron 3 Content Safety 4B」を発表した。このモデルは100言語に対応し、有害コンテンツの自動検出を可能にする。
Mellea 0.4.0の新機能とGraniteライブラリのリリース
Melleaがバージョン0.4.0をリリースし、Graniteライブラリを公開した。新バージョンではパフォーマンス向上と新APIが追加され、Graniteライブラリは開発者がAI機能を統合しやすくするツールを提供する。
SPEED-Benchの紹介:投機的デコーディングのための統一かつ多様なベンチマーク
研究者がSPEED-Benchを発表した。これは投機的デコーディングの性能を評価するための統一的なベンチマークであり、多様なタスクとモデルを網羅している。
Nemotron 3 Nano 4B:効率的なローカルAIのためのコンパクトハイブリッドモデル
NVIDIAが、ローカル環境での効率的なAI実行を可能にするコンパクトなハイブリッドモデル「Nemotron 3 Nano 4B」を発表した。
Hugging Faceにおけるオープンソースの現状:2026年春
Hugging Faceが2026年春のオープンソース動向を発表し、プラットフォーム上でのモデル共有・協業の進展を報告した。
Holotron-12B - 高スループットコンピュータ使用エージェント
Holotron-12Bは高スループットのコンピュータ使用エージェントであり、ユーザーの代わりに効率的にコンピュータ操作を実行するAIシステムです。
ヘルスケアロボティクスにおける物理的AIの台頭
研究者らが、医療現場でのロボット操作を向上させる物理的AIシステムを開発し、手術支援や患者ケアへの応用を目指している。
意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介
NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。
データサイエンティストのように考えるエージェントを構築:再利用可能なツール生成でDABStepで1位を獲得した方法
研究チームが、再利用可能なツール生成技術を用いて、データサイエンティストのように推論するAIエージェントを開発し、DABStepベンチマークで1位を達成した。
NVIDIAのAI-QがDeepResearch Bench IとIIで首位を獲得
NVIDIAが開発したAI-Qが、DeepResearch Bench IとIIのベンチマークで1位を達成した。
コードコンセプト:プログラミング概念の種から生成された大規模合成データセット
研究者がプログラミング概念の種から生成した大規模合成データセット「Code Concepts」を発表した。このデータセットはAIによるコード生成や理解の研究に活用される。
NVIDIAがAI向けオープンデータを構築する方法
NVIDIAは、AIモデルの学習と開発を促進するために、大規模で多様なオープンデータセットを体系的に構築・公開している。