Hugging Face Blog の最新記事
公式130件の記事
Hugging Face Hubにストレージバケット機能を導入
Hugging Faceが、同社のAIモデル共有プラットフォーム「Hub」にストレージバケット機能を追加した。これにより、開発者は大規模なデータセットやモデルファイルを効率的に管理できるようになる。
トークンを流し続ける:16のオープンソースRLライブラリからの教訓
研究者が16のオープンソース強化学習ライブラリを分析し、効率的なトークン管理と学習安定化のための実践的な知見を共有した。
Granite 4.0 1B Speech:コンパクトで多言語対応、エッジ向けに構築
IBMがGranite 4.0 1B Speechを発表した。これは、エッジデバイス向けに設計されたコンパクトで多言語対応の音声AIモデルである。
ユリシーズ・シーケンス並列処理:100万トークンのコンテキストでのトレーニング
研究者らが、ユリシーズ・シーケンス並列処理という手法を開発し、100万トークンの長いコンテキストで大規模言語モデルを効率的にトレーニングできるようにした。
LeRobot v0.5.0:すべての次元をスケーリング
LeRobotチームがLeRobot v0.5.0をリリースし、ロボット学習のすべての次元をスケーリングする新機能を導入した。
NVIDIA NeMo Evaluator Agent Skillsによる数分での対話型LLM評価
NVIDIAは、NeMo Evaluator Agent Skillsを発表した。このツールは、大規模言語モデルの対話能力を数分で自動評価できる。
組み込みプラットフォームへのロボティクスAI導入:データセット記録、VLAファインチューニング、オンデバイス最適化
研究チームが、ロボティクスAIを組み込みプラットフォームに導入するための手法を発表した。データセット記録、視覚言語行動モデルのファインチューニング、オンデバイス最適化の3つの技術を組み合わせて実現する。
モジュラーディフューザーの紹介 - 拡散パイプラインのための構成可能なビルディングブロック
研究チームが、拡散モデルパイプラインのための構成可能なビルディングブロック「モジュラーディフューザー」を発表した。この技術は、画像生成AIの開発効率と柔軟性を向上させることを目的としている。
PRX パート3 ― 24時間でテキストから画像生成モデルをトレーニング!
PRXチームが、わずか24時間でテキストから画像を生成するAIモデルをトレーニングする手法を発表した。この高速トレーニング手法は、AI開発の効率化とリソース削減に貢献する可能性がある。
トランスフォーマーにおけるエキスパート混合(MoEs)
トランスフォーマーモデルに複数の専門家ネットワークを組み合わせるMoE手法を紹介。効率的な計算と高性能化を実現する技術で、大規模AIモデルの開発に寄与。
Jetson上でのオープンソース視覚言語モデル(VLM)のデプロイ
Jetsonプラットフォームでオープンソースの視覚言語モデルを効率的にデプロイする方法について解説。
UnslothとHugging Face Jobsで無料でAIモデルをトレーニング
UnslothとHugging Face Jobsを活用することで、効率的かつ無料でAIモデルのトレーニングが可能になります。
GGMLとllama.cppがHFに参加し、ローカルAIの長期的な進歩を確保
GGMLとllama.cppがHugging Faceに参加し、オープンソースのローカルAI開発を強化し、長期的な進歩とコミュニティ主導のイノベーションを促進します。
「データ不足」の壁を乗り越える:合成ペルソナが日本のAI開発を加速
日本ではAI開発におけるデータ不足が課題だが、合成ペルソナ(人工的に生成されたユーザーデータ)を活用することで、この壁を克服し開発を加速できる可能性がある。
IBMとUCバークレー、IT-BenchとMASTを用いてエンタープライズエージェントの失敗原因を診断
IBMとUCバークレーはIT-BenchとMASTというツールを開発し、企業向けAIエージェントが失敗する原因を分析・特定する手法を確立しました。
Gradioのgr.HTMLによるワンショットWebアプリケーション
Gradioのgr.HTMLコンポーネントを使うと、HTMLコードを1回書くだけで、どんなWebアプリでも簡単に作れます。
CodexとClaudeによるすべてのためのカスタムカーネル
CodexとClaudeが提供するカスタムカーネルにより、あらゆるユーザーがAIモデルを自身のニーズに合わせて最適化できるようになります。
実践におけるOpenEnv:現実世界環境でのツール利用エージェントの評価
OpenEnvを実際の環境で使用し、ツールを活用するエージェントの性能を評価する研究についての記事です。
Transformers.js v4 プレビュー版がNPMで利用可能に!
Transformers.js v4のプレビュー版がNPMで公開されました。最新バージョンではパフォーマンス向上と新機能が追加されています。
SyGra Studioの紹介
SyGra Studioは、グラフィックデザインを効率的に作成・編集できる新しいソフトウェアツールです。直感的なインターフェースと高度な機能を備え、クリエイターのワークフローを向上させます。
コミュニティ評価:ブラックボックス型リーダーボードよりもコミュニティを信頼する理由
AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。
H社の新Holo2モデルがUIローカライゼーションで先行
H社が新たに発表したHolo2モデルは、ユーザーインターフェースのローカライゼーション分野でリードする技術を提供する。
グローバルオープンソースAIエコシステムの未来:DeepSeekからAI+へ
DeepSeekなどの企業が、オープンソースAIモデルを基盤としたグローバルなAIエコシステム「AI+」の構築を目指している。
テキストから画像生成モデルの学習設計:アブレーション研究からの知見
研究者がテキストから画像生成モデルの学習設計を検証し、アブレーション研究を通じて効果的な学習手法を特定した。
Daggrの紹介:プログラムでチェーンアプリを構築し、視覚的に検査
Daggrは、開発者がプログラムでチェーンアプリケーションを構築し、視覚的に検査できるツールを提供する。
ClaudeにCUDAカーネルを構築させ、オープンモデルを教え込むことに成功!
Anthropic社のAIモデルClaudeが、CUDAカーネルを構築し、オープンソースモデルにその知識を伝達する能力を実証した。
中国のオープンソースAIエコシステムにおけるアーキテクチャ選択:DeepSeekを超えた構築
中国の研究チームが、DeepSeekを超えるオープンソースAIエコシステムのアーキテクチャ選択について分析し、分散型開発とモデル最適化の戦略を提案した。
Alyah ⭐️: アラビア語LLMにおけるエミレーツ方言能力の堅牢な評価に向けて
研究者らが、アラビア語大規模言語モデル(LLM)のエミレーツ方言理解能力を評価するための堅牢なベンチマーク「Alyah」を開発した。
GPT-OSSのエージェンシック強化学習トレーニングの実現:実践的振り返り
OpenAIが、GPT-OSSモデル向けにエージェンシック強化学習のトレーニング手法を実装し、その実践的な知見を共有した。
AssetOpsBench:AIエージェントベンチマークと産業現場のギャップを埋める
研究者らが、AIエージェントの評価基準と産業現場の実態を結び付ける「AssetOpsBench」を発表した。このベンチマークは、現実の産業環境でのAIエージェントの性能評価を目的としている。