#nlp のAIニュース
17件の記事
最適なトークナイザーの発見(15 分読了)
TLDR AI は、先端的な AI モデルが整数列であるトークンで訓練される背景を説明し、特定の条件下で最適なトークナイザーを計算するアルゴリズムを発表した。
効率的なテキスト処理とエンティティ認識のための SpaCy の 3 つのテクニック
KDnuggets が紹介する記事で、SpaCy を用いた効率的なテキスト処理およびエンティティ認識を実現するための具体的な 3 つの技術的アプローチが解説されています。
Nemotron 3.5 のコンテンツ安全性に関する解説(9 分読了)
NVIDIA が公開した「Nemotron 3.5」モデルのコンテンツ安全性機能について、その仕組みや性能を詳しく解説している記事です。
ブラウザ上でトランスフォーマーを用いた実用的な自然言語処理
KDnuggets は、Transformers.js を使用してブラウザ環境で自然言語処理を実践する方法を紹介している。
「エントリーレベル」の門番:Textstat を用いた求人票の監査
KDnuggets は、テキスト統計ライブラリ Textstat を活用し、求人票が実際のエントリーレベルに合致しているかを客観的に監査する手法を提案しています。
ニューヨーク・タイムズ内部で勃発する AI を巡る争い
メディア業界では長年、AI の活用是非が議論されてきたが、現在は労働組合と出版社の間での交渉を通じてルールが策定されつつある。現在、ニューヨーク・タイムズの従業員らは新たな合意に向けた準備を進めている。
Jacob AndreasとBrett McGuireがEdgerton賞受賞者に選出
MITの電気工学・コンピュータ科学科のJacob Andreas准教授と化学科のBrett McGuire准教授が、2026年Harold E. Edgerton教員業績賞の受賞者に選ばれた。
ついにBERTの代替モデル登場:ModernBERTを発表
Hugging Faceは、既存のBERT系モデルに置き換え可能なエンコーダー専用モデル「ModernBERT」を発表した。最大8192トークンのシーケンス長に対応し、処理速度と下流タスクの性能を向上させた。
RetNet入門
自然言語処理の進化を概観し、従来のRNNからTransformerへの移行を説明。RetNetの基本概念を紹介する入門記事。
AIにおけるジェンダーバイアスの概要
AIにおけるジェンダーバイアスについて、その概要と問題点を簡潔に議論する。
トランスフォーマーファミリー版2.0
著者は3年前の投稿を大幅に改訂し、近年のアーキテクチャ改善案を追加した「トランスフォーマーファミリー版2.0」を公開した。これは旧版の上位互換で約2倍の長さとなり、セクション階層を再構築して最新論文を反映している。
日本語ビジネスニュースコーパスで学習したBART事前学習済モデルの公開
ストックマーク社が、日本語ビジネスニュースの分類・要約向けに、BART事前学習済モデルを開発・公開した。
キーフレーズ抽出で振り返る2022年の業界別ニュース
ストックマーク社が、自社のAI情報収集プラットフォーム「Anews」で配信した2022年のニュース記事をキーフレーズ抽出で分析し、業界別の年間トレンドを振り返るとともに、その抽出ロジックを解説している。
AI王 〜クイズAI日本一決定戦〜 第2回コンペティション 振り返り
エクサウィザーズNLPギルドの神戸氏が、3月に終了した「AI王 〜クイズAI日本一決定戦〜 第2回コンペティション」の概要と結果を振り返り、同ギルドのチームが3位入賞したことを報告した。
なんてこった:人気の有害性モデルは単なる悪口検出器なのか?
人気の有害性モデルは悪口を過大評価し、肯定的な文脈での悪口使用を誤判定する問題があることが示された。
データ中心のAIにおける文脈感度の重要性:5つの例
データ中心のAIでは、モデルに入力するデータの再考が不可欠です。文脈を考慮したラベル付けが重要であり、適切なスキルを持つデータラベラーが必要です。
言語モデルの毒性低減
記事は、実世界への安全な展開を阻む大規模言語モデルの毒性問題に対し、学習データ収集、有害コンテンツ検出、モデル解毒の3つの側面から低減手法を解説する。