#nlp のAIニュース

17件の記事

最適なトークナイザーの発見（15 分読了）

TLDR AI は、先端的な AI モデルが整数列であるトークンで訓練される背景を説明し、特定の条件下で最適なトークナイザーを計算するアルゴリズムを発表した。

TLDR AI·6月12日

効率的なテキスト処理とエンティティ認識のための SpaCy の 3 つのテクニック

KDnuggets が紹介する記事で、SpaCy を用いた効率的なテキスト処理およびエンティティ認識を実現するための具体的な 3 つの技術的アプローチが解説されています。

KDnuggets·6月5日

Nemotron 3.5 のコンテンツ安全性に関する解説（9 分読了）

NVIDIA が公開した「Nemotron 3.5」モデルのコンテンツ安全性機能について、その仕組みや性能を詳しく解説している記事です。

TLDR AI·6月5日·★★★★

ブラウザ上でトランスフォーマーを用いた実用的な自然言語処理

KDnuggets は、Transformers.js を使用してブラウザ環境で自然言語処理を実践する方法を紹介している。

KDnuggets·5月29日·★★★★

「エントリーレベル」の門番：Textstat を用いた求人票の監査

KDnuggets は、テキスト統計ライブラリ Textstat を活用し、求人票が実際のエントリーレベルに合致しているかを客観的に監査する手法を提案しています。

KDnuggets·5月29日

ニューヨーク・タイムズ内部で勃発する AI を巡る争い

メディア業界では長年、AI の活用是非が議論されてきたが、現在は労働組合と出版社の間での交渉を通じてルールが策定されつつある。現在、ニューヨーク・タイムズの従業員らは新たな合意に向けた準備を進めている。

The Verge AI·5月27日·★★★★

Jacob AndreasとBrett McGuireがEdgerton賞受賞者に選出

MITの電気工学・コンピュータ科学科のJacob Andreas准教授と化学科のBrett McGuire准教授が、2026年Harold E. Edgerton教員業績賞の受賞者に選ばれた。

MIT ML News·4月17日

ついにBERTの代替モデル登場：ModernBERTを発表

Hugging Faceは、既存のBERT系モデルに置き換え可能なエンコーダー専用モデル「ModernBERT」を発表した。最大8192トークンのシーケンス長に対応し、処理速度と下流タスクの性能を向上させた。

Answer.AI·12月19日·★★★★★

RetNet入門

自然言語処理の進化を概観し、従来のRNNからTransformerへの移行を説明。RetNetの基本概念を紹介する入門記事。

Spiral.AI Tech Blog·4月26日·★★★★

AIにおけるジェンダーバイアスの概要

AIにおけるジェンダーバイアスについて、その概要と問題点を簡潔に議論する。

The Gradient·4月9日

トランスフォーマーファミリー版2.0

著者は3年前の投稿を大幅に改訂し、近年のアーキテクチャ改善案を追加した「トランスフォーマーファミリー版2.0」を公開した。これは旧版の上位互換で約2倍の長さとなり、セクション階層を再構築して最新論文を反映している。

Lilian Weng·1月27日·★★★★

日本語ビジネスニュースコーパスで学習したBART事前学習済モデルの公開

ストックマーク社が、日本語ビジネスニュースの分類・要約向けに、BART事前学習済モデルを開発・公開した。

Stockmark Tech Blog·1月24日

キーフレーズ抽出で振り返る2022年の業界別ニュース

ストックマーク社が、自社のAI情報収集プラットフォーム「Anews」で配信した2022年のニュース記事をキーフレーズ抽出で分析し、業界別の年間トレンドを振り返るとともに、その抽出ロジックを解説している。

Stockmark Tech Blog·12月12日

AI王〜クイズAI日本一決定戦〜第2回コンペティション振り返り

エクサウィザーズNLPギルドの神戸氏が、3月に終了した「AI王〜クイズAI日本一決定戦〜第2回コンペティション」の概要と結果を振り返り、同ギルドのチームが3位入賞したことを報告した。

ExaWizards Tech Blog·4月25日

なんてこった：人気の有害性モデルは単なる悪口検出器なのか？

人気の有害性モデルは悪口を過大評価し、肯定的な文脈での悪口使用を誤判定する問題があることが示された。

Surge AI Blog·1月22日·★★★★

データ中心のAIにおける文脈感度の重要性：5つの例

データ中心のAIでは、モデルに入力するデータの再考が不可欠です。文脈を考慮したラベル付けが重要であり、適切なスキルを持つデータラベラーが必要です。

Surge AI Blog·11月19日

言語モデルの毒性低減

記事は、実世界への安全な展開を阻む大規模言語モデルの毒性問題に対し、学習データ収集、有害コンテンツ検出、モデル解毒の3つの側面から低減手法を解説する。

Lilian Weng·3月21日·★★★★