#llm のAIニュース

952件の記事

Google Gemma 2のリリース

Googleがパラメータ数20億、90億、270億の3種類のGemma 2を発表。270億パラメータで、その2倍以上の規模のモデルを上回る性能を実現。Ollamaで簡単に実行可能。

Ollama Blog·6月27日·★★★★

HEROZ ASKのGPT-4o対応について

HEROZ社が提供するAIサービス「HEROZ ASK」がGPT-4oに対応し、RAG(Retrieval-Augmented Generation)機能を強化した。GPT-4oはテキスト性能や日本語RAGの精度が向上し、AIアシスタント作成に活用できる。

HEROZ Tech Blog·6月6日

完全オープンソースのAIコードアシスタントをエディター内に

Continueは、オープンソースのLLMを使用して、Visual Studio CodeとJetBrains内で独自のコーディングアシスタントを簡単に作成できるようにする。

Ollama Blog·5月31日

Google、Ollamaサポートを備えたFirebase Genkitを発表

GoogleがGoogle IO 2024で、開発者がAI搭載アプリを構築・デプロイ・監視するためのオープンソースフレームワーク「Firebase Genkit」にOllamaサポートを追加したと発表した。

Ollama Blog·5月20日

RetNet入門

自然言語処理の進化を概観し、従来のRNNからTransformerへの移行を説明。RetNetの基本概念を紹介する入門記事。

Spiral.AI Tech Blog·4月26日·★★★★

大規模言語モデルの金融市場への応用

2023年、ChatGPTなどの生成AIが注目を集め、大規模言語モデルが金融市場での応用可能性を高めています。

The Gradient·4月21日

Llama 3はあまり検閲されていない

Metaが公開したLlama 3は、Llama 2と比較して大幅に検閲が緩和され、誤った拒否率が低下し、以前に拒否されたプロンプトの3分の1未満しか拒否しない。

Ollama Blog·4月19日

Llama 3

Meta社が次世代の大規模言語モデル「Llama 3」を公開し、Ollamaで利用可能になった。現在公開されている中で最も高性能なオープンLLMである。

Ollama Blog·4月18日·★★★★

敵対的検証によるAIのデバッグ

著者は、モデル入力や訓練データの急変(ドリフト)を検出する「敵対的検証」手法を推奨する。この簡易な方法は複雑なツール不要で、本番環境と評価データの不一致によるバグや、プロンプト更新時の問題を防止する。

Hamel Husain·4月12日·★★★★

RAGとMulti Query Retriever:社内ナレッジ検索の精度向上における鍵

HEROZ ASK開発チームは、LLMのハルシネーション問題を解決するため、RAGとMulti Query Retrieverを組み合わせることで社内ナレッジ検索の精度向上を実現したと発表した。

HEROZ Tech Blog·3月29日

マンバの解説

Transformerモデルの長文処理の非効率性を解決する、状態空間モデルに基づく新たなAIモデル「マンバ」が登場。

The Gradient·3月28日·★★★★★

Grok-1.5の発表

推論能力が向上し、128,000トークンのコンテキスト長を持つGrok-1.5が、まもなく𝕏で利用可能になります。

xAI News·3月28日·★★★★

ファインチューニングは依然として価値があるか?

ハメル・フサイン氏は、ファインチューニングへの失望の声が増える中、多くの状況で依然として非常に価値があるとの見解を示した。

Hamel Husain·3月27日·★★★★

Grok-1のオープンリリース

3140億パラメータのMixture-of-ExpertsモデルGrok-1の重みとアーキテクチャを公開しました。

xAI News·3月17日·★★★★

Cappy: 小さなスコアラーで大規模マルチタスク言語モデルを凌駕・強化

Googleが開発した小規模スコアラー「Cappy」が、大規模言語モデルの性能向上と効率化を実現する手法を紹介。

Google Research Blog·3月15日·★★★★

LLMの迷宮を辿る:オープンソースLLMとその先への包括的ガイド

AI開発の急速な進展により、多数のオープンソース基盤モデルとその派生モデルが生まれ、追従が困難になっている現状を解説するガイド。

Spiral.AI Tech Blog·3月14日

グラフのように話す:大規模言語モデルのためのグラフエンコーディング

Google研究者が、グラフ構造を大規模言語モデルで効果的に処理するためのエンコーディング手法を開発。グラフデータの理解と生成能力向上に寄与。

Google Research Blog·3月13日·★★★★

チェーン・オブ・テーブル:表理解のための推論チェーンにおける表の進化

Google Cloud AIチームの研究者が、表データを段階的に拡張・推論する「チェーン・オブ・テーブル」手法を発表した。この手法は表理解タスクの精度向上を目指すもので、AIによるデータ分析能力の進展を示している。

Google Research Blog·3月12日·★★★★

Car-GPT: 大規模言語モデルはついに自動運転車を実現させるか?

大規模言語モデル(LLM)が自動運転車に活用できる可能性と、信頼性や課題について探る。

The Gradient·3月9日·★★★★

社会的学習:大規模言語モデルを用いた協調学習

Google Researchの研究者らが、複数の大規模言語モデルが協力して学習し、単一モデルよりも優れた性能を発揮する「社会的学習」手法を発表した。

Google Research Blog·3月8日·★★★★

プロンプトを隠すな、見せろ

LLM出力の改善を目指すライブラリ群は、ユーザーがプロンプト作成から遠ざかるよう促す傾向がある。DSPyなどのツールは、この「プロンプトの仲介排除」を新たなパラダイムとして提示している。

Hamel Husain·2月14日·★★★★

Mistralモデルへのllama-adapterファインチューニング

Spiral.AI株式会社のエンジニアが、Mistral AIが2023年9月にリリースした言語モデル「Mistralモデル」にllama-adapterを適用してファインチューニングする方法を紹介している。

Spiral.AI Tech Blog·2月13日

高品質な人間データについて考える

現代の深層学習モデル訓練において、高品質なデータは不可欠な燃料である。多くのタスク固有のラベル付きデータは、分類作業など人間による注釈付けから得られている。

Lilian Weng·2月5日·★★★★

日本語LLMの評価におけるプロンプトバージョンごとの得意不得意の調査

著者がlm-evaluation-harnessとJGLUEデータセットを使用し、FintanPromptやAlpacaPromptなど複数のプロンプトバージョンによる日本語LLMの評価結果を比較し、各プロンプトの特性を分析した。

HEROZ Tech Blog·1月19日

Axolotl のデバッグ方法

Hamel氏は、大規模言語モデルのファインチューニングツール「Axolotl」のデバッグが困難であることに着目し、VSCodeでの設定ファイルやトラブルシューティングのヒントを共有した。これにより開発者のコード理解とバグ修正を支援する。

Hamel Husain·1月11日·★★★★

Geminiの性能を宅建試験でGPT-4やClaude2と比較してみた

GoogleのAIモデルGeminiが、宅建試験においてGPT-4やClaude2と比較された。その結果は、特定の分野での性能差を示した。

HEROZ Tech Blog·12月21日

LLMデータをキュレーションするツール

OpenAIが、大規模言語モデル(LLM)の学習データを管理・精査するためのツールを発表した。このツールは、データ品質の向上とモデル性能の最適化を目的としている。

Hamel Husain·11月15日

Grokの発表

『銀河ヒッチハイク・ガイド』に着想を得たAI「Grok」は、ほぼあらゆる質問に答え、さらに適切な質問を提案することを目指しています。

xAI News·11月3日·★★★★

vLLMと大規模モデル

vLLMは大規模言語モデルの推論速度と効率を向上させる推論エンジンであり、AI業界で注目されている技術です。

Hamel Husain·10月28日

大規模言語モデルに対する敵対的攻撃

ChatGPTの普及によりLLM利用が加速する中、OpenAIはRLHFによる安全な動作構築に注力している。しかし、敵対的攻撃やジェイルブレイクプロンプトにより、モデルが望ましくない出力を行うリスクが存在する。

Lilian Weng·10月25日·★★★★

クライアントサイド技術でLLM搭載Webアプリを構築する

オープンソースのローカルソフトウェアを使用し、LangChainの人気ユースケースであるRAG(文書検索拡張生成)を実装し、文書との対話を可能にする方法を紹介。

Ollama Blog·10月13日·★★★★

アラインメントの人工性

著者は、AIの存在リスクに関する無批判な報道が主流化し、AIリスクと対策に関する公的議論が歪められていると指摘している。

The Gradient·10月8日·★★★★

Ollamaが公式Dockerイメージとして利用可能に

Ollamaが公式Dockerイメージで提供開始。MacではDocker Desktopで、LinuxではGPUアクセラレーション付きコンテナ内で実行可能になりました。

Ollama Blog·10月5日

ObsidianノートでのLLM活用

ObsidianなどのノートツールでOllamaを使用してローカルLLMを組み込む方法について解説しています。

Ollama Blog·9月21日

Code Llamaのプロンプト方法

Code Llamaのプロンプト構造、バリエーション、機能(指示、コード補完、中間補完)について解説するガイドです。

Ollama Blog·9月9日

ローカルでCode Llamaを実行する

MetaのCode LlamaがOllamaで利用可能になり、ローカル環境で試せるようになりました。

Ollama Blog·8月24日·★★★★

ローカルでLlama 2の検閲なしモデルを実行する

Llama 2の検閲ありモデルと検閲なしモデルの実行例を比較し、ローカル環境での使用方法を解説します。

Ollama Blog·8月1日

LLM搭載の自律型エージェント

大規模言語モデル(LLM)を中核コントローラーとする自律型エージェントの構築は、AutoGPTやBabyAGIなどの概念実証デモにより示唆されるように、単なるコンテンツ生成を超えた可能性を秘めている。

Lilian Weng·6月23日·★★★★

BERTを用いたスクレイピング記事からのノイズ除去とChatGPTとの比較

研究者が、インターネットからスクレイピングしたHTML記事から広告やメタデータなどのノイズを除去するためにBERTモデルを使用し、その性能をChatGPTと比較した研究を発表した。

Stockmark Tech Blog·5月16日

記事中のノイズ削除方式 - ChatGPTとの比較

ストックマーク社が自社製品で実装している記事中のノイズ削除技術を、ChatGPT Plus(GPT-4)と比較検証している。プロダクトへの組み込み可能性を探る実践的な比較記事である。

Stockmark Tech Blog·5月8日

プロンプトエンジニアリング

プロンプトエンジニアリングは、モデルの重み更新なしでLLMの出力を制御する手法である。これは経験的な科学であり、モデルごとに効果が変わるため、多くの実験とヒューリスティックなアプローチが必要となる。

Lilian Weng·3月15日·★★★★

AI技術を社会実装して課題解決に挑むチームの「技術を理解する&伝える」お話

AIインキュベーション室長が、非エンジニアの立場からAI技術の社会実装と課題解決について語り、技術理解と伝達の重要性を述べる。

ExaWizards Tech Blog·1月27日

トランスフォーマーファミリー版2.0

著者は3年前の投稿を大幅に改訂し、近年のアーキテクチャ改善案を追加した「トランスフォーマーファミリー版2.0」を公開した。これは旧版の上位互換で約2倍の長さとなり、セクション階層を再構築して最新論文を反映している。

Lilian Weng·1月27日·★★★★

大規模トランスフォーマーモデルの推論最適化

記事は、主流となった大規模トランスフォーマーモデルの推論コスト(時間・メモリ)が実世界での大規模適用におけるボトルネックであると指摘し、その最適化手法について解説している。

Lilian Weng·1月11日·★★★★

500件の検索クエリでChatGPTとGoogleを評価

研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。

Surge AI Blog·12月21日·★★★★

25万ドルの逆スケーリング賞と人間-AIアライメント

Surge AIがNYUとアライメント研究基金と提携し、逆スケーリング賞を設立。大規模言語モデルの逆スケーリング特性を持つタスクを発見した研究者に、データセット作成支援と500ドルの無料ラベリングクレジットを提供。

Surge AI Blog·8月15日·★★★★

大規模言語モデルの人間評価:Hugging FaceのBLOOMはどれほど優れているか?

Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。

Surge AI Blog·7月19日·★★★★

AIのボトルネック:高品質な人間によるデータ

AIの実用化には高品質な学習データの作成が依然として困難であり、これが技術発展の障壁となっている。

Surge AI Blog·8月2日·★★★★

言語モデルの毒性低減

記事は、実世界への安全な展開を阻む大規模言語モデルの毒性問題に対し、学習データ収集、有害コンテンツ検出、モデル解毒の3つの側面から低減手法を解説する。

Lilian Weng·3月21日·★★★★

言葉を見つけること:言語モデルの隠れ状態可視化

言語モデルの層間の隠れ状態を可視化することで、モデルの「思考プロセス」の手がかりを得られる。

Jay Alammar·1月19日·★★★★