#llm のAIニュース
952件の記事
Google Gemma 2のリリース
Googleがパラメータ数20億、90億、270億の3種類のGemma 2を発表。270億パラメータで、その2倍以上の規模のモデルを上回る性能を実現。Ollamaで簡単に実行可能。
HEROZ ASKのGPT-4o対応について
HEROZ社が提供するAIサービス「HEROZ ASK」がGPT-4oに対応し、RAG(Retrieval-Augmented Generation)機能を強化した。GPT-4oはテキスト性能や日本語RAGの精度が向上し、AIアシスタント作成に活用できる。
完全オープンソースのAIコードアシスタントをエディター内に
Continueは、オープンソースのLLMを使用して、Visual Studio CodeとJetBrains内で独自のコーディングアシスタントを簡単に作成できるようにする。
Google、Ollamaサポートを備えたFirebase Genkitを発表
GoogleがGoogle IO 2024で、開発者がAI搭載アプリを構築・デプロイ・監視するためのオープンソースフレームワーク「Firebase Genkit」にOllamaサポートを追加したと発表した。
RetNet入門
自然言語処理の進化を概観し、従来のRNNからTransformerへの移行を説明。RetNetの基本概念を紹介する入門記事。
大規模言語モデルの金融市場への応用
2023年、ChatGPTなどの生成AIが注目を集め、大規模言語モデルが金融市場での応用可能性を高めています。
Llama 3はあまり検閲されていない
Metaが公開したLlama 3は、Llama 2と比較して大幅に検閲が緩和され、誤った拒否率が低下し、以前に拒否されたプロンプトの3分の1未満しか拒否しない。
Llama 3
Meta社が次世代の大規模言語モデル「Llama 3」を公開し、Ollamaで利用可能になった。現在公開されている中で最も高性能なオープンLLMである。
敵対的検証によるAIのデバッグ
著者は、モデル入力や訓練データの急変(ドリフト)を検出する「敵対的検証」手法を推奨する。この簡易な方法は複雑なツール不要で、本番環境と評価データの不一致によるバグや、プロンプト更新時の問題を防止する。
RAGとMulti Query Retriever:社内ナレッジ検索の精度向上における鍵
HEROZ ASK開発チームは、LLMのハルシネーション問題を解決するため、RAGとMulti Query Retrieverを組み合わせることで社内ナレッジ検索の精度向上を実現したと発表した。
マンバの解説
Transformerモデルの長文処理の非効率性を解決する、状態空間モデルに基づく新たなAIモデル「マンバ」が登場。
Grok-1.5の発表
推論能力が向上し、128,000トークンのコンテキスト長を持つGrok-1.5が、まもなく𝕏で利用可能になります。
ファインチューニングは依然として価値があるか?
ハメル・フサイン氏は、ファインチューニングへの失望の声が増える中、多くの状況で依然として非常に価値があるとの見解を示した。
Grok-1のオープンリリース
3140億パラメータのMixture-of-ExpertsモデルGrok-1の重みとアーキテクチャを公開しました。
Cappy: 小さなスコアラーで大規模マルチタスク言語モデルを凌駕・強化
Googleが開発した小規模スコアラー「Cappy」が、大規模言語モデルの性能向上と効率化を実現する手法を紹介。
LLMの迷宮を辿る:オープンソースLLMとその先への包括的ガイド
AI開発の急速な進展により、多数のオープンソース基盤モデルとその派生モデルが生まれ、追従が困難になっている現状を解説するガイド。
グラフのように話す:大規模言語モデルのためのグラフエンコーディング
Google研究者が、グラフ構造を大規模言語モデルで効果的に処理するためのエンコーディング手法を開発。グラフデータの理解と生成能力向上に寄与。
チェーン・オブ・テーブル:表理解のための推論チェーンにおける表の進化
Google Cloud AIチームの研究者が、表データを段階的に拡張・推論する「チェーン・オブ・テーブル」手法を発表した。この手法は表理解タスクの精度向上を目指すもので、AIによるデータ分析能力の進展を示している。
Car-GPT: 大規模言語モデルはついに自動運転車を実現させるか?
大規模言語モデル(LLM)が自動運転車に活用できる可能性と、信頼性や課題について探る。
社会的学習:大規模言語モデルを用いた協調学習
Google Researchの研究者らが、複数の大規模言語モデルが協力して学習し、単一モデルよりも優れた性能を発揮する「社会的学習」手法を発表した。
プロンプトを隠すな、見せろ
LLM出力の改善を目指すライブラリ群は、ユーザーがプロンプト作成から遠ざかるよう促す傾向がある。DSPyなどのツールは、この「プロンプトの仲介排除」を新たなパラダイムとして提示している。
Mistralモデルへのllama-adapterファインチューニング
Spiral.AI株式会社のエンジニアが、Mistral AIが2023年9月にリリースした言語モデル「Mistralモデル」にllama-adapterを適用してファインチューニングする方法を紹介している。
高品質な人間データについて考える
現代の深層学習モデル訓練において、高品質なデータは不可欠な燃料である。多くのタスク固有のラベル付きデータは、分類作業など人間による注釈付けから得られている。
日本語LLMの評価におけるプロンプトバージョンごとの得意不得意の調査
著者がlm-evaluation-harnessとJGLUEデータセットを使用し、FintanPromptやAlpacaPromptなど複数のプロンプトバージョンによる日本語LLMの評価結果を比較し、各プロンプトの特性を分析した。
Axolotl のデバッグ方法
Hamel氏は、大規模言語モデルのファインチューニングツール「Axolotl」のデバッグが困難であることに着目し、VSCodeでの設定ファイルやトラブルシューティングのヒントを共有した。これにより開発者のコード理解とバグ修正を支援する。
Geminiの性能を宅建試験でGPT-4やClaude2と比較してみた
GoogleのAIモデルGeminiが、宅建試験においてGPT-4やClaude2と比較された。その結果は、特定の分野での性能差を示した。
LLMデータをキュレーションするツール
OpenAIが、大規模言語モデル(LLM)の学習データを管理・精査するためのツールを発表した。このツールは、データ品質の向上とモデル性能の最適化を目的としている。
Grokの発表
『銀河ヒッチハイク・ガイド』に着想を得たAI「Grok」は、ほぼあらゆる質問に答え、さらに適切な質問を提案することを目指しています。
vLLMと大規模モデル
vLLMは大規模言語モデルの推論速度と効率を向上させる推論エンジンであり、AI業界で注目されている技術です。
大規模言語モデルに対する敵対的攻撃
ChatGPTの普及によりLLM利用が加速する中、OpenAIはRLHFによる安全な動作構築に注力している。しかし、敵対的攻撃やジェイルブレイクプロンプトにより、モデルが望ましくない出力を行うリスクが存在する。
クライアントサイド技術でLLM搭載Webアプリを構築する
オープンソースのローカルソフトウェアを使用し、LangChainの人気ユースケースであるRAG(文書検索拡張生成)を実装し、文書との対話を可能にする方法を紹介。
アラインメントの人工性
著者は、AIの存在リスクに関する無批判な報道が主流化し、AIリスクと対策に関する公的議論が歪められていると指摘している。
Ollamaが公式Dockerイメージとして利用可能に
Ollamaが公式Dockerイメージで提供開始。MacではDocker Desktopで、LinuxではGPUアクセラレーション付きコンテナ内で実行可能になりました。
ObsidianノートでのLLM活用
ObsidianなどのノートツールでOllamaを使用してローカルLLMを組み込む方法について解説しています。
Code Llamaのプロンプト方法
Code Llamaのプロンプト構造、バリエーション、機能(指示、コード補完、中間補完)について解説するガイドです。
ローカルでCode Llamaを実行する
MetaのCode LlamaがOllamaで利用可能になり、ローカル環境で試せるようになりました。
ローカルでLlama 2の検閲なしモデルを実行する
Llama 2の検閲ありモデルと検閲なしモデルの実行例を比較し、ローカル環境での使用方法を解説します。
LLM搭載の自律型エージェント
大規模言語モデル(LLM)を中核コントローラーとする自律型エージェントの構築は、AutoGPTやBabyAGIなどの概念実証デモにより示唆されるように、単なるコンテンツ生成を超えた可能性を秘めている。
BERTを用いたスクレイピング記事からのノイズ除去とChatGPTとの比較
研究者が、インターネットからスクレイピングしたHTML記事から広告やメタデータなどのノイズを除去するためにBERTモデルを使用し、その性能をChatGPTと比較した研究を発表した。
記事中のノイズ削除方式 - ChatGPTとの比較
ストックマーク社が自社製品で実装している記事中のノイズ削除技術を、ChatGPT Plus(GPT-4)と比較検証している。プロダクトへの組み込み可能性を探る実践的な比較記事である。
プロンプトエンジニアリング
プロンプトエンジニアリングは、モデルの重み更新なしでLLMの出力を制御する手法である。これは経験的な科学であり、モデルごとに効果が変わるため、多くの実験とヒューリスティックなアプローチが必要となる。
AI技術を社会実装して課題解決に挑むチームの「技術を理解する&伝える」お話
AIインキュベーション室長が、非エンジニアの立場からAI技術の社会実装と課題解決について語り、技術理解と伝達の重要性を述べる。
トランスフォーマーファミリー版2.0
著者は3年前の投稿を大幅に改訂し、近年のアーキテクチャ改善案を追加した「トランスフォーマーファミリー版2.0」を公開した。これは旧版の上位互換で約2倍の長さとなり、セクション階層を再構築して最新論文を反映している。
大規模トランスフォーマーモデルの推論最適化
記事は、主流となった大規模トランスフォーマーモデルの推論コスト(時間・メモリ)が実世界での大規模適用におけるボトルネックであると指摘し、その最適化手法について解説している。
500件の検索クエリでChatGPTとGoogleを評価
研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。
25万ドルの逆スケーリング賞と人間-AIアライメント
Surge AIがNYUとアライメント研究基金と提携し、逆スケーリング賞を設立。大規模言語モデルの逆スケーリング特性を持つタスクを発見した研究者に、データセット作成支援と500ドルの無料ラベリングクレジットを提供。
大規模言語モデルの人間評価:Hugging FaceのBLOOMはどれほど優れているか?
Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。
AIのボトルネック:高品質な人間によるデータ
AIの実用化には高品質な学習データの作成が依然として困難であり、これが技術発展の障壁となっている。
言語モデルの毒性低減
記事は、実世界への安全な展開を阻む大規模言語モデルの毒性問題に対し、学習データ収集、有害コンテンツ検出、モデル解毒の3つの側面から低減手法を解説する。
言葉を見つけること:言語モデルの隠れ状態可視化
言語モデルの層間の隠れ状態を可視化することで、モデルの「思考プロセス」の手がかりを得られる。