#openai のAIニュース
786件の記事
研究:AIチャットボットは脆弱なユーザーに精度の低い情報を提供
MITの研究によると、英語力や教育レベルが低い、米国外のユーザーに対して、主要AIモデルの情報精度が低下する傾向がある。
高校中退者がChatGPTで独学し、OpenAIの研究科学者になる
高校中退のGabriel PeterssonがChatGPTで数学と機械学習を独学し、OpenAIのSoraチームの研究科学者になった。AIを活用した学習法や教育制度への批判を語る。
先週のAIニュース #335 - Opus 4.6、Codex 5.3、Gemini 3 Deep Think、GLM 5、Seedance 2.0
AI週報の最新号では、Opus 4.6、Codex 5.3、Gemini 3 Deep Think、GLM 5、Seedance 2.0など、主要AIモデルのアップデートが多数報告されました。
速さは良さに非ず:AnthropicとOpenAIの高速モードに潜むもの
AnthropicとOpenAIがAIプログラミング向けの高速モードをほぼ同時に発表したが、技術アプローチは大きく異なる。Anthropicは同一モデルを2.5倍高速化し6倍の価格設定、OpenAIは蒸留モデルを専用チップで1000トークン/秒を実現しており、速度競争の背景には異なる製品哲学が存在する。
GPT-5.3-Codex-SparkがWindsurfで利用可能に
OpenAIの超高速リアルタイムコーディング最適化モデルGPT-5.3-Codex-Sparkが、WindsurfのArena Mode FastおよびHybridバトルグループで利用可能になりました。
Opus 4.6、Codex 5.3、そしてベンチマーク後の時代
OpenAIとAnthropicは2月5日、それぞれコーディング支援モデル「GPT-5.3-Codex」と「Claude Opus 4.6」を発表した。Anthropicは既存のClaude Codeによる性能向上で注目を集めており、ソフトウェア開発の変革とML研究の加速が示唆されている。
LWiAIポッドキャスト #233 - Moltbot、Genie 3、Qwen3-Max-Thinking
GoogleがChromeにGemini AI搭載の自動ブラウズ機能を追加、ユーザーが常時稼働AIのオープンソースMoltbotに殺到、Qwen3-Max-Thinkingが登場など、最新AI動向を紹介。
LWiAIポッドキャスト #232 - ChatGPT広告、Thinking Machinesのドラマ、STEM
OpenAIがChatGPTに広告を導入する試験を開始。Thinking Machines社の内部問題と、STEM(埋め込みモジュールによるトランスフォーマーの拡張)技術について議論。
AI週間レビュー #333 - ChatGPT広告、智譜AI+華為、Thinking Machinesのドラマ
OpenAIがChatGPTで広告テスト開始、Zhipu AIが米国チップ依存脱却、Thinking Machinesの内部対立がシリコンバレーで注目。
LLMが告白へ、自動化された科学研究、Copilotユーザーの要望、低コストでの推論
AIニュース:初心者向けコースを開始。30分未満でアプリのアイデアを説明し、AIを使って構築する方法を学べます。
2026年のAIに関する17の予測
Understanding AIは、8人の専門家と自身で2026年のAI動向を予測した。2025年は新モデルやコーディングエージェントの普及、自動運転の拡大が特徴だった。来年はさらに技術革新と社会実装が進むと見られる。
LWiAI Podcast #228 - GPT 5.2、スケーリングエージェント、奇妙な汎化
OpenAIは最新モデルGPT-5.2を発表し、性能向上とマルチモーダル機能強化を実現したが、コスト増と知識カットオフ日変更を伴う。ディズニーはOpenAIに10億ドル投資し、ディズニーコンテンツ生成を計画している。
GPTとGeminiのマルチモーダルドキュメント認識能力評価
LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。
AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora
OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。
CursorのエージェントをOpenAI Codexモデル向けに改善
Cursor社が、GPT-5.1-Codex-Maxをサポートするためにエージェントハーネスを更新した。
新トレンド:並列AIエージェントを起動するプログラミング
Gergelyが、Claude CodeやOpenAI Codexなどのエージェント型コマンドラインインターフェースの普及により、並列AIエージェントを起動するプログラミングが新トレンドになっていると分析している。
OpenAIのStructured OutputsをStreaming実行時にJSONを継続的にパースする方法
OpenAIが、Structured OutputsをStreaming実行する際にLLMが生成する不正形式のJSON文字列を修正・パースし続ける対応方法を解説している。
本物のAIエージェントと実際の業務
OpenAIは、金融や法務などの専門家が設計した4〜7時間かかる実務タスクでAIを評価する新テストを発表。これにより、AIが経済的に意味のある「実際の業務」を遂行できる段階に達したことが示された。
マス・インテリジェンスの時代
著者は、ChatGPTやGemineなどAIチャットボットのユーザーが10億人以上に達し、数学オリンピックで金メダルを獲得するなどの進歩が目立つ中、強力なAIがGoogle検索のように身近になる「マス・インテリジェンス」の時代へ移行していると指摘する。
GPT-2からgpt-ossへ:アーキテクチャの進化を分析
GPT-2からgpt-ossまでのアーキテクチャの進歩を分析し、Qwen3との比較を考察する。
今すぐAIを活用する:クイックガイド
筆者は、主要なAI製品の動作原理に重要な変化が生じたため、最新の利用ガイドを提示する。単なるモデルの優劣ではなく、一般ユーザーにとって最適な総合システムを選ぶことが重要であり、3つの優れた選択肢の中から適切なAIを選定する難易度を軽減することを目的としている。
AGIはマイルストーンではない
OpenAIの最新モデルo3の公開をきっかけに、AGI達成論争が再燃している。著者はAGI定義の不一致を指摘しつつ、AGIはAIシステムの性質や影響に断絶をもたらす「マイルストーン」ではないと主張する。
人格と説得力
OpenAIはChatGPT 4oの更新により、ユーザーに同意し褒める「へりくだり」傾向が強まった。この変更は既存のo3モデルとの対比を際立たせ、AIの性格設定がユーザー体験に与える影響を示している。
OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proの評価と解釈[2025年4月版]
2025年4月時点で、OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proという主要AIモデルの性能評価と解釈が行われた。
LLM推論のための強化学習の現状
OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。
AIの進歩は鈍化しているのか?
著者らは、GPT-4以降の「スケーリングでAGIへ」という楽観論が後退し、業界の常識が変わったと指摘する。最近の報道により、モデル規模の拡大がもはや性能向上を保証しない可能性が浮上し、AI開発のパラダイムシフトを示唆している。
ChatGPTにおける言語的バイアス:言語モデルが方言差別を強化する
ChatGPTなどの言語モデルは、標準語を優遇し方言を劣位に扱うバイアスを示し、方言差別を強化する可能性がある。
AI企業は神創造から製品構築へ転換した。それは良いことだ
AI企業はハードウェアとデータセンターに1兆ドルを投じているが、成果が伴わずAIバブル懸念が高まっている。本記事は、これらの企業の誤りとその是正策を分析し、業界の現状診断を示す。
HEROZ ASKのGPT-4o対応について
HEROZ社が提供するAIサービス「HEROZ ASK」がGPT-4oに対応し、RAG(Retrieval-Augmented Generation)機能を強化した。GPT-4oはテキスト性能や日本語RAGの精度が向上し、AIアシスタント作成に活用できる。
敵対的検証によるAIのデバッグ
著者は、モデル入力や訓練データの急変(ドリフト)を検出する「敵対的検証」手法を推奨する。この簡易な方法は複雑なツール不要で、本番環境と評価データの不一致によるバグや、プロンプト更新時の問題を防止する。
大規模言語モデルに対する敵対的攻撃
ChatGPTの普及によりLLM利用が加速する中、OpenAIはRLHFによる安全な動作構築に注力している。しかし、敵対的攻撃やジェイルブレイクプロンプトにより、モデルが望ましくない出力を行うリスクが存在する。
Zero-shot Learningの包括的サーベイ:CLIPが切り開いたVision & Languageの新たな地平
CLIPを起点に、Zero-shot LearningとVision & Languageの最新研究を網羅的に調査。画像生成AIとも関連する技術動向を解説。
記事中のノイズ削除方式 - ChatGPTとの比較
ストックマーク社が自社製品で実装している記事中のノイズ削除技術を、ChatGPT Plus(GPT-4)と比較検証している。プロダクトへの組み込み可能性を探る実践的な比較記事である。
500件の検索クエリでChatGPTとGoogleを評価
研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。
Surge AIがOpenAIの8,500問の数学問題データセットGSM8Kを構築した方法
OpenAIのために8,500問の小学校レベルの数学問題データセットを構築し、GPT-3などの言語モデルが自然言語の数学問題を解く能力と推論力を測定・向上させることを目的としています。
GPT3の仕組み - ビジュアライゼーションとアニメーション
GPT3などの大規模言語モデルの能力が注目を集め、技術界で話題となっている。