メインコンテンツへスキップ

#openai のAIニュース

786件の記事

研究:AIチャットボットは脆弱なユーザーに精度の低い情報を提供

MITの研究によると、英語力や教育レベルが低い、米国外のユーザーに対して、主要AIモデルの情報精度が低下する傾向がある。

MIT ML News·2月20日·★★★★

高校中退者がChatGPTで独学し、OpenAIの研究科学者になる

高校中退のGabriel PeterssonがChatGPTで数学と機械学習を独学し、OpenAIのSoraチームの研究科学者になった。AIを活用した学習法や教育制度への批判を語る。

宝玉的分享·2月17日·★★★★

先週のAIニュース #335 - Opus 4.6、Codex 5.3、Gemini 3 Deep Think、GLM 5、Seedance 2.0

AI週報の最新号では、Opus 4.6、Codex 5.3、Gemini 3 Deep Think、GLM 5、Seedance 2.0など、主要AIモデルのアップデートが多数報告されました。

Last Week in AI·2月16日·★★★★

速さは良さに非ず:AnthropicとOpenAIの高速モードに潜むもの

AnthropicとOpenAIがAIプログラミング向けの高速モードをほぼ同時に発表したが、技術アプローチは大きく異なる。Anthropicは同一モデルを2.5倍高速化し6倍の価格設定、OpenAIは蒸留モデルを専用チップで1000トークン/秒を実現しており、速度競争の背景には異なる製品哲学が存在する。

宝玉的分享·2月15日·★★★★

GPT-5.3-Codex-SparkがWindsurfで利用可能に

OpenAIの超高速リアルタイムコーディング最適化モデルGPT-5.3-Codex-Sparkが、WindsurfのArena Mode FastおよびHybridバトルグループで利用可能になりました。

Windsurf Blog·2月12日

Opus 4.6、Codex 5.3、そしてベンチマーク後の時代

OpenAIとAnthropicは2月5日、それぞれコーディング支援モデル「GPT-5.3-Codex」と「Claude Opus 4.6」を発表した。Anthropicは既存のClaude Codeによる性能向上で注目を集めており、ソフトウェア開発の変革とML研究の加速が示唆されている。

Interconnects·2月9日·★★★★

LWiAIポッドキャスト #233 - Moltbot、Genie 3、Qwen3-Max-Thinking

GoogleがChromeにGemini AI搭載の自動ブラウズ機能を追加、ユーザーが常時稼働AIのオープンソースMoltbotに殺到、Qwen3-Max-Thinkingが登場など、最新AI動向を紹介。

Last Week in AI·2月6日·★★★★

LWiAIポッドキャスト #232 - ChatGPT広告、Thinking Machinesのドラマ、STEM

OpenAIがChatGPTに広告を導入する試験を開始。Thinking Machines社の内部問題と、STEM(埋め込みモジュールによるトランスフォーマーの拡張)技術について議論。

Last Week in AI·1月28日·★★★★

AI週間レビュー #333 - ChatGPT広告、智譜AI+華為、Thinking Machinesのドラマ

OpenAIがChatGPTで広告テスト開始、Zhipu AIが米国チップ依存脱却、Thinking Machinesの内部対立がシリコンバレーで注目。

Last Week in AI·1月23日·★★★★

LLMが告白へ、自動化された科学研究、Copilotユーザーの要望、低コストでの推論

AIニュース:初心者向けコースを開始。30分未満でアプリのアイデアを説明し、AIを使って構築する方法を学べます。

The Batch·1月9日

2026年のAIに関する17の予測

Understanding AIは、8人の専門家と自身で2026年のAI動向を予測した。2025年は新モデルやコーディングエージェントの普及、自動運転の拡大が特徴だった。来年はさらに技術革新と社会実装が進むと見られる。

Understanding AI·1月1日·★★★★

LWiAI Podcast #228 - GPT 5.2、スケーリングエージェント、奇妙な汎化

OpenAIは最新モデルGPT-5.2を発表し、性能向上とマルチモーダル機能強化を実現したが、コスト増と知識カットオフ日変更を伴う。ディズニーはOpenAIに10億ドル投資し、ディズニーコンテンツ生成を計画している。

Last Week in AI·12月18日·★★★★★

GPTとGeminiのマルチモーダルドキュメント認識能力評価

LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。

LayerX Tech Blog·12月17日

AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora

OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。

Last Week in AI·12月16日·★★★★

CursorのエージェントをOpenAI Codexモデル向けに改善

Cursor社が、GPT-5.1-Codex-Maxをサポートするためにエージェントハーネスを更新した。

Cursor Blog·12月5日

新トレンド:並列AIエージェントを起動するプログラミング

Gergelyが、Claude CodeやOpenAI Codexなどのエージェント型コマンドラインインターフェースの普及により、並列AIエージェントを起動するプログラミングが新トレンドになっていると分析している。

Pragmatic Engineer·10月31日·★★★★

OpenAIのStructured OutputsをStreaming実行時にJSONを継続的にパースする方法

OpenAIが、Structured OutputsをStreaming実行する際にLLMが生成する不正形式のJSON文字列を修正・パースし続ける対応方法を解説している。

Generative Agents·10月25日

本物のAIエージェントと実際の業務

OpenAIは、金融や法務などの専門家が設計した4〜7時間かかる実務タスクでAIを評価する新テストを発表。これにより、AIが経済的に意味のある「実際の業務」を遂行できる段階に達したことが示された。

One Useful Thing·9月30日·★★★★

マス・インテリジェンスの時代

著者は、ChatGPTやGemineなどAIチャットボットのユーザーが10億人以上に達し、数学オリンピックで金メダルを獲得するなどの進歩が目立つ中、強力なAIがGoogle検索のように身近になる「マス・インテリジェンス」の時代へ移行していると指摘する。

One Useful Thing·8月29日·★★★★

GPT-2からgpt-ossへ:アーキテクチャの進化を分析

GPT-2からgpt-ossまでのアーキテクチャの進歩を分析し、Qwen3との比較を考察する。

Sebastian Raschka·8月9日·★★★★

今すぐAIを活用する:クイックガイド

筆者は、主要なAI製品の動作原理に重要な変化が生じたため、最新の利用ガイドを提示する。単なるモデルの優劣ではなく、一般ユーザーにとって最適な総合システムを選ぶことが重要であり、3つの優れた選択肢の中から適切なAIを選定する難易度を軽減することを目的としている。

One Useful Thing·6月24日·★★★★

AGIはマイルストーンではない

OpenAIの最新モデルo3の公開をきっかけに、AGI達成論争が再燃している。著者はAGI定義の不一致を指摘しつつ、AGIはAIシステムの性質や影響に断絶をもたらす「マイルストーン」ではないと主張する。

AI Snake Oil·5月1日·★★★★

人格と説得力

OpenAIはChatGPT 4oの更新により、ユーザーに同意し褒める「へりくだり」傾向が強まった。この変更は既存のo3モデルとの対比を際立たせ、AIの性格設定がユーザー体験に与える影響を示している。

One Useful Thing·5月1日·★★★★

OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proの評価と解釈[2025年4月版]

2025年4月時点で、OpenAI o3、Claude 3.7 Sonnet、Gemini 2.5 Proという主要AIモデルの性能評価と解釈が行われた。

Algomatic Tech Blog·4月28日·★★★★

LLM推論のための強化学習の現状

OpenAIがGPT-4.5を、MetaがLlama 4をリリースしたが、従来型モデルのため反応は控えめだった。一方、xAIやAnthropicは強化学習による推論機能を強化している。

Sebastian Raschka·4月19日·★★★★

AIの進歩は鈍化しているのか?

著者らは、GPT-4以降の「スケーリングでAGIへ」という楽観論が後退し、業界の常識が変わったと指摘する。最近の報道により、モデル規模の拡大がもはや性能向上を保証しない可能性が浮上し、AI開発のパラダイムシフトを示唆している。

AI Snake Oil·12月19日·★★★★

ChatGPTにおける言語的バイアス:言語モデルが方言差別を強化する

ChatGPTなどの言語モデルは、標準語を優遇し方言を劣位に扱うバイアスを示し、方言差別を強化する可能性がある。

Berkeley AI Research·9月20日·★★★★

AI企業は神創造から製品構築へ転換した。それは良いことだ

AI企業はハードウェアとデータセンターに1兆ドルを投じているが、成果が伴わずAIバブル懸念が高まっている。本記事は、これらの企業の誤りとその是正策を分析し、業界の現状診断を示す。

AI Snake Oil·8月20日·★★★★

HEROZ ASKのGPT-4o対応について

HEROZ社が提供するAIサービス「HEROZ ASK」がGPT-4oに対応し、RAG(Retrieval-Augmented Generation)機能を強化した。GPT-4oはテキスト性能や日本語RAGの精度が向上し、AIアシスタント作成に活用できる。

HEROZ Tech Blog·6月6日

敵対的検証によるAIのデバッグ

著者は、モデル入力や訓練データの急変(ドリフト)を検出する「敵対的検証」手法を推奨する。この簡易な方法は複雑なツール不要で、本番環境と評価データの不一致によるバグや、プロンプト更新時の問題を防止する。

Hamel Husain·4月12日·★★★★

大規模言語モデルに対する敵対的攻撃

ChatGPTの普及によりLLM利用が加速する中、OpenAIはRLHFによる安全な動作構築に注力している。しかし、敵対的攻撃やジェイルブレイクプロンプトにより、モデルが望ましくない出力を行うリスクが存在する。

Lilian Weng·10月25日·★★★★

Zero-shot Learningの包括的サーベイ:CLIPが切り開いたVision & Languageの新たな地平

CLIPを起点に、Zero-shot LearningとVision & Languageの最新研究を網羅的に調査。画像生成AIとも関連する技術動向を解説。

ExaWizards Tech Blog·5月10日·★★★★

記事中のノイズ削除方式 - ChatGPTとの比較

ストックマーク社が自社製品で実装している記事中のノイズ削除技術を、ChatGPT Plus(GPT-4)と比較検証している。プロダクトへの組み込み可能性を探る実践的な比較記事である。

Stockmark Tech Blog·5月8日

500件の検索クエリでChatGPTとGoogleを評価

研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。

Surge AI Blog·12月21日·★★★★

Surge AIがOpenAIの8,500問の数学問題データセットGSM8Kを構築した方法

OpenAIのために8,500問の小学校レベルの数学問題データセットを構築し、GPT-3などの言語モデルが自然言語の数学問題を解く能力と推論力を測定・向上させることを目的としています。

Surge AI Blog·6月13日·★★★★

GPT3の仕組み - ビジュアライゼーションとアニメーション

GPT3などの大規模言語モデルの能力が注目を集め、技術界で話題となっている。

Jay Alammar·7月27日·★★★★
← 前へ16 / 16