Surge AI Blog の最新記事
コミュニティ20件の記事
500件の検索クエリでChatGPTとGoogleを評価
研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。
AIレッドチームによる敵対的訓練:ChatGPTと大規模言語モデルの敵対的堅牢性向上方法
OpenAIは、創造的なデータラベラーからなるAIレッドチームを組織し、大規模言語モデルが攻撃に耐えるよう、敵対的訓練を通じて防御力を高める取り組みを進めている。
HellaSwagは優れたベンチマークか、それとも欠陥があるのか?人気LLMベンチマークの36%に誤りが含まれている
研究者らが人気のLLMベンチマーク「HellaSwag」を分析した結果、行の36%に誤りが含まれていることを発見した。
TikTokが次世代の検索をどのように進化させているか
TikTokが検索結果に影響を与えている状況について、研究者が大規模な人間評価を実施し、ユーザーがクエリとTikTok動画のペアを評価した結果を分析した。
生成AIの評価:Astral Codex TenはAI進歩に関する賭けに勝利したのか?
Astral Codex TenがAI進歩に関する賭けに勝利したかを検証するため、SurgersがDALL・EとImagenをScottの5つの構成性プロンプトで評価した。
なぜInstagramはZ世代を失っているのか:100人のユーザーにTikTokとReelsを比較してもらった
Meta社が100人のユーザーにTikTokとInstagram Reelsを比較評価させた調査で、Z世代はReelsを「TikTok動画が死ぬ場所」と見なしており、Instagramが短期的なエンゲージメント指標を超える必要性が示された。
25万ドルの逆スケーリング賞と人間-AIアライメント
Surge AIがNYUとアライメント研究基金と提携し、逆スケーリング賞を設立。大規模言語モデルの逆スケーリング特性を持つタスクを発見した研究者に、データセット作成支援と500ドルの無料ラベリングクレジットを提供。
検索の舞台裏:Neevaが検索品質を測定するために人間による評価を活用する方法
Neevaは、検索品質を測定するために人間による評価を活用し、Googleに挑戦する最先端の検索エンジンを構築している。
大規模言語モデルの人間評価:Hugging FaceのBLOOMはどれほど優れているか?
Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。
Googleの感情データセットの30%が誤ってラベル付けされている
Googleが昨年公開した「GoEmotions」データセット(Redditコメント5.8万件を27の感情で分類した人間によるラベル付きデータ)の30%が誤ってラベル付けされていることが判明した。
Redwood ResearchによるAIレッドチームと敵対的データラベリング
Surge AIはAIに人間の価値観と知性を組み込むことを目指し、AIが人間の意図を理解し信頼できる世界の構築を目指している。
人間 vs ゲイリー・マーカス vs スレート・スター・コーデックス:AIの失敗は本当に失敗なのか?
ゲイリー・マーカスが指摘するAIのミスは、本当の失敗か創造性の兆候か。15人の人間が同じ課題に挑戦し、GPT-3の「失敗」との比較を試みた。
Surge AIがOpenAIの8,500問の数学問題データセットGSM8Kを構築した方法
OpenAIのために8,500問の小学校レベルの数学問題データセットを構築し、GPT-3などの言語モデルが自然言語の数学問題を解く能力と推論力を測定・向上させることを目的としています。
100人の人間にDALL・Eのプロンプトを描いてもらった
創造性豊かなAI時代における人間の芸術家の役割を探るため、100人にDALL-Eのプロンプトを描いてもらい、その結果を分析した。
Google検索は後れを取っている
プログラミング、スポーツ、料理の3分野の検索クエリを分析し、Google検索が競合他社に遅れを取っていることを示した。
エンゲージメントを超えて:人間の価値観に合わせたFacebookアルゴリズムの最適化
ソーシャルメディアはエンゲージメント最適化により有害コンテンツを拡散する問題があり、Facebookはデータ駆動で人間の価値観に沿ったMLシステム構築を目指す。
なんてこった:人気の有害性モデルは単なる悪口検出器なのか?
人気の有害性モデルは悪口を過大評価し、肯定的な文脈での悪口使用を誤判定する問題があることが示された。
Google検索は劣化しているのか?2022年の検索品質を測定
近年のGoogle検索品質の劣化を、人間による評価を用いて測定した調査結果を紹介する。
データ中心のAIにおける文脈感度の重要性:5つの例
データ中心のAIでは、モデルに入力するデータの再考が不可欠です。文脈を考慮したラベル付けが重要であり、適切なスキルを持つデータラベラーが必要です。
AIのボトルネック:高品質な人間によるデータ
AIの実用化には高品質な学習データの作成が依然として困難であり、これが技術発展の障壁となっている。