Surge AI Blog の最新記事

コミュニティ

20件の記事

500件の検索クエリでChatGPTとGoogleを評価

研究者が500件の検索クエリでChatGPTとGoogleを比較した結果、ChatGPTはコーディング分野でGoogleを圧倒し、一般情報では互角の性能を示した。これは検索体験に最適化されていないにもかかわらず達成された。

Surge AI Blog·12月21日·★★★★

AIレッドチームによる敵対的訓練:ChatGPTと大規模言語モデルの敵対的堅牢性向上方法

OpenAIは、創造的なデータラベラーからなるAIレッドチームを組織し、大規模言語モデルが攻撃に耐えるよう、敵対的訓練を通じて防御力を高める取り組みを進めている。

Surge AI Blog·12月12日·★★★★

HellaSwagは優れたベンチマークか、それとも欠陥があるのか?人気LLMベンチマークの36%に誤りが含まれている

研究者らが人気のLLMベンチマーク「HellaSwag」を分析した結果、行の36%に誤りが含まれていることを発見した。

Surge AI Blog·12月4日

TikTokが次世代の検索をどのように進化させているか

TikTokが検索結果に影響を与えている状況について、研究者が大規模な人間評価を実施し、ユーザーがクエリとTikTok動画のペアを評価した結果を分析した。

Surge AI Blog·10月25日

生成AIの評価:Astral Codex TenはAI進歩に関する賭けに勝利したのか?

Astral Codex TenがAI進歩に関する賭けに勝利したかを検証するため、SurgersがDALL・EとImagenをScottの5つの構成性プロンプトで評価した。

Surge AI Blog·9月29日

なぜInstagramはZ世代を失っているのか:100人のユーザーにTikTokとReelsを比較してもらった

Meta社が100人のユーザーにTikTokとInstagram Reelsを比較評価させた調査で、Z世代はReelsを「TikTok動画が死ぬ場所」と見なしており、Instagramが短期的なエンゲージメント指標を超える必要性が示された。

Surge AI Blog·8月31日

25万ドルの逆スケーリング賞と人間-AIアライメント

Surge AIがNYUとアライメント研究基金と提携し、逆スケーリング賞を設立。大規模言語モデルの逆スケーリング特性を持つタスクを発見した研究者に、データセット作成支援と500ドルの無料ラベリングクレジットを提供。

Surge AI Blog·8月15日

検索の舞台裏:Neevaが検索品質を測定するために人間による評価を活用する方法

Neevaは、検索品質を測定するために人間による評価を活用し、Googleに挑戦する最先端の検索エンジンを構築している。

Surge AI Blog·7月29日

大規模言語モデルの人間評価:Hugging FaceのBLOOMはどれほど優れているか?

Hugging Faceが1760億パラメータの多言語大規模言語モデルBLOOMを発表し、7つの実世界カテゴリーで人間による評価を実施して他の最先端LLMとの比較を行った。

Surge AI Blog·7月19日·★★★★

Googleの感情データセットの30%が誤ってラベル付けされている

Googleが昨年公開した「GoEmotions」データセット(Redditコメント5.8万件を27の感情で分類した人間によるラベル付きデータ)の30%が誤ってラベル付けされていることが判明した。

Surge AI Blog·7月11日

Redwood ResearchによるAIレッドチームと敵対的データラベリング

Surge AIはAIに人間の価値観と知性を組み込むことを目指し、AIが人間の意図を理解し信頼できる世界の構築を目指している。

Surge AI Blog·6月28日·★★★★

人間 vs ゲイリー・マーカス vs スレート・スター・コーデックス:AIの失敗は本当に失敗なのか?

ゲイリー・マーカスが指摘するAIのミスは、本当の失敗か創造性の兆候か。15人の人間が同じ課題に挑戦し、GPT-3の「失敗」との比較を試みた。

Surge AI Blog·6月22日

Surge AIがOpenAIの8,500問の数学問題データセットGSM8Kを構築した方法

OpenAIのために8,500問の小学校レベルの数学問題データセットを構築し、GPT-3などの言語モデルが自然言語の数学問題を解く能力と推論力を測定・向上させることを目的としています。

Surge AI Blog·6月13日·★★★★

100人の人間にDALL・Eのプロンプトを描いてもらった

創造性豊かなAI時代における人間の芸術家の役割を探るため、100人にDALL-Eのプロンプトを描いてもらい、その結果を分析した。

Surge AI Blog·5月12日

Google検索は後れを取っている

プログラミング、スポーツ、料理の3分野の検索クエリを分析し、Google検索が競合他社に遅れを取っていることを示した。

Surge AI Blog·4月12日

エンゲージメントを超えて:人間の価値観に合わせたFacebookアルゴリズムの最適化

ソーシャルメディアはエンゲージメント最適化により有害コンテンツを拡散する問題があり、Facebookはデータ駆動で人間の価値観に沿ったMLシステム構築を目指す。

Surge AI Blog·2月10日·★★★★

なんてこった:人気の有害性モデルは単なる悪口検出器なのか?

人気の有害性モデルは悪口を過大評価し、肯定的な文脈での悪口使用を誤判定する問題があることが示された。

Surge AI Blog·1月22日·★★★★

Google検索は劣化しているのか?2022年の検索品質を測定

近年のGoogle検索品質の劣化を、人間による評価を用いて測定した調査結果を紹介する。

Surge AI Blog·1月10日

データ中心のAIにおける文脈感度の重要性:5つの例

データ中心のAIでは、モデルに入力するデータの再考が不可欠です。文脈を考慮したラベル付けが重要であり、適切なスキルを持つデータラベラーが必要です。

Surge AI Blog·11月19日

AIのボトルネック:高品質な人間によるデータ

AIの実用化には高品質な学習データの作成が依然として困難であり、これが技術発展の障壁となっている。

Surge AI Blog·8月2日