新しいベンチマークがX上で5つのAIモデルを自律的ソーシャルメディアエージェントとして競わせる
AIベンチマーク企業のArcada Labsが、Xプラットフォーム上で自律的に活動するソーシャルメディアエージェントとして5つの主要AIモデルを競わせる新たなベンチマークを実施した。
キーポイント
新たなAIベンチマークの実施
Arcada Labsが、X(旧Twitter)上で自律的に活動するソーシャルメディアエージェントとして5つの主要AIモデルを競わせるベンチマークを実施した。
自律型ソーシャルメディアエージェントの評価
AIモデルが人間の介入なしにXプラットフォーム上でどのように振る舞い、パフォーマンスを発揮するかを評価することを目的としている。
ベンチマーク提供企業
このベンチマークは、AIベンチマークを専門とするスタートアップ企業であるArcada Labsによって提供・実施された。
影響分析・編集コメントを表示
影響分析
この記事は、AIモデルの評価が従来の静的タスクから、動的で社会的な環境(ソーシャルメディア)における自律的行動へと拡大しているトレンドを示している。実世界でのAIの応用可能性と社会的相互作用能力を測る新たな指標として注目されるが、現時点では実験段階のベンチマークであり、即時の実用化や業界標準への影響は限定的である。
編集コメント
AIモデルの評価が生成能力だけでなく、実環境での自律的・社会的振る舞いへと広がりを見せる興味深い試み。ただし、記事は発表のアナウンスに留まっており、具体的な評価方法や結果、参加モデル名などの詳細情報が不足している点が惜しまれる。

AIベンチマーク企業のArcada Labsは、主要5つのAIモデルを、Xプラットフォーム上で自律的に動作するソーシャルメディアエージェントとして対決させています。
本記事「新たなベンチマークが5つのAIモデルをX上の自律的ソーシャルメディアエージェントとして競わせる」は、The Decoderに最初に掲載されました。
原文を表示
AI benchmarking startup Arcada Labs is pitting five leading AI models against each other as autonomous social media agents on X.
Most benchmarks test AI models in isolation and can be unreliable. Arcada Labs takes a different approach, running head-to-head comparisons of AI agents across various disciplines.
Their experimental competition, "Social Arena," measures whether models can build a following, generate engagement, and develop a consistent online persona, all without human help. Instead of knowledge queries or logic tests, the benchmark focuses on something harder to quantify: the ability to navigate social environments in a culturally fluent way.
Five AI agents, powered by Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7, and GPT 5.2, each run with different "personalities." Their performance can be tracked and compared on the project's website using metrics like views, likes, and followers. To keep things fair, all agents get the same system prompt.
Every hour, the agents run through an autonomous cycle: they check current trends, review their own performance data, research content, and then decide on their own whether to post, reply, like, or share. Engagement metrics sync after each cycle so every model can tweak its strategy based on fresh data. More details on the methodology are on the project website (see above).
The competition kicked off on January 15, 2026. Claude Opus 4.5 currently leads in cumulative views at around 86,000, with GPT 5.2 close behind at 83,000. The rest trail far behind. Grok 4.1, meanwhile, has built the largest following of any agent, with just 76 followers.
The agents aren't told to chase "viral" content, according to the startup. Instead, they have to develop their own sense of taste and topics. Some patterns are already emerging: the Grok agent leans heavily into Musk and space travel, which tracks with earlier reports that xAI tweaked Grok's behavior to favor things Elon Musk likes. The Claude models gravitate toward sports, Gemini 3 sticks to technical AI topics. And GPT 5.2's current obsession is animal behavior.
Harvard grads building benchmarks for taste and aesthetics
Arcada Labs was founded in San Francisco in 2025, according to Everydev.ai, and joined Y Combinator that summer. The startup is run by Harvard graduates Grace Li (CEO), Kamryn Ohly (CTO), and Jayden Personnat (AI lead), all of whom previously worked at Apple and Nvidia. Their focus is on benchmarks that go beyond logical reasoning. They want to measure things like aesthetics and taste, the kind of human preferences that traditional tests struggle to capture. More AI agent competitions, including ones for design and event prediction, are on the startup's website.
AI News Without the Hype – Curated by Humans
Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み