AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
智谱·2026年4月10日 18:15·約1分で読める

GLM-5.1がLMArenaコードランキングでオープンソース1位、世界3位を獲得

#LLM#オープンソース#コード生成#長期間タスク#ベンチマーク#実用性能
TL;DR

智谱のGLM-5.1がLMArenaのCode Arenaでオープンソースモデル1位・世界全体で3位を獲得し、特に長期間タスクでの8時間Linuxデスクトップ構築などの実用性能を実証した。

AI深層分析2026年4月10日 21:41
4
重要/ 5段階
深度40%
4
関連度30%
5
実用性20%
4
革新性10%
4

キーポイント

1

LMArenaコード評価での高順位

GLM-5.1がLMArenaのCode Arenaでオープンソースモデルとして1位、世界全体で3位を獲得した。

2

長期間タスクでの実用性能

8時間でLinuxデスクトップをゼロから構築し、655回のベクトルデータベース最適化、1000回のツール呼び出しによる機械学習モデル負荷最適化を実現した。

3

持続作業能力の評価

METR評価基準で8時間級の持続作業が可能な唯一のオープンソースモデルであり、Claude Opus 4.6と並ぶ数少ないモデルと評価された。

4

前世代からの継承と進化

前世代モデルのSOTAコーディング能力を継承しつつ、長期間タスクで新たなブレークスルーを達成した。

影響分析・編集コメントを表示

影響分析

この成果はオープンソースLLMの実用性能が商用モデルに匹敵する水準に達しつつあることを示しており、開発者コミュニティや企業のAI導入に大きな影響を与える可能性がある。特に長期間・複雑なタスクでの性能向上は、実務でのAI活用範囲を拡大する重要な進展と言える。

編集コメント

オープンソースモデルが商用モデルと同等の実用性能を実証した点が特に注目される。長期間タスクでの具体的な成果数値が示されており、PR色が強いながらも技術的な信頼性が高い記事と言える。

智譜 2026-04-10 17:15 北京

本日、世界的に権威あるAI評価プラットフォーム「LMArena」(百万人規模のユーザーが参加するブラインドテスト)が、Code Arenaの専門ランキングを更新しました。これにより、GLM-5.1が世界のオープンソースモデルで第1位に躍進し、全モデル中でも第3位にランクインしました。

GLM-5.1は、前世代モデルが持つオープンソースSOTAのコーディング能力を継承しているだけでなく、長期的タスク(Long-Horizon Task)においてもブレークスルーを達成し、以下の実績を実現しました:

💻 8時間でゼロからLinuxデスクトップを構築

📊 655イテレーションでベクトルデータベースの最適化ボトルネックを打破

🤖 1000ラウンドのツール呼び出しにより実世界の機械学習モデル負荷を最適化

特筆すべきは、METRランキングの同等評価基準において、GLM-5.1が8時間に及ぶ持続作業を達成した唯一のオープンソースモデルである点です。これは世界的に見ても、Claude Opus 4.6を除けば、この能力を有する数少ないモデルの一つであることを意味します。

ぜひご利用・ご体験ください。

imageimage

WeChatで開く

原文を表示

智谱 2026-04-10 17:15 北京

今日,全球权威AI评测平台LMArena(百万用户参与盲测)更新Code Arena专项榜单,GLM-5.1登顶全球开源模型第一,位列全球模型第三。

GLM-5.1不仅继承了上一代模型的开源SOTA编码能力,还在长程任务(Long-Horizon Task)上取得突破,实现了:

💻 8小时从零构建Linux桌面

📊 655次迭代打破向量数据库优化瓶颈

🤖 1000轮工具调用优化真实机器学习模型负载

值得一提的是,在METR榜单的同等评估标准下,GLM-5.1是唯一达到8小时级持续工作的开源模型,也是全球范围内除Claude Opus 4.6外少数具备这一能力的模型。

欢迎接入与体验。

imageimage

跳转微信打开

この記事をシェア

関連記事

Latent Space★42026年6月5日 15:44

[AINews] 今日は何も大きな出来事はありませんでした

Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。

Ars Technica AI★42026年6月5日 05:44

ロシアのプロパガンダに抵抗する能力において最も優れた大規模言語モデルとは

エストニア言語研究所は、外国の敵対国が推進する危険なプロパガンダを拡散する懸念に対応するため、大規模言語モデルがロシア連邦の戦略的トピックに対して立場を取らない能力を評価する「プロパガンダ抵抗」ベンチマークを発表した。

Ars Technica AI★42026年6月4日 04:10

Google の新モデル「Gemma 4 12B」は 16GB RAM のノート PC で動作可能に設計

Google は、メモリ消費を抑えた新しい生成 AI モデル「Gemma 4 12B」を発表した。このモデルは、一般的な消費者向けノートパソコン(RAM 16GB)でも実行できるように最適化されており、ローカルでの AI 利用を促進するものである。

ニュース一覧に戻る元記事を読む