【AI+2513】智譜が視覚プログラミング多モーダルコーディング基盤モデルGLM-5V-Turboをリリース

2026-04-02 02:47:26

概要作成中

内地の人工知能AIのリーディング企業の一つであるジプスル（02513）木曜（2日）に、視覚プログラミングで制作するマルチモーダルコーディング基盤モデルGLM-5V-Turboを発表。

ジプスルは、GLM-5V-Turboが事前学習段階から視覚とテキストの能力を深く融合しており、プログラミングは純テキスト入力に限定されなくなったと説明している。モデルはデザイン案、スクリーンショット、Web画面を理解し、それに基づいて完全に実行可能なコードを生成できるようになり、「画面が分かる、コードが書ける」を本当に実現した。

GLM-5V-Turboの3つの特長

ネイティブなマルチモーダルCoding基盤：画像、動画、デザイン案、ドキュメントのレイアウトなどのマルチモーダル入力をネイティブに理解し、フレーム枠、スクリーンショット、Webの閲覧などのマルチモーダルツール呼び出しをサポート。コンテキストウィンドウは200kまで拡張
視覚とプログラミング能力を両立：マルチモーダルCoding、Tool Use、GUI Agentなどの主要ベンチマークでリーディングなパフォーマンスを獲得。マルチタスク協調RLなどの技術手段により、純テキストのシーンにおけるコーディング、推論、ツール呼び出しなどの能力が低下しないことを確保。
Claude Codeとロブスターのシーンに深く適応：Claude Code、OpenClaw/AutoClawなどのAgentと深い協同を行い、「環境を理解→行動を計画→タスクを実行」という完全なクローズドループをサポートし、公式Skills一式を提供。開封即利用。

ジプスルによると、マルチモーダルCoding、Agenticタスク、純テキストCodingの各評価基準において、GLM-5V-Turboはいずれもより小さなサイズでリーディングなパフォーマンスを達成している。

	![](https://img-cdn.gateio.im/social/moments-d1c5841902-024843c1ac-8b7abd-badf29)

GLM-5V-Turboは、デザイン案の再現、視覚コード生成、マルチモーダル検索と質疑応答、視覚的な探索などのベンチマークでいずれもリーディングなパフォーマンスを獲得している。実際のGUI環境の操作能力を測るAndroidWorld、WebVoyagerなどのベンチマークでも同様に際立った表現を示した。

純テキストCoding能力において、GLM-5V-TurboはCC-Bench-V2のBackend、Frontend、Repo Explorationという3つの主要ベンチマークテストでいずれも安定したパフォーマンスを維持しており、視覚能力を導入しても、純テキストのコーディングと推論能力が同等の水準を保っていることを示している。

	![](https://img-cdn.gateio.im/social/moments-ad1d8e7241-eb753f4f45-8b7abd-badf29)

紹介によれば、GLM-5V-Turboが性能面でリードできているのは、そのモデルアーキテクチャ、訓練方法、データ構造、ツールチェーンの4つのレイヤーにおける体系的なアップグレードにあるという。

Agentのデータ不足と検証の難しさという業界課題に対して、ジプスルは、要素認識からシーケンスレベルの行動予測に至る多層的な体系を構築した。合成環境に基づき大規模に制御可能で検証可能な訓練データを生成し、事前学習段階からAgenticのメタ能力（たとえば、GUI Agent PRMデータを事前学習に加えて幻覚を低減すること）を注入すると同時に、非対称最適化も探究し、マルチモーダル評価タスクでより強力なAgent能力を引き出す。

直接Cap 図でプログラミング

アプリケーション面では、ジプスルは次のような例を挙げている：

1.画像＝コード

GLM-5V-Turboは、とりわけ主要な視覚コーディングのシーンが得意だ。

フロントエンドの復刻：スケッチ、デザイン案、参照サイトのスクリーンショットや録画を送ると、モデルはレイアウト、配色、コンポーネントのレベル、インタラクションのロジックを直接理解し、完全に実行可能なフロントエンドのプロジェクトを生成できる。レイアウト、配色、動き（アニメーション）などの視覚的な細部を正確に再現する。

GUIの自律探索で復刻：Claude Codeなどのフレームワークと組み合わせることで、GLM-5V-Turboは自身の強力なGUI Agent能力を用いて目的のWebサイトを自律探索できる。ページ構造を閲覧し、各ページ間のジャンプ関係を整理し、視覚素材とインタラクションの細部を収集したうえで、記録された探索結果に基づいて直接コードを生成し、サイト全体を再現する。「画像で復刻」から「GUI探索で復刻」への能力の飛躍を実現。

インタラクティブ編集：要件に応じてページのモジュールを追加・削除し、文章やスタイルを修正し、レイアウト構造を調整できる。また、ボタンのフィードバック、ポップアップの切り替え、フォームの連動などのインタラクティブ機能を補足でき、可視化された反復編集を実現する。

2.ロブスターに目を付ける

ロブスターのタスクの境界は大幅に広がり、たとえばWebページやドキュメントを閲覧して、図表と文章が豊富なレポートやPPTを生成できるだけでなく、K線図などの複雑なチャートを照会して解釈することも可能だ。

AutoClawは「株式アナリスト」Skillをすでに公開しており、GLM-5V-Turboのネイティブな視覚能力を活用することで、ロブスターは株価のトレンドライン、バリュエーション区間図、証券会社のリサーチレポートのチャートを直接理解し、4系統のデータソースを60秒で並行採集して、図表と文章が交錯したリサーチレポートを出力できる。現在はAutoClaw内でGLM-5V-Turboに切り替えて、質問「今日のXXXの株価を分析して、プロフェッショナルな分析レポートを生成して」を試せる。

視覚コーディングやロブスターのタスクに加えて、GLM-5V-Turboは、マルチモーダル検索、深掘りリサーチ、GUI Agent、認識のGroundingなど、より幅広いAgenticシーンでも顕著な性能向上を実現している。

そのため、公式Skillsを一式提供しており、画像Captioning、視覚Grounding、ドキュメントに基づくライティング、履歴書の選別、プロンプト生成などのネイティブ能力をカバーしている。さらに、GLM-OCRとGLM-Imageをベースに構築した文字認識、表の認識、手書き体の認識、数式の認識、テキストから画像を生成する能力も含まれており、ユーザーがより多くのシーンでモデルのマルチモーダルの可能性を解放できるよう支援する。上述のSkillsはすでにClawHubで公開されており、一鍵インストールするだけで全能力を体験できる。

		財経Hot Talk
	





	イランと米国の間の戦争は長期戦になるのか？ 市場は世界的な景気後退リスクを過小評価しているのか？

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateSquareAprilPostingChallenge
38.65K 人気度
#
CryptoMarketSeesVolatility
75.2K 人気度
#
IsraelStrikesIranBTCPlunges
20.63K 人気度
#
OilPricesRise
247.78K 人気度
#
CeasefireExpectationsRise
438.13K 人気度

人気の Gate Fun
もっと見る

1
ZXJC820RR
张雪机车
時価総額:$2.28K保有者数:2
0.15%
2
神舟九号
神舟九号
時価総額:$2.26K保有者数:2
0.15%
3
唯一可以卖出的貔貅币
貔貅币
時価総額:$2.23K保有者数:1
0.00%
4
唯一可以卖出的貔貅币
貔貅币
時価総額:$2.23K保有者数:1
0.00%
5
pixiu
貔貅币
時価総額:$2.23K保有者数:1
0.00%

ピン

サイトマップ

【AI+2513】智譜が視覚プログラミング多モーダルコーディング基盤モデルGLM-5V-Turboをリリース

GLM-5V-Turboの3つの特長

直接Cap 図でプログラミング

人気の話題

GateSquareAprilPostingChallenge

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

OilPricesRise

CeasefireExpectationsRise

人気の Gate Fun

ZXJC820RR

张雪机车

神舟九号

神舟九号

唯一可以卖出的貔貅币

貔貅币

唯一可以卖出的貔貅币

貔貅币

pixiu

貔貅币

ピン