内地の人工知能AIのリーディング企業の一つであるジプスル(02513)木曜(2日)に、視覚プログラミングで制作するマルチモーダルコーディング基盤モデルGLM-5V-Turboを発表。ジプスルは、GLM-5V-Turboが事前学習段階から視覚とテキストの能力を深く融合しており、プログラミングは純テキスト入力に限定されなくなったと説明している。モデルはデザイン案、スクリーンショット、Web画面を理解し、それに基づいて完全に実行可能なコードを生成できるようになり、「画面が分かる、コードが書ける」を本当に実現した。GLM-5V-Turboの3つの特長---------------* ネイティブなマルチモーダルCoding基盤:画像、動画、デザイン案、ドキュメントのレイアウトなどのマルチモーダル入力をネイティブに理解し、フレーム枠、スクリーンショット、Webの閲覧などのマルチモーダルツール呼び出しをサポート。コンテキストウィンドウは200kまで拡張* 視覚とプログラミング能力を両立:マルチモーダルCoding、Tool Use、GUI Agentなどの主要ベンチマークでリーディングなパフォーマンスを獲得。マルチタスク協調RLなどの技術手段により、純テキストのシーンにおけるコーディング、推論、ツール呼び出しなどの能力が低下しないことを確保。* Claude Codeとロブスターのシーンに深く適応:Claude Code、OpenClaw/AutoClawなどのAgentと深い協同を行い、「環境を理解→行動を計画→タスクを実行」という完全なクローズドループをサポートし、公式Skills一式を提供。開封即利用。ジプスルによると、マルチモーダルCoding、Agenticタスク、純テキストCodingの各評価基準において、GLM-5V-Turboはいずれもより小さなサイズでリーディングなパフォーマンスを達成している。  GLM-5V-Turboは、デザイン案の再現、視覚コード生成、マルチモーダル検索と質疑応答、視覚的な探索などのベンチマークでいずれもリーディングなパフォーマンスを獲得している。実際のGUI環境の操作能力を測るAndroidWorld、WebVoyagerなどのベンチマークでも同様に際立った表現を示した。純テキストCoding能力において、GLM-5V-TurboはCC-Bench-V2のBackend、Frontend、Repo Explorationという3つの主要ベンチマークテストでいずれも安定したパフォーマンスを維持しており、視覚能力を導入しても、純テキストのコーディングと推論能力が同等の水準を保っていることを示している。  紹介によれば、GLM-5V-Turboが性能面でリードできているのは、そのモデルアーキテクチャ、訓練方法、データ構造、ツールチェーンの4つのレイヤーにおける体系的なアップグレードにあるという。Agentのデータ不足と検証の難しさという業界課題に対して、ジプスルは、要素認識からシーケンスレベルの行動予測に至る多層的な体系を構築した。合成環境に基づき大規模に制御可能で検証可能な訓練データを生成し、事前学習段階からAgenticのメタ能力(たとえば、GUI Agent PRMデータを事前学習に加えて幻覚を低減すること)を注入すると同時に、非対称最適化も探究し、マルチモーダル評価タスクでより強力なAgent能力を引き出す。直接Cap 図でプログラミング----------アプリケーション面では、ジプスルは次のような例を挙げている:1.画像=コードGLM-5V-Turboは、とりわけ主要な視覚コーディングのシーンが得意だ。フロントエンドの復刻:スケッチ、デザイン案、参照サイトのスクリーンショットや録画を送ると、モデルはレイアウト、配色、コンポーネントのレベル、インタラクションのロジックを直接理解し、完全に実行可能なフロントエンドのプロジェクトを生成できる。レイアウト、配色、動き(アニメーション)などの視覚的な細部を正確に再現する。GUIの自律探索で復刻:Claude Codeなどのフレームワークと組み合わせることで、GLM-5V-Turboは自身の強力なGUI Agent能力を用いて目的のWebサイトを自律探索できる。ページ構造を閲覧し、各ページ間のジャンプ関係を整理し、視覚素材とインタラクションの細部を収集したうえで、記録された探索結果に基づいて直接コードを生成し、サイト全体を再現する。「画像で復刻」から「GUI探索で復刻」への能力の飛躍を実現。インタラクティブ編集:要件に応じてページのモジュールを追加・削除し、文章やスタイルを修正し、レイアウト構造を調整できる。また、ボタンのフィードバック、ポップアップの切り替え、フォームの連動などのインタラクティブ機能を補足でき、可視化された反復編集を実現する。2.ロブスターに目を付けるロブスターのタスクの境界は大幅に広がり、たとえばWebページやドキュメントを閲覧して、図表と文章が豊富なレポートやPPTを生成できるだけでなく、K線図などの複雑なチャートを照会して解釈することも可能だ。AutoClawは「株式アナリスト」Skillをすでに公開しており、GLM-5V-Turboのネイティブな視覚能力を活用することで、ロブスターは株価のトレンドライン、バリュエーション区間図、証券会社のリサーチレポートのチャートを直接理解し、4系統のデータソースを60秒で並行採集して、図表と文章が交錯したリサーチレポートを出力できる。現在はAutoClaw内でGLM-5V-Turboに切り替えて、質問「今日のXXXの株価を分析して、プロフェッショナルな分析レポートを生成して」を試せる。視覚コーディングやロブスターのタスクに加えて、GLM-5V-Turboは、マルチモーダル検索、深掘りリサーチ、GUI Agent、認識のGroundingなど、より幅広いAgenticシーンでも顕著な性能向上を実現している。そのため、公式Skillsを一式提供しており、画像Captioning、視覚Grounding、ドキュメントに基づくライティング、履歴書の選別、プロンプト生成などのネイティブ能力をカバーしている。さらに、GLM-OCRとGLM-Imageをベースに構築した文字認識、表の認識、手書き体の認識、数式の認識、テキストから画像を生成する能力も含まれており、ユーザーがより多くのシーンでモデルのマルチモーダルの可能性を解放できるよう支援する。上述のSkillsはすでにClawHubで公開されており、一鍵インストールするだけで全能力を体験できる。 財経Hot Talk イランと米国の間の戦争は長期戦になるのか? 市場は世界的な景気後退リスクを過小評価しているのか?
【AI+2513】智譜が視覚プログラミング多モーダルコーディング基盤モデルGLM-5V-Turboをリリース
内地の人工知能AIのリーディング企業の一つであるジプスル(02513) 木曜(2日)に、視覚プログラミングで制作するマルチモーダルコーディング基盤モデルGLM-5V-Turboを発表。
ジプスルは、GLM-5V-Turboが事前学習段階から視覚とテキストの能力を深く融合しており、プログラミングは純テキスト入力に限定されなくなったと説明している。モデルはデザイン案、スクリーンショット、Web画面を理解し、それに基づいて完全に実行可能なコードを生成できるようになり、「画面が分かる、コードが書ける」を本当に実現した。
GLM-5V-Turboの3つの特長
ジプスルによると、マルチモーダルCoding、Agenticタスク、純テキストCodingの各評価基準において、GLM-5V-Turboはいずれもより小さなサイズでリーディングなパフォーマンスを達成している。
GLM-5V-Turboは、デザイン案の再現、視覚コード生成、マルチモーダル検索と質疑応答、視覚的な探索などのベンチマークでいずれもリーディングなパフォーマンスを獲得している。実際のGUI環境の操作能力を測るAndroidWorld、WebVoyagerなどのベンチマークでも同様に際立った表現を示した。
純テキストCoding能力において、GLM-5V-TurboはCC-Bench-V2のBackend、Frontend、Repo Explorationという3つの主要ベンチマークテストでいずれも安定したパフォーマンスを維持しており、視覚能力を導入しても、純テキストのコーディングと推論能力が同等の水準を保っていることを示している。
紹介によれば、GLM-5V-Turboが性能面でリードできているのは、そのモデルアーキテクチャ、訓練方法、データ構造、ツールチェーンの4つのレイヤーにおける体系的なアップグレードにあるという。
Agentのデータ不足と検証の難しさという業界課題に対して、ジプスルは、要素認識からシーケンスレベルの行動予測に至る多層的な体系を構築した。合成環境に基づき大規模に制御可能で検証可能な訓練データを生成し、事前学習段階からAgenticのメタ能力(たとえば、GUI Agent PRMデータを事前学習に加えて幻覚を低減すること)を注入すると同時に、非対称最適化も探究し、マルチモーダル評価タスクでより強力なAgent能力を引き出す。
直接Cap 図でプログラミング
アプリケーション面では、ジプスルは次のような例を挙げている:
1.画像=コード
GLM-5V-Turboは、とりわけ主要な視覚コーディングのシーンが得意だ。
フロントエンドの復刻:スケッチ、デザイン案、参照サイトのスクリーンショットや録画を送ると、モデルはレイアウト、配色、コンポーネントのレベル、インタラクションのロジックを直接理解し、完全に実行可能なフロントエンドのプロジェクトを生成できる。レイアウト、配色、動き(アニメーション)などの視覚的な細部を正確に再現する。
GUIの自律探索で復刻:Claude Codeなどのフレームワークと組み合わせることで、GLM-5V-Turboは自身の強力なGUI Agent能力を用いて目的のWebサイトを自律探索できる。ページ構造を閲覧し、各ページ間のジャンプ関係を整理し、視覚素材とインタラクションの細部を収集したうえで、記録された探索結果に基づいて直接コードを生成し、サイト全体を再現する。「画像で復刻」から「GUI探索で復刻」への能力の飛躍を実現。
インタラクティブ編集:要件に応じてページのモジュールを追加・削除し、文章やスタイルを修正し、レイアウト構造を調整できる。また、ボタンのフィードバック、ポップアップの切り替え、フォームの連動などのインタラクティブ機能を補足でき、可視化された反復編集を実現する。
2.ロブスターに目を付ける
ロブスターのタスクの境界は大幅に広がり、たとえばWebページやドキュメントを閲覧して、図表と文章が豊富なレポートやPPTを生成できるだけでなく、K線図などの複雑なチャートを照会して解釈することも可能だ。
AutoClawは「株式アナリスト」Skillをすでに公開しており、GLM-5V-Turboのネイティブな視覚能力を活用することで、ロブスターは株価のトレンドライン、バリュエーション区間図、証券会社のリサーチレポートのチャートを直接理解し、4系統のデータソースを60秒で並行採集して、図表と文章が交錯したリサーチレポートを出力できる。現在はAutoClaw内でGLM-5V-Turboに切り替えて、質問「今日のXXXの株価を分析して、プロフェッショナルな分析レポートを生成して」を試せる。
視覚コーディングやロブスターのタスクに加えて、GLM-5V-Turboは、マルチモーダル検索、深掘りリサーチ、GUI Agent、認識のGroundingなど、より幅広いAgenticシーンでも顕著な性能向上を実現している。
そのため、公式Skillsを一式提供しており、画像Captioning、視覚Grounding、ドキュメントに基づくライティング、履歴書の選別、プロンプト生成などのネイティブ能力をカバーしている。さらに、GLM-OCRとGLM-Imageをベースに構築した文字認識、表の認識、手書き体の認識、数式の認識、テキストから画像を生成する能力も含まれており、ユーザーがより多くのシーンでモデルのマルチモーダルの可能性を解放できるよう支援する。上述のSkillsはすでにClawHubで公開されており、一鍵インストールするだけで全能力を体験できる。