画像理解機能の追加 - Alibaba Cloud Model Studio - Alibaba Cloud ドキュメントセンター

Alibaba Cloud Model Studio Coding Plan の一部のモデル (qwen3.5-plus、kimi-k2.5 など) は、ネイティブの画像理解機能を備えており、イメージ入力を直接処理できます。glm-5 や MiniMax-M2.5 などのプレーンテキストモデルには、ローカルスキルを追加することで画像理解機能を有効にできます。

説明

画像理解スキルを実行すると、ご利用の Coding Plan クォータが消費されます。追加料金は発生しません。

前提条件

Coding Plan にサブスクライブ済みであること。Coding Plan。詳細については、「使用開始」をご参照ください。
Coding Plan ツールで接続を構成済みであり、正常に会話できること。詳細については、「AI ツールへの接続」をご参照ください。

ビジュアルサポートステータス

モデル	ビジュアルサポート	説明
qwen3.5-plus kimi-k2.5	はい	追加の構成は不要です。イメージを直接渡すことができます。
qwen3-max-2026-01-23 qwen3-coder-next qwen3-coder-plus glm-5 glm-4.7 MiniMax-M2.5	いいえ	モデルにビジュアル機能を持たせるには、スキルまたはエージェントが必要です。

方法 1: ビジュアルモデルを直接使用 (推奨)

qwen3.5-plus および kimi-k2.5 モデルは、ネイティブの画像理解機能を備えています。頻繁に画像を処理する必要がある場合は、これらのモデルに切り替えることが最もシンプルで推奨されるアプローチです。

ツール	モデルの切り替え方法
Claude Code	`/model qwen3.5-plus` または `/model kimi-k2.5`
OpenCode	`/models` → 検索して、`qwen3.5-plus` または `kimi-k2.5` を選択
Qwen Code	`/model` → `qwen3.5-plus` または `kimi-k2.5` を選択します。

他のプログラミングツールでのモデルの切り替え方法の詳細については、「AI ツールへの接続」をご参照ください。モデルを切り替えた後、会話内で画像パスを直接参照したり、画像をドラッグアンドドロップまたは貼り付けたりできます。

方法 2: スキルまたはエージェントを使用したビジュアル機能の追加

glm-5 や MiniMax-M2.5 など、画像理解機能を持たないモデルで画像を処理するには、スキルまたはエージェントを構成できます。

Claude Code

スキルの追加

プロジェクトディレクトリ内の .claude フォルダ内に、skills/image-analyzer フォルダを作成します。

mkdir -p .claude/skills/image-analyzer

このフォルダ内に、SKILL.md ファイルを作成し、以下のコンテンツを追加します。

---
name: image-analyzer
description: ビジュアル機能を持たないモデルが画像を理解するのを助けます。画像コンテンツの分析、画像からの情報、テキスト、UI 要素の抽出、またはスクリーンショット、チャート、アーキテクチャ図などのあらゆる視覚コンテンツの理解が必要な場合に、このスキルを使用します。画像パスを渡して説明を取得します。
model: qwen3.5-plus
---
qwen3.5-plus は画像理解機能を備えています。画像理解には qwen3.5-plus モデルを直接使用します。

結果のフォルダ構造は次のとおりです。

.claude/
└── skills/
    └── image-analyzer/
        └── SKILL.md

使用開始
1. プロジェクトディレクトリで claude を実行して Claude Code を起動し、次に /model glm-5 を実行して glm-5 モデルに切り替えます。
2. と alibabacloud.png をプロジェクトディレクトリにダウンロードし、次の質問をします: Load the image-analyzer skill and describe the information displayed in the alibabacloud.png banner. 次の応答が返されます:

OpenCode

エージェントの追加

プロジェクトディレクトリ内の .opencode フォルダ内に、新しい agents フォルダを作成します。

mkdir -p .opencode/agents

このフォルダ内に、image-analyzer.md ファイルを作成し、以下のコンテンツを追加します。

説明

モデルフィールドは、OpenCode 構成ファイルで定義されているプロバイダーとモデル名を使用する必要があります。たとえば、OpenCode ドキュメントの構成に基づくと、値は bailian-coding-plan/qwen3.5-plus です。

---
description: ビジョン対応モデルを使用して画像を分析します。ユーザーが画像コンテンツの理解、スクリーンショット、図、UI モックアップ、またはあらゆる視覚コンテンツからの情報抽出を必要とする場合に、このエージェントを使用します。@image-analyzer の後に画像パスと質問を続けて呼び出します。
mode: subagent
model: bailian-coding-plan/qwen3.5-plus
tools:
  write: false
  edit: false
---
あなたはビジョン機能を備えています。提供された画像を分析し、ユーザーが尋ねている内容に焦点を当てた、明確で構造化された説明を返します。

結果のフォルダ構造は次のとおりです。

.opencode/
└── agents/
    └── image-analyzer.md

使用開始
1. プロジェクトディレクトリで opencode を実行して OpenCode を起動し、次に glm-5 モデルに切り替えます。
2. プロジェクトフォルダにおよび alibabacloud.png をダウンロードし、@ アットマークを使用して image-analyzer を呼び出し、その後以下の質問を行います：@image-analyzer alibabacloud.png のバナーに表示されている情報を説明してください。 次の応答が返されます：

よくある質問

OpenCode + qwen3.5-plus がイメージを理解できないのはなぜですか？

原因：デフォルトでは、OpenCode はモデルの視覚機能を有効にしていません。構成ファイルで modalities パラメーターを明示的に宣言する必要があります。

解決策：OpenCode 構成ファイルのモデル定義に、modalities フィールドを追加し、input を ["text", "image"] に設定します。以下に例を示します。

sk-sp-xxx をご利用の Coding Plan API キーに置き換えてください。

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "bailian-coding-plan-test": {
      "npm": "@ai-sdk/anthropic",
      "name": "Model Studio Coding Plan",
      "options": {
        "baseURL": "https://coding-intl.dashscope.aliyuncs.com/apps/anthropic/v1",
        "apiKey": "sk-sp-xxx"
      },
      "models": {
        "qwen3.5-plus": {
          "name": "Qwen3.5 Plus",
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "options": {
            "thinking": {
              "type": "enabled",
              "budgetTokens": 1024
            }
          }
        },
        "kimi-k2.5": {
          "name": "Kimi K2.5",
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "options": {
            "thinking": {
              "type": "enabled",
              "budgetTokens": 1024
            }
          }
        }
      }
    }
  }
}

OpenClaw + qwen3.5-plus がイメージを理解できないのはなぜですか？

原因：OpenClaw は、構成ファイルの input フィールドに基づいて、モデルが視覚機能をサポートしているかどうかを判断します。

解決策：

~/.openclaw/openclaw.json 構成ファイルで、モデル定義に "input": ["text", "image"] フィールドが含まれていることを確認してください。

{
  "models": {
    "mode": "merge",
    "providers": {
      "bailian": {
        "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
        "apiKey": "YOUR_API_KEY",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.5-plus",
            "name": "qwen3.5-plus",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 1000000,
            "maxTokens": 65536
          },
          {
            "id": "kimi-k2.5",
            "name": "kimi-k2.5",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 262144,
            "maxTokens": 32768
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "bailian/qwen3.5-plus"
      },
      "models": {
        "bailian/qwen3.5-plus": {},
        "bailian/kimi-k2.5": {}
      }
    }
  },
  "gateway": {
    "mode": "local"
  }
}

構成を変更した後、OpenClaw モデルキャッシュをパージし、サービスを再起動する必要があります。そうしないと、古い構成が引き続き使用されます。
```
rm ~/.openclaw/agents/main/agent/models.json
openclaw gateway restart
```