Tambahkan kemampuan pemahaman visual - Alibaba Cloud Model Studio

Beberapa model dalam Coding Plan Alibaba Cloud Model Studio, seperti qwen3.5-plus dan kimi-k2.5, memiliki kemampuan pemahaman visual bawaan dan dapat langsung memproses input gambar. Untuk model teks biasa seperti glm-5 dan MiniMax-M2.5, Anda dapat menambahkan Skill lokal untuk mengaktifkan kemampuan pemahaman visual.

Catatan

Menjalankan Skill pemahaman gambar akan mengonsumsi kuota Coding Plan Anda. Tidak ada biaya tambahan lainnya.

Prasyarat

Anda telah berlangganan Coding Plan. Untuk informasi selengkapnya, lihat Memulai.
Anda telah mengonfigurasi koneksi di tool Coding Plan dan dapat melakukan percakapan secara normal. Untuk informasi selengkapnya, lihat Menghubungkan ke tool AI.

Status dukungan visual

Model	Dukungan visual	Deskripsi
qwen3.5-plus kimi-k2.5	Ya	Tidak diperlukan konfigurasi tambahan. Gambar dapat dikirim langsung.
qwen3-max-2026-01-23 qwen3-coder-next qwen3-coder-plus glm-5 glm-4.7 MiniMax-M2.5	Tidak	Diperlukan Skill atau Agent untuk memberikan kemampuan visual pada model tersebut.

Metode 1: Gunakan model visual secara langsung (Direkomendasikan)

Model qwen3.5-plus dan kimi-k2.5 memiliki kemampuan pemahaman visual bawaan. Jika Anda sering perlu memproses gambar, beralih ke model-model ini merupakan pendekatan paling sederhana dan direkomendasikan.

Tool	Cara mengganti model
Claude Code	`/model qwen3.5-plus` atau `/model kimi-k2.5`
OpenCode	`/models` → Cari dan pilih `qwen3.5-plus` atau `kimi-k2.5`
Qwen Code	`/model` → Pilih `qwen3.5-plus` atau `kimi-k2.5`

Untuk informasi selengkapnya tentang cara mengganti model di tool pemrograman lainnya, lihat Menghubungkan ke tool AI. Setelah mengganti model, Anda dapat langsung mereferensikan path gambar dalam percakapan, atau menyeret dan melepas (drag and drop) serta menempel (paste) gambar.

Metode 2: Tambahkan kemampuan visual menggunakan Skill atau Agent

Untuk memproses gambar dengan model yang tidak memiliki kemampuan pemahaman visual, seperti glm-5 dan MiniMax-M2.5, Anda dapat mengonfigurasi Skill atau Agent.

Claude Code

Tambahkan Skill

Di folder .claude dalam direktori proyek Anda, buat folder skills/image-analyzer:

mkdir -p .claude/skills/image-analyzer

Di folder ini, buat file SKILL.md dan tambahkan konten berikut:

---
name: image-analyzer
description: Membantu model tanpa kemampuan visual memahami gambar. Gunakan skill ini saat Anda perlu menganalisis konten gambar, mengekstrak informasi, teks, atau elemen UI dari gambar, atau memahami konten visual apa pun seperti tangkapan layar, grafik, atau diagram arsitektur. Kirim path gambar untuk mendapatkan deskripsi.
model: qwen3.5-plus
---
qwen3.5-plus memiliki kemampuan pemahaman visual. Gunakan model qwen3.5-plus secara langsung untuk pemahaman gambar.

Struktur folder yang dihasilkan adalah sebagai berikut:

.claude/
└── skills/
    └── image-analyzer/
        └── SKILL.md

Memulai
1. Di direktori proyek Anda, jalankan claude untuk memulai Claude Code, lalu jalankan /model glm-5 untuk beralih ke model glm-5.
2. Unduh dan alibabacloud.png ke direktori proyek Anda, lalu ajukan pertanyaan berikut: Load the image-analyzer skill and describe the information displayed in the alibabacloud.png banner. Anda akan menerima respons berikut:

OpenCode

Tambahkan Agent

Di folder .opencode dalam direktori proyek Anda, buat folder baru agents.

mkdir -p .opencode/agents

Di folder ini, buat file image-analyzer.md dan tambahkan konten berikut:

Catatan

Bidang model harus menggunakan nama penyedia dan model yang didefinisikan dalam file konfigurasi OpenCode. Misalnya, berdasarkan konfigurasi dalam dokumen OpenCode, nilainya adalah bailian-coding-plan/qwen3.5-plus.

---
description: Menganalisis gambar menggunakan model yang mendukung visi. Gunakan agent ini saat pengguna perlu memahami konten gambar, mengekstrak informasi dari tangkapan layar, diagram, mockup UI, atau konten visual apa pun. Panggil dengan @image-analyzer diikuti path gambar dan pertanyaan Anda.
mode: subagent
model: bailian-coding-plan/qwen3.5-plus
tools:
  write: false
  edit: false
---
Anda memiliki kemampuan visi. Analisis gambar yang diberikan dan kembalikan deskripsi yang jelas dan terstruktur sesuai permintaan pengguna.

Struktur folder yang dihasilkan adalah sebagai berikut:

.opencode/
└── agents/
    └── image-analyzer.md

Memulai
1. Di direktori proyek Anda, jalankan opencode untuk memulai OpenCode, lalu beralih ke model glm-5.
2. Unduh dan alibabacloud.png ke folder proyek, gunakan tanda @ untuk memanggil image-analyzer, lalu ajukan pertanyaan berikut: @image-analyzer describe the information displayed in the alibabacloud.png banner. Anda akan menerima respons berikut:

FAQ

Mengapa OpenCode + qwen3.5-plus tidak dapat memahami gambar?

Penyebab: Secara default, OpenCode tidak mengaktifkan kemampuan visual model. Anda harus secara eksplisit mendeklarasikan parameter modalities dalam file konfigurasi.

Solusi: Dalam definisi model pada file konfigurasi OpenCode, tambahkan bidang modalities dan atur input menjadi ["text", "image"], seperti pada contoh berikut:

Ganti sk-sp-xxx dengan Kunci API Coding Plan Anda.

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "bailian-coding-plan-test": {
      "npm": "@ai-sdk/anthropic",
      "name": "Model Studio Coding Plan",
      "options": {
        "baseURL": "https://coding-intl.dashscope.aliyuncs.com/apps/anthropic/v1",
        "apiKey": "sk-sp-xxx"
      },
      "models": {
        "qwen3.5-plus": {
          "name": "Qwen3.5 Plus",
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "options": {
            "thinking": {
              "type": "enabled",
              "budgetTokens": 1024
            }
          }
        },
        "kimi-k2.5": {
          "name": "Kimi K2.5",
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "options": {
            "thinking": {
              "type": "enabled",
              "budgetTokens": 1024
            }
          }
        }
      }
    }
  }
}

Mengapa OpenClaw + qwen3.5-plus tidak dapat memahami gambar?

Penyebab: OpenClaw menentukan apakah model mendukung kemampuan visual berdasarkan bidang input dalam file konfigurasi.

Solusi:

Dalam file konfigurasi ~/.openclaw/openclaw.json, pastikan definisi model mencakup bidang "input": ["text", "image"].

{
  "models": {
    "mode": "merge",
    "providers": {
      "bailian": {
        "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
        "apiKey": "YOUR_API_KEY",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.5-plus",
            "name": "qwen3.5-plus",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 1000000,
            "maxTokens": 65536
          },
          {
            "id": "kimi-k2.5",
            "name": "kimi-k2.5",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 262144,
            "maxTokens": 32768
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "bailian/qwen3.5-plus"
      },
      "models": {
        "bailian/qwen3.5-plus": {},
        "bailian/kimi-k2.5": {}
      }
    }
  },
  "gateway": {
    "mode": "local"
  }
}

Setelah mengubah konfigurasi, Anda harus purge cache model OpenClaw dan restart layanan. Jika tidak, konfigurasi lama tetap digunakan.
```
rm ~/.openclaw/agents/main/agent/models.json
openclaw gateway restart
```