All Products
Search
Document Center

Alibaba Cloud Model Studio:Tambahkan kemampuan pemahaman visual

Last Updated:Mar 05, 2026

Beberapa model dalam Coding Plan Alibaba Cloud Model Studio, seperti qwen3.5-plus dan kimi-k2.5, memiliki kemampuan pemahaman visual bawaan dan dapat langsung memproses input gambar. Untuk model teks biasa seperti glm-5 dan MiniMax-M2.5, Anda dapat menambahkan Skill lokal untuk mengaktifkan kemampuan pemahaman visual.

Catatan

Menjalankan Skill pemahaman gambar akan mengonsumsi kuota Coding Plan Anda. Tidak ada biaya tambahan lainnya.

Prasyarat

  1. Anda telah berlangganan Coding Plan. Untuk informasi selengkapnya, lihat Memulai.

  2. Anda telah mengonfigurasi koneksi di tool Coding Plan dan dapat melakukan percakapan secara normal. Untuk informasi selengkapnya, lihat Menghubungkan ke tool AI.

Status dukungan visual

Model

Dukungan visual

Deskripsi

  • qwen3.5-plus

  • kimi-k2.5

Ya

Tidak diperlukan konfigurasi tambahan. Gambar dapat dikirim langsung.

  • qwen3-max-2026-01-23

  • qwen3-coder-next

  • qwen3-coder-plus

  • glm-5

  • glm-4.7

  • MiniMax-M2.5

Tidak

Diperlukan Skill atau Agent untuk memberikan kemampuan visual pada model tersebut.

Metode 1: Gunakan model visual secara langsung (Direkomendasikan)

Model qwen3.5-plus dan kimi-k2.5 memiliki kemampuan pemahaman visual bawaan. Jika Anda sering perlu memproses gambar, beralih ke model-model ini merupakan pendekatan paling sederhana dan direkomendasikan.

Tool

Cara mengganti model

Claude Code

/model qwen3.5-plus atau /model kimi-k2.5

OpenCode

/models → Cari dan pilih qwen3.5-plus atau kimi-k2.5

Qwen Code

/model → Pilih qwen3.5-plus atau kimi-k2.5

Untuk informasi selengkapnya tentang cara mengganti model di tool pemrograman lainnya, lihat Menghubungkan ke tool AI. Setelah mengganti model, Anda dapat langsung mereferensikan path gambar dalam percakapan, atau menyeret dan melepas (drag and drop) serta menempel (paste) gambar.

Metode 2: Tambahkan kemampuan visual menggunakan Skill atau Agent

Untuk memproses gambar dengan model yang tidak memiliki kemampuan pemahaman visual, seperti glm-5 dan MiniMax-M2.5, Anda dapat mengonfigurasi Skill atau Agent.

Claude Code

  1. Tambahkan Skill

    Di folder .claude dalam direktori proyek Anda, buat folder skills/image-analyzer:

    mkdir -p .claude/skills/image-analyzer

    Di folder ini, buat file SKILL.md dan tambahkan konten berikut:

    ---
    name: image-analyzer
    description: Membantu model tanpa kemampuan visual memahami gambar. Gunakan skill ini saat Anda perlu menganalisis konten gambar, mengekstrak informasi, teks, atau elemen UI dari gambar, atau memahami konten visual apa pun seperti tangkapan layar, grafik, atau diagram arsitektur. Kirim path gambar untuk mendapatkan deskripsi.
    model: qwen3.5-plus
    ---
    qwen3.5-plus memiliki kemampuan pemahaman visual. Gunakan model qwen3.5-plus secara langsung untuk pemahaman gambar.

    Struktur folder yang dihasilkan adalah sebagai berikut:

    .claude/
    └── skills/
        └── image-analyzer/
            └── SKILL.md
  2. Memulai

    1. Di direktori proyek Anda, jalankan claude untuk memulai Claude Code, lalu jalankan /model glm-5 untuk beralih ke model glm-5.

    2. Unduh dan alibabacloud.png ke direktori proyek Anda, lalu ajukan pertanyaan berikut: Load the image-analyzer skill and describe the information displayed in the alibabacloud.png banner. Anda akan menerima respons berikut:

      image.png

OpenCode

  1. Tambahkan Agent

    Di folder .opencode dalam direktori proyek Anda, buat folder baru agents.

    mkdir -p .opencode/agents

    Di folder ini, buat file image-analyzer.md dan tambahkan konten berikut:

    Catatan

    Bidang model harus menggunakan nama penyedia dan model yang didefinisikan dalam file konfigurasi OpenCode. Misalnya, berdasarkan konfigurasi dalam dokumen OpenCode, nilainya adalah bailian-coding-plan/qwen3.5-plus.

    ---
    description: Menganalisis gambar menggunakan model yang mendukung visi. Gunakan agent ini saat pengguna perlu memahami konten gambar, mengekstrak informasi dari tangkapan layar, diagram, mockup UI, atau konten visual apa pun. Panggil dengan @image-analyzer diikuti path gambar dan pertanyaan Anda.
    mode: subagent
    model: bailian-coding-plan/qwen3.5-plus
    tools:
      write: false
      edit: false
    ---
    Anda memiliki kemampuan visi. Analisis gambar yang diberikan dan kembalikan deskripsi yang jelas dan terstruktur sesuai permintaan pengguna.

    Struktur folder yang dihasilkan adalah sebagai berikut:

    .opencode/
    └── agents/
        └── image-analyzer.md
  2. Memulai

    1. Di direktori proyek Anda, jalankan opencode untuk memulai OpenCode, lalu beralih ke model glm-5.

    2. Unduh dan alibabacloud.png ke folder proyek, gunakan tanda @ untuk memanggil image-analyzer, lalu ajukan pertanyaan berikut: @image-analyzer describe the information displayed in the alibabacloud.png banner. Anda akan menerima respons berikut:

      image

FAQ

Mengapa OpenCode + qwen3.5-plus tidak dapat memahami gambar?

Penyebab: Secara default, OpenCode tidak mengaktifkan kemampuan visual model. Anda harus secara eksplisit mendeklarasikan parameter modalities dalam file konfigurasi.

Solusi: Dalam definisi model pada file konfigurasi OpenCode, tambahkan bidang modalities dan atur input menjadi ["text", "image"], seperti pada contoh berikut:

Ganti sk-sp-xxx dengan Kunci API Coding Plan Anda.
{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "bailian-coding-plan-test": {
      "npm": "@ai-sdk/anthropic",
      "name": "Model Studio Coding Plan",
      "options": {
        "baseURL": "https://coding-intl.dashscope.aliyuncs.com/apps/anthropic/v1",
        "apiKey": "sk-sp-xxx"
      },
      "models": {
        "qwen3.5-plus": {
          "name": "Qwen3.5 Plus",
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "options": {
            "thinking": {
              "type": "enabled",
              "budgetTokens": 1024
            }
          }
        },
        "kimi-k2.5": {
          "name": "Kimi K2.5",
          "modalities": {
            "input": [
              "text",
              "image"
            ],
            "output": [
              "text"
            ]
          },
          "options": {
            "thinking": {
              "type": "enabled",
              "budgetTokens": 1024
            }
          }
        }
      }
    }
  }
}

Mengapa OpenClaw + qwen3.5-plus tidak dapat memahami gambar?

Penyebab: OpenClaw menentukan apakah model mendukung kemampuan visual berdasarkan bidang input dalam file konfigurasi.

Solusi:

  1. Dalam file konfigurasi ~/.openclaw/openclaw.json, pastikan definisi model mencakup bidang "input": ["text", "image"].

    {
      "models": {
        "mode": "merge",
        "providers": {
          "bailian": {
            "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
            "apiKey": "YOUR_API_KEY",
            "api": "openai-completions",
            "models": [
              {
                "id": "qwen3.5-plus",
                "name": "qwen3.5-plus",
                "reasoning": false,
                "input": ["text", "image"],
                "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
                "contextWindow": 1000000,
                "maxTokens": 65536
              },
              {
                "id": "kimi-k2.5",
                "name": "kimi-k2.5",
                "reasoning": false,
                "input": ["text", "image"],
                "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
                "contextWindow": 262144,
                "maxTokens": 32768
              }
            ]
          }
        }
      },
      "agents": {
        "defaults": {
          "model": {
            "primary": "bailian/qwen3.5-plus"
          },
          "models": {
            "bailian/qwen3.5-plus": {},
            "bailian/kimi-k2.5": {}
          }
        }
      },
      "gateway": {
        "mode": "local"
      }
    }
  2. Setelah mengubah konfigurasi, Anda harus purge cache model OpenClaw dan restart layanan. Jika tidak, konfigurasi lama tetap digunakan.

    rm ~/.openclaw/agents/main/agent/models.json
    openclaw gateway restart