All Products
Search
Document Center

MaxCompute:Praktik terbaik

Last Updated:Jan 10, 2026

Topik ini menjelaskan kemampuan utama dan praktik terbaik kerangka kerja MaxFrame untuk pengembangan di dunia nyata. Dokumen ini menyediakan contoh kode yang dapat dijalankan serta instruksi berbasis skenario untuk membantu Anda memahami dan menguasai fitur inti MaxFrame dengan cepat, sehingga menurunkan hambatan masuk dan meningkatkan efisiensi pengembangan.

Fitur umum dan kemampuan inti

Modul fitur

Kemampuan inti

Skenario aplikasi khas

Keunggulan dan fitur

apply / apply_chunk operators

Mendukung eksekusi paralel user-defined function (UDF) pada DataFrames atau chunk data.

Logika komputasi kompleks yang ditentukan pengguna yang memerlukan pembuatan UDF, serta pemrosesan data berskala besar yang membutuhkan pemrosesan paralel pada beberapa baris input.

Mendukung pemanggilan langsung fungsi Python, penjadwalan terdistribusi otomatis, dan pemrosesan batch konkuren untuk meningkatkan efisiensi pemrosesan secara signifikan.

GU resource usage

Mendukung penjadwalan hibrid CPU dan GPU untuk komputasi heterogen.

Inferensi deep learning dan pemrosesan data multimodal.

Manajemen terpadu sumber daya heterogen (CU dan GU) memungkinkan Anda membangun alur pemrosesan lengkap dalam satu pipeline pekerjaan.

AI Function on GU

Mendukung model bahasa besar (LLM) bawaan dan model kustom. Anda dapat memanggil API AI Function yang menggunakan sumber daya GU untuk inferensi LLM.

Skenario inferensi model batch, seperti ekstraksi data terstruktur, terjemahan teks, pelabelan data, klasifikasi citra, pengenalan suara, dan vektorisasi.

Termasuk LLM utama bawaan, seperti Qwen3 dan DeepSeek. Menyediakan pemanggilan API, seperti generate dan task. Secara otomatis memuat model ke GU untuk eksekusi berlatensi rendah dan konkurensi tinggi.

OSS mounting and access

Mendukung pemasangan langsung Object Storage Service (OSS) untuk membaca, menulis, dan mengoperasikan data dalam jumlah besar.

Pemuatan set data multimodal.

Mendukung pemasangan OSS tanpa perlu mengunduh, mendukung pembacaan aliran (stream reading), dan kompatibel dengan API file standar.

Skenario spesifik

Praktik terbaik untuk menggunakan operator apply dan apply_chunk

Tetapkan parameter batch_rows berdasarkan volume data dan sumber daya yang tersedia untuk mencegah error out-of-memory (OOM).

Deskripsi fitur

  • apply menerapkan fungsi kustom pada baris atau kolom DataFrame MaxFrame. Fitur ini mendukung operasi vektorisasi pada seluruh baris atau kolom.

  • apply_chunk adalah API tingkat rendah yang disediakan oleh MaxFrame. Fitur ini menerapkan fungsi kustom secara paralel pada setiap chunk data DataFrame MaxFrame, cocok untuk skenario lanjutan yang memerlukan operasi langsung pada shard fisik DataFrame terdistribusi dan sering digunakan untuk optimasi performa atau logika komputasi kustom.

Skenario contoh

  • Gunakan apply untuk menstandarkan bidang, seperti penyembunyian nomor telepon.

  • Gunakan apply_chunk untuk memproses jutaan path citra secara paralel dan mengekstrak metadata.

Tutorial

Praktik terbaik untuk menggunakan operator apply_chunk MaxFrame

Menggunakan sumber daya GU MaxFrame

Deskripsi fitur

Pemrosesan data kompleks dan pipeline pekerjaan sering kali memerlukan sumber daya CPU atau GPU pada node komputasi yang berbeda. MaxFrame mendukung penjadwalan dan komputasi hibrid sumber daya CU dan GU. Dalam UDF MaxFrame, Anda dapat meminta sumber daya Quota GU menggunakan tag sumber daya untuk tugas komputasi kinerja tinggi (HPC).

Skenario contoh

  • Ekstraksi dan encoding frame citra atau video

  • Pemrosesan data kompleks

Tutorial

Praktik terbaik untuk pengembangan dengan AI Function on GU

Pilih dan beli kartu GPU dengan memori GPU yang cukup sesuai jumlah parameter LLM yang Anda gunakan.

Deskripsi fitur

MaxFrame AI Function adalah solusi end-to-end pada platform Alibaba Cloud MaxCompute untuk skenario inferensi LLM offline. Fitur intinya meliputi hal-hal berikut:

  • Integrasi mulus antara pemrosesan data dan kemampuan AI

    • Mendukung interaksi langsung dengan LLM, seperti Qwen3-4B, melalui DataFrame MaxFrame.

    • Menyediakan API generate dan task untuk menyeimbangkan fleksibilitas dan kemudahan penggunaan.

  • Penjadwalan sumber daya GPU (GU)

    • Anda dapat meminta sumber daya GPU menggunakan gu_quota_name untuk mengakomodasi model dengan ukuran berbeda. Misalnya, model 4B memerlukan 2 GU.

  • Pemanggilan LLM terkelola

    • Pustaka model bawaan, seperti Qwen3-4B-Instruct-2507-FP8, dengan dukungan penyetelan parameter, seperti temperature dan max_tokens.

    • Mendukung penjadwalan konkuren berskala besar untuk mengoptimalkan performa inferensi batch.

Skenario contoh

  • Tanya Jawab Pengetahuan

    • Deskripsi skenario: Menjawab pertanyaan di bidang seperti ilmu alam, sejarah, dan teknologi. Mendukung berbagai bahasa dan penalaran kompleks.

    • Aplikasi khas:

      • Komputasi ilmiah: "What is the average distance between the Earth and the Sun?"

      • Peristiwa historis: "Pada tahun berapa Perang Revolusi Amerika dimulai?"

      • Prinsip teknis: "What is the core mechanism of the Transformer model?"

  • Terjemahan teks

    • Deskripsi skenario: Menerjemahkan teks antar bahasa. Mendukung terjemahan Tionghoa-Inggris dan menangani terminologi di bidang profesional.

    • Aplikasi khas:

      • Bahasa Mandarin ke Bahasa Inggris: "How to relieve a headache?""How to relieve a headache?"

      • Terjemahan teks hukum/medis: "Pasien perlu mengonsumsi satu tablet aspirin setiap hari."

  • Ekstraksi data terstruktur

    • Deskripsi skenario: Mengekstrak entitas kunci, properti, atau hubungan dari teks tak terstruktur.

    • Aplikasi khas:

      • Ekstraksi entitas:

        • Input: "The iPhone 15 Pro is the latest flagship phone released by Apple."

        • Output: {"product": "iPhone 15 Pro", "brand": "Apple", "type": "flagship phone"}

      • Penguraian CV:

        • Input: "Zhang San, 5 years of Java development experience, skilled in the Spring Boot framework."

        • Output: {"name": "Zhang San", "skills": ["Java", "Spring Boot"], "experience": 5}

Tutorial

Praktik terbaik untuk memasang dan menggunakan OSS

Untuk meningkatkan performa, Anda dapat menggabungkan fitur ini dengan apply_chunk guna menerapkan pembacaan paralel.

Deskripsi fitur

Dalam skenario analitik data, Anda sering perlu menggunakan pekerjaan MaxFrame dengan penyimpanan objek persisten, seperti OSS. Contohnya:

  • Memuat data mentah dari OSS untuk pembersihan atau pemrosesan.

  • Menulis hasil antara ke OSS untuk dikonsumsi oleh tugas downstream.

  • Berbagi sumber daya statis seperti file model yang telah dilatih dan file konfigurasi.

Metode baca-tulis tradisional, seperti pd.read_csv("oss://..."), tidak efisien di lingkungan terdistribusi karena batasan performa SDK dan overhead jaringan. Pemasangan tingkat sistem file (FS Mount) memungkinkan Anda mengakses file OSS di MaxCompute seolah-olah merupakan file disk lokal, sehingga sangat meningkatkan efisiensi pengembangan.

Skenario contoh

  • Pasang direktori bucket OSS oss://maxframe-datasets/images/ ke path lokal MaxCompute /data/imgs untuk pemrosesan selanjutnya.

Tutorial