Topik ini menjelaskan kemampuan utama dan praktik terbaik kerangka kerja MaxFrame untuk pengembangan di dunia nyata. Dokumen ini menyediakan contoh kode yang dapat dijalankan serta instruksi berbasis skenario untuk membantu Anda memahami dan menguasai fitur inti MaxFrame dengan cepat, sehingga menurunkan hambatan masuk dan meningkatkan efisiensi pengembangan.
Fitur umum dan kemampuan inti
Modul fitur | Kemampuan inti | Skenario aplikasi khas | Keunggulan dan fitur |
| Mendukung eksekusi paralel user-defined function (UDF) pada DataFrames atau chunk data. | Logika komputasi kompleks yang ditentukan pengguna yang memerlukan pembuatan UDF, serta pemrosesan data berskala besar yang membutuhkan pemrosesan paralel pada beberapa baris input. | Mendukung pemanggilan langsung fungsi Python, penjadwalan terdistribusi otomatis, dan pemrosesan batch konkuren untuk meningkatkan efisiensi pemrosesan secara signifikan. |
GU resource usage | Mendukung penjadwalan hibrid CPU dan GPU untuk komputasi heterogen. | Inferensi deep learning dan pemrosesan data multimodal. | Manajemen terpadu sumber daya heterogen (CU dan GU) memungkinkan Anda membangun alur pemrosesan lengkap dalam satu pipeline pekerjaan. |
AI Function on GU | Mendukung model bahasa besar (LLM) bawaan dan model kustom. Anda dapat memanggil API AI Function yang menggunakan sumber daya GU untuk inferensi LLM. | Skenario inferensi model batch, seperti ekstraksi data terstruktur, terjemahan teks, pelabelan data, klasifikasi citra, pengenalan suara, dan vektorisasi. | Termasuk LLM utama bawaan, seperti Qwen3 dan DeepSeek. Menyediakan pemanggilan API, seperti |
OSS mounting and access | Mendukung pemasangan langsung Object Storage Service (OSS) untuk membaca, menulis, dan mengoperasikan data dalam jumlah besar. | Pemuatan set data multimodal. | Mendukung pemasangan OSS tanpa perlu mengunduh, mendukung pembacaan aliran (stream reading), dan kompatibel dengan API file standar. |
Skenario spesifik
Praktik terbaik untuk menggunakan operator apply dan apply_chunk
Tetapkan parameter batch_rows berdasarkan volume data dan sumber daya yang tersedia untuk mencegah error out-of-memory (OOM).
Deskripsi fitur
applymenerapkan fungsi kustom pada baris atau kolom DataFrame MaxFrame. Fitur ini mendukung operasi vektorisasi pada seluruh baris atau kolom.apply_chunkadalah API tingkat rendah yang disediakan oleh MaxFrame. Fitur ini menerapkan fungsi kustom secara paralel pada setiap chunk data DataFrame MaxFrame, cocok untuk skenario lanjutan yang memerlukan operasi langsung pada shard fisik DataFrame terdistribusi dan sering digunakan untuk optimasi performa atau logika komputasi kustom.
Skenario contoh
Gunakan
applyuntuk menstandarkan bidang, seperti penyembunyian nomor telepon.Gunakan
apply_chunkuntuk memproses jutaan path citra secara paralel dan mengekstrak metadata.
Tutorial
Praktik terbaik untuk menggunakan operator apply_chunk MaxFrame
Menggunakan sumber daya GU MaxFrame
Deskripsi fitur
Pemrosesan data kompleks dan pipeline pekerjaan sering kali memerlukan sumber daya CPU atau GPU pada node komputasi yang berbeda. MaxFrame mendukung penjadwalan dan komputasi hibrid sumber daya CU dan GU. Dalam UDF MaxFrame, Anda dapat meminta sumber daya Quota GU menggunakan tag sumber daya untuk tugas komputasi kinerja tinggi (HPC).
Skenario contoh
Ekstraksi dan encoding frame citra atau video
Pemrosesan data kompleks
Tutorial
Sebelum dapat menggunakan sumber daya komputasi AI MaxCompute, Anda harus membeli Quota GU MaxCompute. Untuk informasi selengkapnya, lihat Beli dan gunakan sumber daya komputasi AI MaxCompute.
Praktik terbaik untuk pengembangan dengan AI Function on GU
Pilih dan beli kartu GPU dengan memori GPU yang cukup sesuai jumlah parameter LLM yang Anda gunakan.
Deskripsi fitur
MaxFrame AI Function adalah solusi end-to-end pada platform Alibaba Cloud MaxCompute untuk skenario inferensi LLM offline. Fitur intinya meliputi hal-hal berikut:
Integrasi mulus antara pemrosesan data dan kemampuan AI
Mendukung interaksi langsung dengan LLM, seperti Qwen3-4B, melalui DataFrame MaxFrame.
Menyediakan API
generatedantaskuntuk menyeimbangkan fleksibilitas dan kemudahan penggunaan.
Penjadwalan sumber daya GPU (GU)
Anda dapat meminta sumber daya GPU menggunakan
gu_quota_nameuntuk mengakomodasi model dengan ukuran berbeda. Misalnya, model 4B memerlukan 2 GU.
Pemanggilan LLM terkelola
Pustaka model bawaan, seperti Qwen3-4B-Instruct-2507-FP8, dengan dukungan penyetelan parameter, seperti temperature dan max_tokens.
Mendukung penjadwalan konkuren berskala besar untuk mengoptimalkan performa inferensi batch.
Skenario contoh
Tanya Jawab Pengetahuan
Deskripsi skenario: Menjawab pertanyaan di bidang seperti ilmu alam, sejarah, dan teknologi. Mendukung berbagai bahasa dan penalaran kompleks.
Aplikasi khas:
Komputasi ilmiah:
"What is the average distance between the Earth and the Sun?"Peristiwa historis:
"Pada tahun berapa Perang Revolusi Amerika dimulai?"Prinsip teknis:
"What is the core mechanism of the Transformer model?"
Terjemahan teks
Deskripsi skenario: Menerjemahkan teks antar bahasa. Mendukung terjemahan Tionghoa-Inggris dan menangani terminologi di bidang profesional.
Aplikasi khas:
Bahasa Mandarin ke Bahasa Inggris:
"How to relieve a headache?"→"How to relieve a headache?"Terjemahan teks hukum/medis:
"Pasien perlu mengonsumsi satu tablet aspirin setiap hari."
Ekstraksi data terstruktur
Deskripsi skenario: Mengekstrak entitas kunci, properti, atau hubungan dari teks tak terstruktur.
Aplikasi khas:
Ekstraksi entitas:
Input:
"The iPhone 15 Pro is the latest flagship phone released by Apple."Output:
{"product": "iPhone 15 Pro", "brand": "Apple", "type": "flagship phone"}
Penguraian CV:
Input:
"Zhang San, 5 years of Java development experience, skilled in the Spring Boot framework."Output:
{"name": "Zhang San", "skills": ["Java", "Spring Boot"], "experience": 5}
Tutorial
Praktik terbaik untuk memasang dan menggunakan OSS
Untuk meningkatkan performa, Anda dapat menggabungkan fitur ini dengan apply_chunk guna menerapkan pembacaan paralel.
Deskripsi fitur
Dalam skenario analitik data, Anda sering perlu menggunakan pekerjaan MaxFrame dengan penyimpanan objek persisten, seperti OSS. Contohnya:
Memuat data mentah dari OSS untuk pembersihan atau pemrosesan.
Menulis hasil antara ke OSS untuk dikonsumsi oleh tugas downstream.
Berbagi sumber daya statis seperti file model yang telah dilatih dan file konfigurasi.
Metode baca-tulis tradisional, seperti pd.read_csv("oss://..."), tidak efisien di lingkungan terdistribusi karena batasan performa SDK dan overhead jaringan. Pemasangan tingkat sistem file (FS Mount) memungkinkan Anda mengakses file OSS di MaxCompute seolah-olah merupakan file disk lokal, sehingga sangat meningkatkan efisiensi pengembangan.
Skenario contoh
Pasang direktori bucket OSS
oss://maxframe-datasets/images/ke path lokal MaxCompute/data/imgsuntuk pemrosesan selanjutnya.