Ikhtisar Komponen Desainer - Platform For AI

Komponen algoritma yang direkomendasikan

Komponen algoritma yang direkomendasikan mencakup algoritma serbaguna seperti pembacaan data, skrip SQL, dan skrip Python. Kategori ini juga mencakup algoritma untuk pemrosesan data model bahasa besar (seperti LLM dan LVM), pelatihan, serta inferensi. Gunakan komponen algoritma berbasis DLC karena mendukung sumber daya heterogen dan lingkungan kustom, memberikan fleksibilitas lebih besar.

Tipe Komponen			Komponen	Deskripsi
Komponen Kustom			Komponen Kustom	Membuat komponen kustom dalam Manajemen Aset AI. Gunakan komponen kustom di Desainer untuk pelatihan model bersama dengan komponen resmi.
Sumber/Tujuan			Baca Data OSS	Membaca file atau folder dari jalur tertentu di bucket Object Storage Service (OSS).
			Baca File CSV	Membaca file CSV dari OSS, HTTP, atau HDFS.
			Baca Tabel	Membaca data dari tabel MaxCompute di proyek saat ini.
			Tulis ke Tabel	Menulis data upstream ke tabel MaxCompute.
Skrip Kustom			Skrip SQL	Menjalankan pernyataan SQL kustom di MaxCompute.
Skrip Kustom			Skrip Python	Menginstal paket dependensi dan menjalankan fungsi Python kustom.
Alat			Daftar Dataset	Mendaftarkan dataset ke Manajemen Aset AI.
			Daftar Model	Mendaftarkan model ke Manajemen Aset AI.
			Perbarui Layanan EAS (Beta)	Memanggil `eascmd` untuk memperbarui layanan Elastic Algorithm Service (EAS) tertentu. Layanan tersebut harus dalam status `berjalan`. Setiap pembaruan membuat versi layanan baru.
Pemrosesan data LLM	Konversi data		Ekspor Tabel MaxCompute ke OSS	Mengekspor tabel MaxCompute ke OSS.
	Konversi data		Impor Data OSS ke Tabel MaxCompute	Mengimpor data dari OSS ke tabel MaxCompute.
	Pemrosesan data LLM (DLC)		Deduplikasi LLM-MD5 (DLC)	Menghitung hash MD5 dari konten teks dan menghapus entri duplikat.
			LLM-Text Normalization (DLC)	Menjalankan normalisasi Unicode pada teks dan mengonversi karakter Tionghoa Tradisional menjadi Tionghoa Sederhana.
			Penghapusan Konten Khusus LLM (DLC)	Menghapus URL dan menghilangkan format HTML untuk mengekstrak teks biasa.
			LLM-Special Character Ratio Filter (DLC)	Menyaring sampel berdasarkan rasio karakter khusus terhadap panjang teks total.
			Informasi Penghapusan Hak Cipta LLM (DLC)	Menghapus informasi hak cipta dari teks, seperti komentar di header file kode.
			LLM-Jumlah Filter (DLC)	Menyaring sampel berdasarkan rasio karakter numerik dan alfabetik terhadap panjang teks total.
			Filter Panjang LLM (DLC)	Menyaring sampel berdasarkan panjang teks total, panjang garis rata-rata, dan panjang garis maksimum.
			LLM-Text Quality Scoring and Language Identification - FastText (DLC)	Mengidentifikasi bahasa dari sebuah teks, menghitung skor kualitas, dan menyaring sampel berdasarkan bahasa dan rentang skor yang ditentukan.
			LLM-Sensitive Word Filter (DLC)	Menyaring sampel yang mengandung kata-kata dari kamus kata sensitif tertentu.
			LLM-Sensitive Information Masking (DLC)	Menyembunyikan informasi sensitif, seperti alamat email, nomor telepon, dan nomor identitas.
			LLM-Document Similarity Deduplication (DLC)	Menghapus duplikasi dokumen dengan menghitung skor kemiripan menggunakan SimHash.
			Filter Rasio Pengulangan LLM-N-Gram (DLC)	Menyaring sampel berdasarkan rasio pengulangan N-gram pada tingkat karakter atau kata.
			LLM-Expand LaTeX Macro Definition (DLC)	Digunakan untuk data dalam format dokumen TEX. Ini melakukan ekspansi inline dari semua makro yang tidak memiliki parameter. Jika sebuah makro terdiri dari huruf dan angka serta tidak memiliki parameter, nama makro diganti dengan nilainya.
			LLM-Remove LaTeX Bibliography (DLC)	Menghapus bagian bibliografi dari dokumen LaTeX.
			LLM-Remove LaTeX Comment Lines (DLC)	Menghapus baris komentar dan komentar sebaris dari teks sumber LaTeX.
			LLM-Remove LaTeX Document Header (DLC)	Digunakan untuk data dalam format dokumen TEX. Ini menemukan string pertama yang cocok dengan format bab <section-type>[optional-args]{name}, menghapus semua konten sebelumnya, dan mempertahankan semua konten setelah bab pertama yang cocok, termasuk judul bab.
	Pemrosesan data LLM (MaxCompute)		Deduplikasi LLM-MD5 (MaxCompute)	Menghitung Hash MD5 dari konten teks dan menghapus entri duplikat.
			Normalisasi Teks-LLM (MaxCompute)	Menjalankan normalisasi Unicode dan mengonversi karakter Tionghoa Tradisional menjadi Tionghoa Sederhana.
			Penghapusan Konten Khusus LLM (MaxCompute)	Menghapus konten seperti navigasi, informasi penulis, URL, dan pemformatan HTML.
			LLM-Rasio Karakter Spesial Filter (MaxCompute)	Menyaring sampel berdasarkan rasio karakter khusus terhadap panjang teks total.
			Informasi Penghapusan Hak Cipta LLM (MaxCompute)	Menghapus informasi hak cipta dari teks, seperti komentar di header file kode.
			LLM-Jumlah Filter (MaxCompute)	Menyaring sampel berdasarkan jumlah huruf, angka, dan pemisah.
			LLM-Filter Panjang (MaxCompute)	Menyaring sampel berdasarkan panjang teks total, panjang garis rata-rata, dan panjang garis maksimum.
			Penskoran Kualitas Teks-LLM dan Identifikasi Bahasa (MaxCompute)	Mengidentifikasi bahasa dari sebuah teks, menghitung skor kualitas, dan menyaring sampel berdasarkan bahasa dan rentang skor yang ditentukan.
			Filter Kata Sensitif LLM (MaxCompute)	Menyaring sampel yang mengandung kata-kata dari kamus kata sensitif tertentu.
			Masking Informasi Sensitif LLM (MaxCompute)	Menyembunyikan informasi sensitif, seperti alamat email, nomor telepon, dan nomor identitas.
			Deduplikasi Kalimat Intra-Dokumen LLM (MaxCompute)	Menghapus kalimat identik yang duplikat dalam satu dokumen.
			Filter Rasio Pengulangan LLM-N-Gram (MaxCompute)	Menyaring sampel berdasarkan rasio pengulangan N-gram pada tingkat karakter atau kata.
			LLM-Expand LaTeX Macro Definition (MaxCompute)	Menyisipkan definisi makro tanpa parameter dalam data berformat TEX.
			LLM-Remove LaTeX Bibliography (MaxCompute)	Menghapus bagian bibliografi dari dokumen LaTeX.
			LLM-Hapus Baris Komentar LaTeX (MaxCompute)	Menghapus baris komentar dan komentar sebaris dari teks sumber LaTeX.
			LLM-Remove LaTeX Document Header (MaxCompute)	Menghapus semua konten sebelum deklarasi bagian pertama dalam dokumen LaTeX.
	Pemrosesan data LVM (DLC)	Operator pra-pemrosesan video	LVM-Text Area Filter (DLC)	Menyaring data video berdasarkan jumlah teks yang ada di dalam frame.
			LVM-Motion Filter (DLC)	Menyaring data video berdasarkan rentang kecepatan gerak tertentu.
			LVM-Aesthetics Filter (DLC)	Menyaring data video yang berada di bawah skor kualitas estetika tertentu.
			LVM-Aspect Ratio Filter (DLC)	Memfilter data video berdasarkan rentang rasio aspek yang ditentukan.
			LVM-Duration Filter (DLC)	Menyaring data video berdasarkan rentang durasi yang ditentukan.
			LVM-Video-Text Similarity Filter (DLC)	Menyaring data video berdasarkan skor kemiripan semantik antara video dan teks terkaitnya.
			Filter Kepatuhan LVM (DLC)	Menyaring data video berdasarkan skor Not Safe For Work (NSFW)-nya.
			LVM-Resolution Filter (DLC)	Memfilter data video berdasarkan rentang resolusi yang ditentukan.
			LVM-Watermark Filter (DLC)	Memfilter data video yang berisi watermark.
			LVM-Tag Filter (DLC)	Menyaring data video yang tidak cocok dengan set tag tertentu.
			Pembuatan Tag LVM (DLC)	Membuat tag deskriptif untuk frame video.
			LLM-Pembuatan Teks Frame (DLC)	Membuat teks deskriptif untuk frame video.
			LLM-Pembuatan Teks Video (DLC)	Membuat teks deskriptif untuk seluruh video.
		Operator pra-pemrosesan gambar	LVM-Image Aesthetics Filter (DLC)	Menyaring data gambar yang jatuh di bawah skor kualitas estetika tertentu.
			LLM-Filter Rasio Aspek Gambar (DLC)	Menyaring data gambar berdasarkan rentang rasio aspek tertentu.
			LVM-Image Face Ratio Filter (DLC)	Menyaring data gambar berdasarkan rasio area wajah terhadap area total gambar.
			LLM-Filter Kepatuhan Gambar (DLC)	Menyaring data gambar berdasarkan skor Not Safe For Work (NSFW).
			LLM-Filter Resolusi Gambar (DLC)	Menyaring data gambar berdasarkan rentang resolusi tertentu.
			LLM-Filter Ukuran Gambar (DLC)	Menyaring data gambar berdasarkan rentang ukuran file tertentu.
			Filter Pencocokan Gambar-Teks LVM (DLC)	Menyaring pasangan gambar-teks berdasarkan skor pencocokannya.
			LVM-Image-Text Similarity Filter (DLC)	Menyaring pasangan gambar-teks berdasarkan skor kesamaan semantiknya.
			LLM-Filter Watermark Gambar (DLC)	Menyaring data gambar yang mengandung watermark.
			LVM-Image Captioning (DLC)	Membuat deskripsi bahasa alami untuk gambar.
Pelatihan dan inferensi LLM			Inferensi Offline Model BERT	Menjalankan inferensi offline menggunakan model klasifikasi BERT pra-latih untuk mengklasifikasikan teks dalam tabel input.

Komponen algoritma tradisional

Penting

Komponen warisan ini tidak lagi dipelihara secara aktif. Stabilitas dan Service Level Agreements (SLA) tidak dijamin. Gantilah komponen warisan pada lingkungan produksi dengan komponen algoritma yang direkomendasikan untuk memastikan stabilitas.

Tipe Komponen	Komponen	Deskripsi
Pra-pemrosesan data	Pengambilan Sampel Acak	Menjalankan pengambilan sampel acak, independen pada data input berdasarkan rasio atau jumlah tertentu.
	Pengambilan Sampel Berbobot	Menghasilkan sampel dari data input menggunakan metode pemilihan berbobot.
	Filter dan Map	Menyaring baris data berdasarkan ekspresi SQL dan mengubah nama kolom output.
	Pengambilan Sampel Bertingkat	Membagi data menjadi kelompok berdasarkan kolom tertentu dan melakukan pengambilan sampel acak dalam setiap kelompok.
	JOIN	Menggabungkan dua tabel berdasarkan kunci gabungan, mirip dengan pernyataan `JOIN` SQL.
	Gabung Kolom	Menggabungkan kolom dari dua tabel. Kedua tabel harus memiliki jumlah baris yang sama.
	Gabung Baris (UNION)	Menambahkan baris dari dua tabel. Kedua tabel harus memiliki jumlah dan tipe kolom yang sama.
	Transformasi Tipe	Mengonversi tipe data kolom tertentu menjadi String, Double, atau Integer. Mengisi nilai yang hilang jika konversi gagal.
	Tambah Kolom ID	Menambahkan kolom ID numerik berurutan sebagai kolom pertama tabel.
	Pisah	Secara acak membagi dataset menjadi dua subset, biasanya untuk membuat set pelatihan dan pengujian.
	Isi Nilai Hilang	Mengisi nilai yang hilang di kolom tertentu menggunakan metode yang dipilih, seperti mean, median, modus, atau nilai kustom.
	Normalisasi	Menskalakan ulang fitur numerik ke rentang umum, seperti [0, 1]. Mendukung format data padat dan jarang.
	Standardisasi	Menskalakan ulang fitur agar memiliki mean 0 dan deviasi standar 1 (normalisasi z-score).
	KV ke Tabel	Mengonversi tabel dari format Key-Value (KV) jarang ke format tabel padat.
	Tabel ke KV	Mengonversi tabel padat ke format Key-Value (KV) jarang.
Rekayasa fitur	Penyaringan Pentingnya Fitur	Menyaring fitur Top N berdasarkan skor kepentingan yang dihasilkan oleh komponen lain.
	Principal Component Analysis	Menjalankan Principal Component Analysis (PCA) untuk mengurangi dimensi dari sebuah set data dengan mentransformasi fitur menjadi satu set komponen utama yang tidak berkorelasi secara linear.
	Penskalaan Fitur	Menerapkan transformasi penskalaan min-maks, log, atau z-score pada fitur numerik.
	Diskretisasi Fitur	Mengonversi fitur numerik kontinu menjadi fitur kategorikal diskrit (bin).
	Feature Anomaly Smoothing	Memotong nilai fitur anomali ke rentang yang ditentukan. Mendukung format data baik jarang maupun padat.
	Dekomposisi Nilai Singular	Melakukan Singular Value Decomposition (SVD) pada sebuah matriks.
	Deteksi Anomali	Mendeteksi pencilan dalam data yang berisi fitur kontinu dan kategorikal.
	Pentingnya Fitur Model Linier	Menghitung skor pentingnya fitur menggunakan model regresi linier atau regresi logistik.
	Analisis Fitur Diskrit	Menganalisis distribusi statistik dari fitur diskrit.
	Evaluasi Pentingnya Fitur Random Forest	Menghitung skor pentingnya fitur menggunakan model Random Forest yang telah dilatih.
	Seleksi Fitur Berbasis Filter	Memilih subset fitur menggunakan metode filter seperti Chi-squared, Indeks Gini, atau Information Gain.
	Pengkodean Fitur	Mengkodekan fitur non-linier menjadi fitur linier menggunakan model Gradient Boosting Decision Tree (GBDT).
	One-Hot Encoding	Mengonversi fitur kategorikal menjadi representasi vektor biner. Outputnya dalam format Key-Value (KV) jarang.
Analisis statistik	Tampilan Data	Memberikan ringkasan visual dari distribusi data dan statistik untuk kolom yang dipilih.
	Kovarians	Menghitung kovarians antara dua variabel acak untuk mengukur bagaimana mereka berubah bersama.
	Plot Densitas Probabilitas Empiris	Menghasilkan plot densitas probabilitas menggunakan distribusi empiris atau estimasi densitas kernel.
	Statistik Tabel Penuh	Menghitung statistik deskriptif untuk semua kolom atau subset kolom dalam tabel.
	Uji Kesesuaian Chi-Square	Digunakan untuk variabel kategorikal. Ini menguji apakah frekuensi teramati aktual dan frekuensi teoretis konsisten di seluruh kategori variabel kategorikal multinomial tunggal. Hipotesis nol adalah tidak ada perbedaan antara frekuensi teramati dan teoretis.
	Box Plot	Grafik box plot adalah grafik statistik yang digunakan untuk menampilkan dispersi dataset. Ini terutama digunakan untuk mencerminkan karakteristik distribusi data mentah dan juga dapat digunakan untuk membandingkan karakteristik distribusi beberapa dataset.
	Scatter Plot	Grafik scatter adalah plot distribusi titik data pada sistem koordinat Cartesian dalam analisis regresi.
	Matriks Korelasi	Algoritma koefisien korelasi menghitung koefisien korelasi antara setiap kolom dalam matriks. Nilainya berkisar dari [-1,1]. Selama perhitungan, jumlah didasarkan pada jumlah elemen yang tidak kosong di kedua kolom. Jumlah tersebut dapat bervariasi antara pasangan kolom yang berbeda.
	Two-Sample T-Test	Berdasarkan prinsip statistik, komponen ini menguji apakah terdapat perbedaan signifikan antara rata-rata dua sampel.
	Uji-T Satu Sampel	Menguji apakah terdapat perbedaan signifikan antara rata-rata populasi dari suatu variabel dan nilai tertentu yang ditentukan. Sampel yang diuji harus mengikuti distribusi normal.
	Uji Normalitas	Menggunakan nilai-nilai yang diamati untuk menentukan apakah suatu populasi mengikuti distribusi normal. Ini adalah jenis uji hipotesis kesesuaian khusus yang penting dalam pengambilan keputusan statistik.
	Kurva Lorenz	Secara visual menampilkan distribusi pendapatan suatu negara atau wilayah.
	Persentil	Sebuah istilah statistik yang digunakan untuk menghitung persentil data dalam kolom tabel.
	Koefisien Pearson	Koefisien korelasi linear yang mencerminkan tingkat korelasi linear antara dua variabel.
	Histogram	Histogram, yang juga dikenal sebagai grafik distribusi massa, adalah grafik laporan statistik yang menggunakan serangkaian batang vertikal atau segmen garis dengan ketinggian bervariasi untuk merepresentasikan distribusi data.
Pembelajaran mesin	Prediksi	Inputnya adalah model yang telah dilatih dan data prediksi, sedangkan outputnya adalah hasil prediksi.
	Pelatihan XGBoost	Algoritma ini memperluas dan meningkatkan algoritma boosting. Algoritma ini mudah digunakan dan tangguh, serta banyak digunakan di berbagai sistem produksi pembelajaran mesin dan kompetisi. Saat ini, algoritma ini mendukung klasifikasi dan regresi.
	XGBoost Prediction	Algoritma ini memperluas dan meningkatkan algoritma boosting. Algoritma ini mudah digunakan dan tangguh, serta banyak digunakan di berbagai sistem produksi pembelajaran mesin dan kompetisi. Saat ini, algoritma ini mendukung klasifikasi dan regresi.
	Linear Support Vector Machine	Sebuah metode pembelajaran mesin berdasarkan teori pembelajaran statistik. Metode ini meningkatkan kemampuan generalisasi mesin pembelajaran dengan meminimalkan risiko struktural, sehingga meminimalkan risiko empiris dan rentang kepercayaan.
	Regresi Logistik untuk Klasifikasi Biner	Algoritma klasifikasi biner yang mendukung format data jarang dan padat.
	GBDT untuk Klasifikasi Biner	Komponen ini bekerja dengan menetapkan ambang batas. Jika nilai fitur lebih besar dari ambang batas, maka itu adalah contoh positif. Sebaliknya, itu adalah contoh negatif.
	PS-SMART untuk Klasifikasi Biner	Parameter Server (PS) dirancang untuk menangani tugas-tugas pelatihan skala besar secara offline dan online. Scalable Multiple Additive Regression Tree (SMART) adalah algoritma iteratif yang didasarkan pada Gradient Boosting Decision Tree (GBDT) dan diimplementasikan pada PS.
	PS-based Logistic Regression untuk Klasifikasi Biner	Algoritma klasifikasi biner klasik yang banyak digunakan dalam skenario iklan dan pencarian.
	PS-SMART untuk Klasifikasi Multikelas	Parameter Server (PS) dirancang untuk menangani tugas pelatihan offline dan online dalam skala besar. Scalable Multiple Additive Regression Tree (SMART) adalah algoritma iteratif yang didasarkan pada Gradient Boosting Decision Tree (GBDT) dan diimplementasikan pada PS.
	K-Nearest Neighbors	Untuk setiap baris data dalam tabel prediksi, komponen ini memilih K catatan dengan jarak terdekat dari tabel pelatihan. Kelas dengan frekuensi tertinggi di antara K catatan tersebut ditetapkan sebagai kelas untuk baris itu.
	Regresi Logistik untuk Klasifikasi Multikelas	Sebuah algoritma klasifikasi biner. Model regresi logistik yang disediakan oleh PAI mendukung klasifikasi multikelas serta format data yang jarang dan padat.
	Random Forests	Sebuah pengklasifikasi yang mencakup beberapa pohon keputusan. Hasil klasifikasinya ditentukan oleh modus dari kelas-kelas yang dihasilkan oleh pohon-pohon individu.
	Naive Bayes	Sebuah algoritma klasifikasi probabilistik berdasarkan teorema Bayes dengan asumsi independensi.
	K-Means Clustering	Pertama, komponen ini secara acak memilih K objek sebagai pusat kluster awal untuk setiap kluster. Kemudian, ia menghitung jarak antara objek yang tersisa dan setiap pusat kluster, menetapkan mereka ke kluster terdekat, serta menghitung ulang pusat kluster untuk setiap kluster.
	DBSCAN	Gunakan komponen DBSCAN untuk membangun model pengelompokan.
	Pelatihan GMM	Gunakan komponen Pelatihan GMM untuk mengimplementasikan klasifikasi model.
	Prediksi DBSCAN	Gunakan komponen Prediksi DBSCAN untuk memprediksi kluster tempat data baru termasuk berdasarkan model pelatihan DBSCAN.
	Prediksi GMM	Gunakan komponen Prediksi GMM untuk melakukan prediksi klustering berdasarkan model campuran Gaussian yang telah dilatih.
	Regresi GBDT	Algoritma pohon keputusan iteratif yang cocok untuk skenario regresi linier dan non-linier.
	Regresi Linier	Model yang menganalisis hubungan linier antara variabel dependen dan beberapa variabel independen.
	Regresi PS-SMART	Komponen ini dirancang untuk menangani tugas pelatihan offline dan online berskala besar. SMART adalah algoritma iteratif yang berbasis pada GBDT dan diimplementasikan pada PS.
	Regresi Linier PS	Model yang menganalisis hubungan linier antara variabel dependen dan beberapa variabel independen. Parameter Server (PS) dirancang untuk menangani tugas pelatihan offline dan online berskala besar.
	Evaluasi Klasifikasi Biner	Menghitung metrik seperti AUC, KS, dan F1-score, serta mengeluarkan kurva KS, kurva PR, kurva ROC, bagan LIFT, dan bagan Gain.
	Evaluasi Model Regresi	Evaluasi kualitas model algoritma regresi berdasarkan hasil prediksi dan hasil mentah, serta mengeluarkan metrik evaluasi dan histogram residu.
	Evaluasi Model Klastering	Evaluasi kualitas model klustering berdasarkan data mentah dan hasil klustering, serta mengeluarkan metrik evaluasi.
	Matriks Konfusi	Cocok untuk pembelajaran terawasi dan sesuai dengan matriks pencocokan dalam pembelajaran tanpa pengawasan.
	Evaluasi Klasifikasi Multikelas	Evaluasi kualitas model algoritma klasifikasi multikelas berdasarkan hasil prediksi dan hasil mentah model klasifikasi, serta mengeluarkan metrik evaluasi seperti Akurasi, Kappa, dan F1-Score.
Pembelajaran mendalam	Kerangka kerja pembelajaran mendalam dan instruksi aktivasi	PAI mendukung kerangka kerja pembelajaran mendalam. Gunakan kerangka kerja ini dan sumber daya perangkat keras untuk menjalankan algoritma pembelajaran mendalam.
Deret waktu	x13_arima	Algoritma Arima untuk penyesuaian musiman yang dienkapsulasi berdasarkan X-13ARIMA-SEATS open source.
	x13_auto_arima	Mencakup program pemilihan model ARIMA otomatis, yang terutama didasarkan pada program oleh Gomez dan Maravall (1998) yang diimplementasikan dalam TRMO (1996) dan revisi selanjutnya.
	Prophet	Menjalankan prediksi deret waktu Prophet pada setiap baris data MTable dan memberikan hasil prediksi untuk periode waktu berikutnya.
	Perakit MTable	Menggabungkan tabel menjadi MTable berdasarkan kolom pengelompokan.
	Pengurai MTable	Memperluas MTable menjadi tabel.
Metode rekomendasi	Algoritma FM	Algoritma Factorization Machine (FM) mempertimbangkan interaksi antar fitur. Ini adalah model non-linier yang cocok untuk skenario rekomendasi dalam e-commerce, periklanan, dan siaran langsung.
	Pemfaktoran Matriks ALS	Algoritma Alternating Least Squares (ALS) melakukan dekomposisi model pada matriks jarang dan mengevaluasi nilai item yang hilang untuk mendapatkan model pelatihan dasar.
	Pelatihan Swing	Algoritma recall item. Gunakan komponen Pelatihan Swing untuk mengukur kesamaan item berdasarkan prinsip User-Item-User.
	Rekomendasi Swing	Komponen prediksi pemrosesan batch untuk Swing. Gunakan komponen ini untuk melakukan prediksi offline berdasarkan model pelatihan Swing dan data prediksi.
	Pemfilteran Kolaboratif (etrec)	etrec adalah algoritma filtering kolaboratif berbasis item. Input terdiri dari dua kolom, dan outputnya adalah N item yang paling mirip.
	Evaluasi Recall Berbasis Vektor	Menghitung tingkat hit recall. Tingkat hit digunakan untuk mengevaluasi kualitas hasil. Tingkat hit yang lebih tinggi menunjukkan bahwa vektor yang dihasilkan oleh pelatihan mencapai hasil recall yang lebih akurat.
Deteksi anomali	Deteksi Anomali Faktor Outlier Lokal	Menentukan apakah sampel merupakan anomali berdasarkan nilai Local Outlier Factor (LOF)-nya.
	Deteksi Anomali IForest	Menggunakan algoritma sub-sampling untuk mengurangi kompleksitas komputasi. Dapat mengidentifikasi anomali dalam data dan memiliki efek aplikasi yang signifikan dalam deteksi anomali.
	Deteksi Anomali One-Class SVM	Berbeda dengan SVM tradisional, ini adalah algoritma pembelajaran tanpa pengawasan. Gunakan Deteksi Anomali One-Class SVM untuk memprediksi anomali dengan mempelajari batas.
Pemrosesan Bahasa Alami	Prediksi Ringkasan Teks	Ekstrak, haluskan, atau ringkas informasi kunci dari urutan teks yang panjang dan berulang. Ringkasan judul berita adalah kasus khusus dari ringkasan teks. Gunakan komponen Prediksi Ringkasan Teks untuk memanggil model pra-latih tertentu untuk memprediksi teks berita dan menghasilkan judul berita.
	Prediksi Pemahaman Membaca Mesin	Menjalankan prediksi offline dengan model pelatihan pemahaman membaca mesin yang dihasilkan.
	Pelatihan Ringkasan Teks	Ekstrak, haluskan, atau ringkas informasi kunci dari urutan teks yang panjang dan berulang. Ringkasan judul berita adalah kasus khusus dari ringkasan teks. Gunakan komponen Pelatihan Ringkasan Teks untuk melatih model yang menghasilkan judul berita untuk merangkum ide sentral dan informasi kunci artikel berita.
	Pelatihan Pemahaman Membaca Mesin	Melatih model pemahaman membaca mesin yang dapat dengan cepat memahami dan menjawab pertanyaan berdasarkan dokumen yang diberikan.
	Pemisahan Kata	Berdasarkan sistem analisis leksikal AliWS (Alibaba Word Segmenter), komponen ini melakukan tokenisasi pada konten kolom tertentu. Token yang dihasilkan dipisahkan oleh spasi.
	Trituple ke KV	Mengonversi tabel trituple (baris,kol,nilai) menjadi tabel key-value (KV) (baris,[kol_id:nilai]).
	Kesamaan String	Operasi dasar dalam pembelajaran mesin, utamanya digunakan dalam pengambilan informasi, pemrosesan bahasa alami, dan bioinformatika.
	String Similarity-Top N	Menghitung kesamaan string dan menyaring N data yang paling mirip.
	Stop Word Filter	Sebuah metode pra-pemrosesan dalam analisis teks yang digunakan untuk menyaring kebisingan (seperti "the", "is", atau "a") dari hasil tokenisasi.
	ngram-count	Sebuah langkah dalam pelatihan model bahasa. Langkah ini menghasilkan n-gram berdasarkan kata-kata dan menghitung kemunculan setiap n-gram di seluruh korpus.
	Ringkasan Teks	Sebuah teks pendek yang sederhana dan koheren yang secara komprehensif dan akurat mencerminkan gagasan utama dari sebuah dokumen. Ringkasan otomatis menggunakan komputer untuk secara otomatis mengekstrak isi ringkasan dari dokumen aslinya.
	Ekstraksi Kata Kunci	Sebuah teknik penting dalam pemrosesan bahasa alami. Teknik ini mengekstrak kata-kata dari teks yang sangat relevan dengan makna dokumen.
	Pemisahan Kalimat	Memisahkan sepotong teks menjadi kalimat-kalimat berdasarkan tanda baca. Komponen ini terutama digunakan untuk pra-pemrosesan sebelum ringkasan teks, mengonversi sebuah paragraf menjadi format satu kalimat per baris.
	Jarak Vektor Semantik	Berdasarkan hasil vektor semantik dari algoritma (seperti penyematan kata yang dihasilkan oleh Word2Vec), komponen ini menghitung kata-kata tambahan (atau kalimat) untuk kata-kata tertentu (atau kalimat) dengan menemukan himpunan vektor dengan jarak terdekat. Salah satu kasus penggunaannya adalah mengembalikan daftar kata-kata yang paling mirip berdasarkan kata masukan dan penyematan kata yang dihasilkan oleh Word2Vec.
	Doc2Vec	Gunakan komponen algoritma Doc2Vec untuk memetakan dokumen ke vektor. Inputnya adalah kosa kata, dan outputnya adalah tabel vektor dokumen, tabel vektor kata, atau kosa kata.
	Conditional Random Field	Conditional random field (CRF) adalah model distribusi probabilistik dari satu set variabel acak keluaran yang diberikan satu set variabel acak masukan. Ciri utamanya adalah asumsi bahwa variabel acak keluaran membentuk Markov random field.
	Kesamaan Dokumen	Membangun pada kesamaan string untuk menghitung kesamaan antara pasangan dokumen atau kalimat berdasarkan kata-kata.
	PMI	Algoritma ini menghitung kemunculan bersama semua kata dalam beberapa dokumen dan menghitung informasi mutual pointwise (PMI) antara setiap pasangan.
	Prediksi Conditional Random Field	Komponen algoritma berdasarkan model prediksi online linearCRF, terutama digunakan untuk masalah penandaan urutan.
	Split Word (Generate Model)	Berdasarkan sistem analisis leksikal AliWS (Alibaba Word Segmenter), komponen ini menghasilkan model tokenisasi berdasarkan parameter dan kamus kustom.
	Jumlah Kata	Mengambil string sebagai input (dimasukkan secara manual atau dibaca dari file) dan menggunakan program untuk menghitung jumlah total kata dan frekuensi setiap kata.
	TF-IDF	Sebuah teknik pembobotan umum untuk pengambilan informasi dan penambangan teks. Teknik ini sering digunakan di mesin pencari sebagai ukuran atau peringkat relevansi antara sebuah dokumen dan kueri pengguna.
	PLDA	Di PAI, Anda dapat mengatur parameter topik untuk komponen PLDA guna mengekstrak berbagai topik dari setiap dokumen.
	Word2Vec	Komponen algoritma Word2Vec menggunakan jaringan saraf untuk memetakan kata-kata ke vektor dalam ruang K-dimensi melalui pelatihan. Komponen ini mendukung operasi pada vektor yang mewakili kata-kata, yang sesuai dengan semantiknya. Inputnya adalah kolom kata atau kosa kata, dan outputnya adalah tabel vektor kata dan kosa kata.
Analisis Jaringan	Kedalaman Pohon	Mengeluarkan kedalaman dan ID pohon dari setiap node.
	k-Core	Menemukan struktur subgraf yang terhubung erat dalam sebuah graf yang memenuhi coreness tertentu. Nomor core maksimum dari sebuah node disebut nomor core dari graf.
	Jalur Terpendek Sumber-Tunggal	Menggunakan algoritma Dijkstra. Diberikan titik awal, ia menghasilkan jalur terpendek dari titik tersebut ke semua node lainnya.
	PageRank	Berasal dari peringkat pencarian web. Algoritma ini menggunakan struktur tautan halaman web untuk menghitung peringkat setiap halaman.
	Penyebaran Label Klastering	Algoritma Penyebaran Label (LPA) adalah metode pembelajaran semi-terawasi berbasis graf. Ide dasarnya adalah bahwa label (komunitas) dari sebuah node bergantung pada informasi label dari node-node yang berdekatan dengannya. Tingkat pengaruh ditentukan oleh kesamaan node, dan stabilitas dicapai melalui penyebaran iteratif.
	Penyebaran Label Klasifikasi	Sebuah algoritma klasifikasi semi-terawasi yang menggunakan informasi label dari node berlabel untuk memprediksi label dari node yang tidak berlabel.
	Modularitas	Sebuah metrik untuk mengevaluasi struktur jaringan komunitas. Metrik ini menilai kekompakan komunitas dalam struktur jaringan. Nilai di atas 0,3 biasanya menunjukkan struktur komunitas yang jelas.
	Subgraf Terhubung Maksimal	Dalam graf tak berarah G, jika ada jalur yang menghubungkan simpul A ke simpul B, A dan B terhubung. Jika graf G berisi beberapa subgraf di mana semua simpul dalam setiap subgraf terhubung, tetapi tidak ada simpul antara subgraf yang berbeda yang terhubung, subgraf-subgraf ini disebut subgraf terhubung maksimal.
	Koefisien Klastering Simpul	Dalam graf tak berarah G, komponen ini menghitung kepadatan di sekitar setiap simpul. Kepadatan jaringan bintang adalah 0, dan kepadatan jaringan sepenuhnya terhubung adalah 1.
	Koefisien Klastering Sisi	Dalam graf tak berarah G, algoritma ini menghitung kepadatan di sekitar setiap tepi.
	Hitung Segitiga	Dalam graf tak berarah G, komponen ini mengeluarkan semua segitiga.
Keuangan	Modul Transformasi Data	Gunakan komponen ini untuk melakukan normalisasi, diskritisasi, pengindeksan, atau transformasi Weight of Evidence (WOE) pada data.
	Pelatihan Kartu Skor	Alat pemodelan umum dalam penilaian risiko kredit. Diskritisasi variabel asli dengan pengelompokan input dan kemudian menggunakan model linier seperti regresi logistik atau regresi linier untuk pelatihan model. Ini mencakup fitur seperti seleksi fitur dan transformasi skor.
	Prediksi Kartu Skor	Memberi skor data mentah berdasarkan hasil model yang dihasilkan oleh komponen Pelatihan Scorecard.
	Binning	Melakukan diskritisasi fitur dengan membagi data kontinu menjadi beberapa interval diskrit. Komponen Pengelompokan mendukung pengelompokan frekuensi sama, pengelompokan lebar sama, dan pengelompokan otomatis.
	Indeks Stabilitas Populasi (PSI)	Indikator penting untuk mengukur pergeseran yang disebabkan oleh perubahan sampel. Umum digunakan untuk mengukur stabilitas sampel.
Algoritma visual	Pelatihan Klasifikasi Gambar (torch)	Jika skenario bisnis Anda melibatkan klasifikasi gambar, gunakan komponen Pelatihan Klasifikasi Gambar (torch) untuk membangun model klasifikasi gambar untuk inferensi model.
	Pelatihan Klasifikasi Video	Gunakan komponen algoritma Pelatihan Klasifikasi Video untuk melatih model dan mendapatkan model klasifikasi video untuk inferensi.
	Pelatihan Deteksi Gambar (easycv)	Membangun model deteksi objek untuk mendeteksi dan membingkai entitas berisiko tinggi dalam gambar.
	Pelatihan Swa-Supervisi Gambar	Langsung melatih gambar mentah tanpa label untuk mendapatkan model ekstraksi fitur gambar.
	Pelatihan Pembelajaran Metrik Gambar (mentah)	Membangun model pembelajaran metrik untuk inferensi model.
	Pelatihan Titik Kunci Gambar	Jika skenario bisnis Anda melibatkan deteksi titik kunci manusia, gunakan komponen Pelatihan Titik Kunci Gambar untuk membangun model titik kunci untuk inferensi model.
	Kuantisasi Model	Menyediakan algoritma kuantisasi model utama. Gunakan kuantisasi model untuk menekan dan mempercepat model untuk inferensi berkinerja tinggi.
	Pemangkasan Model	Menyediakan algoritma pemangkasan model utama AGP (taylorfo). Gunakan pemangkasan model untuk menekan dan mempercepat model untuk inferensi berkinerja tinggi.
Alat	Komponen terkait Model Offline (OfflineModel)	Struktur data yang disimpan di MaxCompute. Model yang dihasilkan oleh algoritma pembelajaran mesin tradisional berbasis pada kerangka PAICommand disimpan dalam format model offline di proyek MaxCompute yang sesuai. Gunakan komponen terkait Model Offline untuk mendapatkan model offline untuk prediksi offline.
Alat	Ekspor Model Serbaguna	Gunakan komponen Ekspor Model Serbaguna untuk mengekspor model yang dilatih di MaxCompute ke jalur OSS tertentu.
Skrip Kustom	Skrip PyAlink	Memanggil algoritma Alink untuk klasifikasi, regresi, dan rekomendasi. Skrip PyAlink juga terintegrasi mulus dengan komponen algoritma Desainer lainnya untuk membangun dan memvalidasi jejak bisnis.
Skrip Kustom	Skrip SQL Jendela Waktu	Menambahkan fitur eksekusi loop multi-tanggal ke komponen Skrip SQL standar. Digunakan untuk eksekusi paralel tugas SQL harian dalam periode waktu tertentu.
Komponen Beta	Pelatihan Regresi Lasso	Sebuah algoritma estimasi kompresi.
	Prediksi Regresi Lasso	Mendukung format data jarang dan padat. Gunakan komponen ini untuk memprediksi variabel numerik, seperti jumlah pinjaman dan suhu.
	Prediksi Regresi Ridge	Memrediksi variabel numerik, termasuk harga rumah, volume penjualan, dan kelembapan.
	Pelatihan Regresi Ridge	Metode regularisasi yang paling umum digunakan untuk analisis regresi masalah tidak stabil.