全部产品
Search
文档中心

Platform For AI:Ikhtisar Komponen Desainer

更新时间:Nov 06, 2025

Komponen algoritma yang direkomendasikan

Komponen algoritma yang direkomendasikan mencakup algoritma serbaguna seperti pembacaan data, skrip SQL, dan skrip Python. Kategori ini juga mencakup algoritma untuk pemrosesan data model bahasa besar (seperti LLM dan LVM), pelatihan, serta inferensi. Gunakan komponen algoritma berbasis DLC karena mendukung sumber daya heterogen dan lingkungan kustom, memberikan fleksibilitas lebih besar.

Tipe Komponen

Komponen

Deskripsi

Komponen Kustom

Komponen Kustom

Membuat komponen kustom dalam Manajemen Aset AI. Gunakan komponen kustom di Desainer untuk pelatihan model bersama dengan komponen resmi.

Sumber/Tujuan

Baca Data OSS

Membaca file atau folder dari jalur tertentu di bucket Object Storage Service (OSS).

Baca File CSV

Membaca file CSV dari OSS, HTTP, atau HDFS.

Baca Tabel

Membaca data dari tabel MaxCompute di proyek saat ini.

Tulis ke Tabel

Menulis data upstream ke tabel MaxCompute.

Skrip Kustom

Skrip SQL

Menjalankan pernyataan SQL kustom di MaxCompute.

Skrip Python

Menginstal paket dependensi dan menjalankan fungsi Python kustom.

Alat

Daftar Dataset

Mendaftarkan dataset ke Manajemen Aset AI.

Daftar Model

Mendaftarkan model ke Manajemen Aset AI.

Perbarui Layanan EAS (Beta)

Memanggil eascmd untuk memperbarui layanan Elastic Algorithm Service (EAS) tertentu. Layanan tersebut harus dalam status berjalan. Setiap pembaruan membuat versi layanan baru.

Pemrosesan data LLM

Konversi data

Ekspor Tabel MaxCompute ke OSS

Mengekspor tabel MaxCompute ke OSS.

Impor Data OSS ke Tabel MaxCompute

Mengimpor data dari OSS ke tabel MaxCompute.

Pemrosesan data LLM (DLC)

Deduplikasi LLM-MD5 (DLC)

Menghitung hash MD5 dari konten teks dan menghapus entri duplikat.

LLM-Text Normalization (DLC)

Menjalankan normalisasi Unicode pada teks dan mengonversi karakter Tionghoa Tradisional menjadi Tionghoa Sederhana.

Penghapusan Konten Khusus LLM (DLC)

Menghapus URL dan menghilangkan format HTML untuk mengekstrak teks biasa.

LLM-Special Character Ratio Filter (DLC)

Menyaring sampel berdasarkan rasio karakter khusus terhadap panjang teks total.

Informasi Penghapusan Hak Cipta LLM (DLC)

Menghapus informasi hak cipta dari teks, seperti komentar di header file kode.

LLM-Jumlah Filter (DLC)

Menyaring sampel berdasarkan rasio karakter numerik dan alfabetik terhadap panjang teks total.

Filter Panjang LLM (DLC)

Menyaring sampel berdasarkan panjang teks total, panjang garis rata-rata, dan panjang garis maksimum.

LLM-Text Quality Scoring and Language Identification - FastText (DLC)

Mengidentifikasi bahasa dari sebuah teks, menghitung skor kualitas, dan menyaring sampel berdasarkan bahasa dan rentang skor yang ditentukan.

LLM-Sensitive Word Filter (DLC)

Menyaring sampel yang mengandung kata-kata dari kamus kata sensitif tertentu.

LLM-Sensitive Information Masking (DLC)

Menyembunyikan informasi sensitif, seperti alamat email, nomor telepon, dan nomor identitas.

LLM-Document Similarity Deduplication (DLC)

Menghapus duplikasi dokumen dengan menghitung skor kemiripan menggunakan SimHash.

Filter Rasio Pengulangan LLM-N-Gram (DLC)

Menyaring sampel berdasarkan rasio pengulangan N-gram pada tingkat karakter atau kata.

LLM-Expand LaTeX Macro Definition (DLC)

Digunakan untuk data dalam format dokumen TEX. Ini melakukan ekspansi inline dari semua makro yang tidak memiliki parameter. Jika sebuah makro terdiri dari huruf dan angka serta tidak memiliki parameter, nama makro diganti dengan nilainya.

LLM-Remove LaTeX Bibliography (DLC)

Menghapus bagian bibliografi dari dokumen LaTeX.

LLM-Remove LaTeX Comment Lines (DLC)

Menghapus baris komentar dan komentar sebaris dari teks sumber LaTeX.

LLM-Remove LaTeX Document Header (DLC)

Digunakan untuk data dalam format dokumen TEX. Ini menemukan string pertama yang cocok dengan format bab <section-type>[optional-args]{name}, menghapus semua konten sebelumnya, dan mempertahankan semua konten setelah bab pertama yang cocok, termasuk judul bab.

Pemrosesan data LLM (MaxCompute)

Deduplikasi LLM-MD5 (MaxCompute)

Menghitung Hash MD5 dari konten teks dan menghapus entri duplikat.

Normalisasi Teks-LLM (MaxCompute)

Menjalankan normalisasi Unicode dan mengonversi karakter Tionghoa Tradisional menjadi Tionghoa Sederhana.

Penghapusan Konten Khusus LLM (MaxCompute)

Menghapus konten seperti navigasi, informasi penulis, URL, dan pemformatan HTML.

LLM-Rasio Karakter Spesial Filter (MaxCompute)

Menyaring sampel berdasarkan rasio karakter khusus terhadap panjang teks total.

Informasi Penghapusan Hak Cipta LLM (MaxCompute)

Menghapus informasi hak cipta dari teks, seperti komentar di header file kode.

LLM-Jumlah Filter (MaxCompute)

Menyaring sampel berdasarkan jumlah huruf, angka, dan pemisah.

LLM-Filter Panjang (MaxCompute)

Menyaring sampel berdasarkan panjang teks total, panjang garis rata-rata, dan panjang garis maksimum.

Penskoran Kualitas Teks-LLM dan Identifikasi Bahasa (MaxCompute)

Mengidentifikasi bahasa dari sebuah teks, menghitung skor kualitas, dan menyaring sampel berdasarkan bahasa dan rentang skor yang ditentukan.

Filter Kata Sensitif LLM (MaxCompute)

Menyaring sampel yang mengandung kata-kata dari kamus kata sensitif tertentu.

Masking Informasi Sensitif LLM (MaxCompute)

Menyembunyikan informasi sensitif, seperti alamat email, nomor telepon, dan nomor identitas.

Deduplikasi Kalimat Intra-Dokumen LLM (MaxCompute)

Menghapus kalimat identik yang duplikat dalam satu dokumen.

Filter Rasio Pengulangan LLM-N-Gram (MaxCompute)

Menyaring sampel berdasarkan rasio pengulangan N-gram pada tingkat karakter atau kata.

LLM-Expand LaTeX Macro Definition (MaxCompute)

Menyisipkan definisi makro tanpa parameter dalam data berformat TEX.

LLM-Remove LaTeX Bibliography (MaxCompute)

Menghapus bagian bibliografi dari dokumen LaTeX.

LLM-Hapus Baris Komentar LaTeX (MaxCompute)

Menghapus baris komentar dan komentar sebaris dari teks sumber LaTeX.

LLM-Remove LaTeX Document Header (MaxCompute)

Menghapus semua konten sebelum deklarasi bagian pertama dalam dokumen LaTeX.

Pemrosesan data LVM (DLC)

Operator pra-pemrosesan video

LVM-Text Area Filter (DLC)

Menyaring data video berdasarkan jumlah teks yang ada di dalam frame.

LVM-Motion Filter (DLC)

Menyaring data video berdasarkan rentang kecepatan gerak tertentu.

LVM-Aesthetics Filter (DLC)

Menyaring data video yang berada di bawah skor kualitas estetika tertentu.

LVM-Aspect Ratio Filter (DLC)

Memfilter data video berdasarkan rentang rasio aspek yang ditentukan.

LVM-Duration Filter (DLC)

Menyaring data video berdasarkan rentang durasi yang ditentukan.

LVM-Video-Text Similarity Filter (DLC)

Menyaring data video berdasarkan skor kemiripan semantik antara video dan teks terkaitnya.

Filter Kepatuhan LVM (DLC)

Menyaring data video berdasarkan skor Not Safe For Work (NSFW)-nya.

LVM-Resolution Filter (DLC)

Memfilter data video berdasarkan rentang resolusi yang ditentukan.

LVM-Watermark Filter (DLC)

Memfilter data video yang berisi watermark.

LVM-Tag Filter (DLC)

Menyaring data video yang tidak cocok dengan set tag tertentu.

Pembuatan Tag LVM (DLC)

Membuat tag deskriptif untuk frame video.

LLM-Pembuatan Teks Frame (DLC)

Membuat teks deskriptif untuk frame video.

LLM-Pembuatan Teks Video (DLC)

Membuat teks deskriptif untuk seluruh video.

Operator pra-pemrosesan gambar

LVM-Image Aesthetics Filter (DLC)

Menyaring data gambar yang jatuh di bawah skor kualitas estetika tertentu.

LLM-Filter Rasio Aspek Gambar (DLC)

Menyaring data gambar berdasarkan rentang rasio aspek tertentu.

LVM-Image Face Ratio Filter (DLC)

Menyaring data gambar berdasarkan rasio area wajah terhadap area total gambar.

LLM-Filter Kepatuhan Gambar (DLC)

Menyaring data gambar berdasarkan skor Not Safe For Work (NSFW).

LLM-Filter Resolusi Gambar (DLC)

Menyaring data gambar berdasarkan rentang resolusi tertentu.

LLM-Filter Ukuran Gambar (DLC)

Menyaring data gambar berdasarkan rentang ukuran file tertentu.

Filter Pencocokan Gambar-Teks LVM (DLC)

Menyaring pasangan gambar-teks berdasarkan skor pencocokannya.

LVM-Image-Text Similarity Filter (DLC)

Menyaring pasangan gambar-teks berdasarkan skor kesamaan semantiknya.

LLM-Filter Watermark Gambar (DLC)

Menyaring data gambar yang mengandung watermark.

LVM-Image Captioning (DLC)

Membuat deskripsi bahasa alami untuk gambar.

Pelatihan dan inferensi LLM

Inferensi Offline Model BERT

Menjalankan inferensi offline menggunakan model klasifikasi BERT pra-latih untuk mengklasifikasikan teks dalam tabel input.

Komponen algoritma tradisional

Penting

Komponen warisan ini tidak lagi dipelihara secara aktif. Stabilitas dan Service Level Agreements (SLA) tidak dijamin. Gantilah komponen warisan pada lingkungan produksi dengan komponen algoritma yang direkomendasikan untuk memastikan stabilitas.

Tipe Komponen

Komponen

Deskripsi

Pra-pemrosesan data

Pengambilan Sampel Acak

Menjalankan pengambilan sampel acak, independen pada data input berdasarkan rasio atau jumlah tertentu.

Pengambilan Sampel Berbobot

Menghasilkan sampel dari data input menggunakan metode pemilihan berbobot.

Filter dan Map

Menyaring baris data berdasarkan ekspresi SQL dan mengubah nama kolom output.

Pengambilan Sampel Bertingkat

Membagi data menjadi kelompok berdasarkan kolom tertentu dan melakukan pengambilan sampel acak dalam setiap kelompok.

JOIN

Menggabungkan dua tabel berdasarkan kunci gabungan, mirip dengan pernyataan JOIN SQL.

Gabung Kolom

Menggabungkan kolom dari dua tabel. Kedua tabel harus memiliki jumlah baris yang sama.

Gabung Baris (UNION)

Menambahkan baris dari dua tabel. Kedua tabel harus memiliki jumlah dan tipe kolom yang sama.

Transformasi Tipe

Mengonversi tipe data kolom tertentu menjadi String, Double, atau Integer. Mengisi nilai yang hilang jika konversi gagal.

Tambah Kolom ID

Menambahkan kolom ID numerik berurutan sebagai kolom pertama tabel.

Pisah

Secara acak membagi dataset menjadi dua subset, biasanya untuk membuat set pelatihan dan pengujian.

Isi Nilai Hilang

Mengisi nilai yang hilang di kolom tertentu menggunakan metode yang dipilih, seperti mean, median, modus, atau nilai kustom.

Normalisasi

Menskalakan ulang fitur numerik ke rentang umum, seperti [0, 1]. Mendukung format data padat dan jarang.

Standardisasi

Menskalakan ulang fitur agar memiliki mean 0 dan deviasi standar 1 (normalisasi z-score).

KV ke Tabel

Mengonversi tabel dari format Key-Value (KV) jarang ke format tabel padat.

Tabel ke KV

Mengonversi tabel padat ke format Key-Value (KV) jarang.

Rekayasa fitur

Penyaringan Pentingnya Fitur

Menyaring fitur Top N berdasarkan skor kepentingan yang dihasilkan oleh komponen lain.

Principal Component Analysis

Menjalankan Principal Component Analysis (PCA) untuk mengurangi dimensi dari sebuah set data dengan mentransformasi fitur menjadi satu set komponen utama yang tidak berkorelasi secara linear.

Penskalaan Fitur

Menerapkan transformasi penskalaan min-maks, log, atau z-score pada fitur numerik.

Diskretisasi Fitur

Mengonversi fitur numerik kontinu menjadi fitur kategorikal diskrit (bin).

Feature Anomaly Smoothing

Memotong nilai fitur anomali ke rentang yang ditentukan. Mendukung format data baik jarang maupun padat.

Dekomposisi Nilai Singular

Melakukan Singular Value Decomposition (SVD) pada sebuah matriks.

Deteksi Anomali

Mendeteksi pencilan dalam data yang berisi fitur kontinu dan kategorikal.

Pentingnya Fitur Model Linier

Menghitung skor pentingnya fitur menggunakan model regresi linier atau regresi logistik.

Analisis Fitur Diskrit

Menganalisis distribusi statistik dari fitur diskrit.

Evaluasi Pentingnya Fitur Random Forest

Menghitung skor pentingnya fitur menggunakan model Random Forest yang telah dilatih.

Seleksi Fitur Berbasis Filter

Memilih subset fitur menggunakan metode filter seperti Chi-squared, Indeks Gini, atau Information Gain.

Pengkodean Fitur

Mengkodekan fitur non-linier menjadi fitur linier menggunakan model Gradient Boosting Decision Tree (GBDT).

One-Hot Encoding

Mengonversi fitur kategorikal menjadi representasi vektor biner. Outputnya dalam format Key-Value (KV) jarang.

Analisis statistik

Tampilan Data

Memberikan ringkasan visual dari distribusi data dan statistik untuk kolom yang dipilih.

Kovarians

Menghitung kovarians antara dua variabel acak untuk mengukur bagaimana mereka berubah bersama.

Plot Densitas Probabilitas Empiris

Menghasilkan plot densitas probabilitas menggunakan distribusi empiris atau estimasi densitas kernel.

Statistik Tabel Penuh

Menghitung statistik deskriptif untuk semua kolom atau subset kolom dalam tabel.

Uji Kesesuaian Chi-Square

Digunakan untuk variabel kategorikal. Ini menguji apakah frekuensi teramati aktual dan frekuensi teoretis konsisten di seluruh kategori variabel kategorikal multinomial tunggal. Hipotesis nol adalah tidak ada perbedaan antara frekuensi teramati dan teoretis.

Box Plot

Grafik box plot adalah grafik statistik yang digunakan untuk menampilkan dispersi dataset. Ini terutama digunakan untuk mencerminkan karakteristik distribusi data mentah dan juga dapat digunakan untuk membandingkan karakteristik distribusi beberapa dataset.

Scatter Plot

Grafik scatter adalah plot distribusi titik data pada sistem koordinat Cartesian dalam analisis regresi.

Matriks Korelasi

Algoritma koefisien korelasi menghitung koefisien korelasi antara setiap kolom dalam matriks. Nilainya berkisar dari [-1,1]. Selama perhitungan, jumlah didasarkan pada jumlah elemen yang tidak kosong di kedua kolom. Jumlah tersebut dapat bervariasi antara pasangan kolom yang berbeda.

Two-Sample T-Test

Berdasarkan prinsip statistik, komponen ini menguji apakah terdapat perbedaan signifikan antara rata-rata dua sampel.

Uji-T Satu Sampel

Menguji apakah terdapat perbedaan signifikan antara rata-rata populasi dari suatu variabel dan nilai tertentu yang ditentukan. Sampel yang diuji harus mengikuti distribusi normal.

Uji Normalitas

Menggunakan nilai-nilai yang diamati untuk menentukan apakah suatu populasi mengikuti distribusi normal. Ini adalah jenis uji hipotesis kesesuaian khusus yang penting dalam pengambilan keputusan statistik.

Kurva Lorenz

Secara visual menampilkan distribusi pendapatan suatu negara atau wilayah.

Persentil

Sebuah istilah statistik yang digunakan untuk menghitung persentil data dalam kolom tabel.

Koefisien Pearson

Koefisien korelasi linear yang mencerminkan tingkat korelasi linear antara dua variabel.

Histogram

Histogram, yang juga dikenal sebagai grafik distribusi massa, adalah grafik laporan statistik yang menggunakan serangkaian batang vertikal atau segmen garis dengan ketinggian bervariasi untuk merepresentasikan distribusi data.

Pembelajaran mesin

Prediksi

Inputnya adalah model yang telah dilatih dan data prediksi, sedangkan outputnya adalah hasil prediksi.

Pelatihan XGBoost

Algoritma ini memperluas dan meningkatkan algoritma boosting. Algoritma ini mudah digunakan dan tangguh, serta banyak digunakan di berbagai sistem produksi pembelajaran mesin dan kompetisi. Saat ini, algoritma ini mendukung klasifikasi dan regresi.

XGBoost Prediction

Algoritma ini memperluas dan meningkatkan algoritma boosting. Algoritma ini mudah digunakan dan tangguh, serta banyak digunakan di berbagai sistem produksi pembelajaran mesin dan kompetisi. Saat ini, algoritma ini mendukung klasifikasi dan regresi.

Linear Support Vector Machine

Sebuah metode pembelajaran mesin berdasarkan teori pembelajaran statistik. Metode ini meningkatkan kemampuan generalisasi mesin pembelajaran dengan meminimalkan risiko struktural, sehingga meminimalkan risiko empiris dan rentang kepercayaan.

Regresi Logistik untuk Klasifikasi Biner

Algoritma klasifikasi biner yang mendukung format data jarang dan padat.

GBDT untuk Klasifikasi Biner

Komponen ini bekerja dengan menetapkan ambang batas. Jika nilai fitur lebih besar dari ambang batas, maka itu adalah contoh positif. Sebaliknya, itu adalah contoh negatif.

PS-SMART untuk Klasifikasi Biner

Parameter Server (PS) dirancang untuk menangani tugas-tugas pelatihan skala besar secara offline dan online. Scalable Multiple Additive Regression Tree (SMART) adalah algoritma iteratif yang didasarkan pada Gradient Boosting Decision Tree (GBDT) dan diimplementasikan pada PS.

PS-based Logistic Regression untuk Klasifikasi Biner

Algoritma klasifikasi biner klasik yang banyak digunakan dalam skenario iklan dan pencarian.

PS-SMART untuk Klasifikasi Multikelas

Parameter Server (PS) dirancang untuk menangani tugas pelatihan offline dan online dalam skala besar. Scalable Multiple Additive Regression Tree (SMART) adalah algoritma iteratif yang didasarkan pada Gradient Boosting Decision Tree (GBDT) dan diimplementasikan pada PS.

K-Nearest Neighbors

Untuk setiap baris data dalam tabel prediksi, komponen ini memilih K catatan dengan jarak terdekat dari tabel pelatihan. Kelas dengan frekuensi tertinggi di antara K catatan tersebut ditetapkan sebagai kelas untuk baris itu.

Regresi Logistik untuk Klasifikasi Multikelas

Sebuah algoritma klasifikasi biner. Model regresi logistik yang disediakan oleh PAI mendukung klasifikasi multikelas serta format data yang jarang dan padat.

Random Forests

Sebuah pengklasifikasi yang mencakup beberapa pohon keputusan. Hasil klasifikasinya ditentukan oleh modus dari kelas-kelas yang dihasilkan oleh pohon-pohon individu.

Naive Bayes

Sebuah algoritma klasifikasi probabilistik berdasarkan teorema Bayes dengan asumsi independensi.

K-Means Clustering

Pertama, komponen ini secara acak memilih K objek sebagai pusat kluster awal untuk setiap kluster. Kemudian, ia menghitung jarak antara objek yang tersisa dan setiap pusat kluster, menetapkan mereka ke kluster terdekat, serta menghitung ulang pusat kluster untuk setiap kluster.

DBSCAN

Gunakan komponen DBSCAN untuk membangun model pengelompokan.

Pelatihan GMM

Gunakan komponen Pelatihan GMM untuk mengimplementasikan klasifikasi model.

Prediksi DBSCAN

Gunakan komponen Prediksi DBSCAN untuk memprediksi kluster tempat data baru termasuk berdasarkan model pelatihan DBSCAN.

Prediksi GMM

Gunakan komponen Prediksi GMM untuk melakukan prediksi klustering berdasarkan model campuran Gaussian yang telah dilatih.

Regresi GBDT

Algoritma pohon keputusan iteratif yang cocok untuk skenario regresi linier dan non-linier.

Regresi Linier

Model yang menganalisis hubungan linier antara variabel dependen dan beberapa variabel independen.

Regresi PS-SMART

Komponen ini dirancang untuk menangani tugas pelatihan offline dan online berskala besar. SMART adalah algoritma iteratif yang berbasis pada GBDT dan diimplementasikan pada PS.

Regresi Linier PS

Model yang menganalisis hubungan linier antara variabel dependen dan beberapa variabel independen. Parameter Server (PS) dirancang untuk menangani tugas pelatihan offline dan online berskala besar.

Evaluasi Klasifikasi Biner

Menghitung metrik seperti AUC, KS, dan F1-score, serta mengeluarkan kurva KS, kurva PR, kurva ROC, bagan LIFT, dan bagan Gain.

Evaluasi Model Regresi

Evaluasi kualitas model algoritma regresi berdasarkan hasil prediksi dan hasil mentah, serta mengeluarkan metrik evaluasi dan histogram residu.

Evaluasi Model Klastering

Evaluasi kualitas model klustering berdasarkan data mentah dan hasil klustering, serta mengeluarkan metrik evaluasi.

Matriks Konfusi

Cocok untuk pembelajaran terawasi dan sesuai dengan matriks pencocokan dalam pembelajaran tanpa pengawasan.

Evaluasi Klasifikasi Multikelas

Evaluasi kualitas model algoritma klasifikasi multikelas berdasarkan hasil prediksi dan hasil mentah model klasifikasi, serta mengeluarkan metrik evaluasi seperti Akurasi, Kappa, dan F1-Score.

Pembelajaran mendalam

Kerangka kerja pembelajaran mendalam dan instruksi aktivasi

PAI mendukung kerangka kerja pembelajaran mendalam. Gunakan kerangka kerja ini dan sumber daya perangkat keras untuk menjalankan algoritma pembelajaran mendalam.

Deret waktu

x13_arima

Algoritma Arima untuk penyesuaian musiman yang dienkapsulasi berdasarkan X-13ARIMA-SEATS open source.

x13_auto_arima

Mencakup program pemilihan model ARIMA otomatis, yang terutama didasarkan pada program oleh Gomez dan Maravall (1998) yang diimplementasikan dalam TRMO (1996) dan revisi selanjutnya.

Prophet

Menjalankan prediksi deret waktu Prophet pada setiap baris data MTable dan memberikan hasil prediksi untuk periode waktu berikutnya.

Perakit MTable

Menggabungkan tabel menjadi MTable berdasarkan kolom pengelompokan.

Pengurai MTable

Memperluas MTable menjadi tabel.

Metode rekomendasi

Algoritma FM

Algoritma Factorization Machine (FM) mempertimbangkan interaksi antar fitur. Ini adalah model non-linier yang cocok untuk skenario rekomendasi dalam e-commerce, periklanan, dan siaran langsung.

Pemfaktoran Matriks ALS

Algoritma Alternating Least Squares (ALS) melakukan dekomposisi model pada matriks jarang dan mengevaluasi nilai item yang hilang untuk mendapatkan model pelatihan dasar.

Pelatihan Swing

Algoritma recall item. Gunakan komponen Pelatihan Swing untuk mengukur kesamaan item berdasarkan prinsip User-Item-User.

Rekomendasi Swing

Komponen prediksi pemrosesan batch untuk Swing. Gunakan komponen ini untuk melakukan prediksi offline berdasarkan model pelatihan Swing dan data prediksi.

Pemfilteran Kolaboratif (etrec)

etrec adalah algoritma filtering kolaboratif berbasis item. Input terdiri dari dua kolom, dan outputnya adalah N item yang paling mirip.

Evaluasi Recall Berbasis Vektor

Menghitung tingkat hit recall. Tingkat hit digunakan untuk mengevaluasi kualitas hasil. Tingkat hit yang lebih tinggi menunjukkan bahwa vektor yang dihasilkan oleh pelatihan mencapai hasil recall yang lebih akurat.

Deteksi anomali

Deteksi Anomali Faktor Outlier Lokal

Menentukan apakah sampel merupakan anomali berdasarkan nilai Local Outlier Factor (LOF)-nya.

Deteksi Anomali IForest

Menggunakan algoritma sub-sampling untuk mengurangi kompleksitas komputasi. Dapat mengidentifikasi anomali dalam data dan memiliki efek aplikasi yang signifikan dalam deteksi anomali.

Deteksi Anomali One-Class SVM

Berbeda dengan SVM tradisional, ini adalah algoritma pembelajaran tanpa pengawasan. Gunakan Deteksi Anomali One-Class SVM untuk memprediksi anomali dengan mempelajari batas.

Pemrosesan Bahasa Alami

Prediksi Ringkasan Teks

Ekstrak, haluskan, atau ringkas informasi kunci dari urutan teks yang panjang dan berulang. Ringkasan judul berita adalah kasus khusus dari ringkasan teks. Gunakan komponen Prediksi Ringkasan Teks untuk memanggil model pra-latih tertentu untuk memprediksi teks berita dan menghasilkan judul berita.

Prediksi Pemahaman Membaca Mesin

Menjalankan prediksi offline dengan model pelatihan pemahaman membaca mesin yang dihasilkan.

Pelatihan Ringkasan Teks

Ekstrak, haluskan, atau ringkas informasi kunci dari urutan teks yang panjang dan berulang. Ringkasan judul berita adalah kasus khusus dari ringkasan teks. Gunakan komponen Pelatihan Ringkasan Teks untuk melatih model yang menghasilkan judul berita untuk merangkum ide sentral dan informasi kunci artikel berita.

Pelatihan Pemahaman Membaca Mesin

Melatih model pemahaman membaca mesin yang dapat dengan cepat memahami dan menjawab pertanyaan berdasarkan dokumen yang diberikan.

Pemisahan Kata

Berdasarkan sistem analisis leksikal AliWS (Alibaba Word Segmenter), komponen ini melakukan tokenisasi pada konten kolom tertentu. Token yang dihasilkan dipisahkan oleh spasi.

Trituple ke KV

Mengonversi tabel trituple (baris,kol,nilai) menjadi tabel key-value (KV) (baris,[kol_id:nilai]).

Kesamaan String

Operasi dasar dalam pembelajaran mesin, utamanya digunakan dalam pengambilan informasi, pemrosesan bahasa alami, dan bioinformatika.

String Similarity-Top N

Menghitung kesamaan string dan menyaring N data yang paling mirip.

Stop Word Filter

Sebuah metode pra-pemrosesan dalam analisis teks yang digunakan untuk menyaring kebisingan (seperti "the", "is", atau "a") dari hasil tokenisasi.

ngram-count

Sebuah langkah dalam pelatihan model bahasa. Langkah ini menghasilkan n-gram berdasarkan kata-kata dan menghitung kemunculan setiap n-gram di seluruh korpus.

Ringkasan Teks

Sebuah teks pendek yang sederhana dan koheren yang secara komprehensif dan akurat mencerminkan gagasan utama dari sebuah dokumen. Ringkasan otomatis menggunakan komputer untuk secara otomatis mengekstrak isi ringkasan dari dokumen aslinya.

Ekstraksi Kata Kunci

Sebuah teknik penting dalam pemrosesan bahasa alami. Teknik ini mengekstrak kata-kata dari teks yang sangat relevan dengan makna dokumen.

Pemisahan Kalimat

Memisahkan sepotong teks menjadi kalimat-kalimat berdasarkan tanda baca. Komponen ini terutama digunakan untuk pra-pemrosesan sebelum ringkasan teks, mengonversi sebuah paragraf menjadi format satu kalimat per baris.

Jarak Vektor Semantik

Berdasarkan hasil vektor semantik dari algoritma (seperti penyematan kata yang dihasilkan oleh Word2Vec), komponen ini menghitung kata-kata tambahan (atau kalimat) untuk kata-kata tertentu (atau kalimat) dengan menemukan himpunan vektor dengan jarak terdekat. Salah satu kasus penggunaannya adalah mengembalikan daftar kata-kata yang paling mirip berdasarkan kata masukan dan penyematan kata yang dihasilkan oleh Word2Vec.

Doc2Vec

Gunakan komponen algoritma Doc2Vec untuk memetakan dokumen ke vektor. Inputnya adalah kosa kata, dan outputnya adalah tabel vektor dokumen, tabel vektor kata, atau kosa kata.

Conditional Random Field

Conditional random field (CRF) adalah model distribusi probabilistik dari satu set variabel acak keluaran yang diberikan satu set variabel acak masukan. Ciri utamanya adalah asumsi bahwa variabel acak keluaran membentuk Markov random field.

Kesamaan Dokumen

Membangun pada kesamaan string untuk menghitung kesamaan antara pasangan dokumen atau kalimat berdasarkan kata-kata.

PMI

Algoritma ini menghitung kemunculan bersama semua kata dalam beberapa dokumen dan menghitung informasi mutual pointwise (PMI) antara setiap pasangan.

Prediksi Conditional Random Field

Komponen algoritma berdasarkan model prediksi online linearCRF, terutama digunakan untuk masalah penandaan urutan.

Split Word (Generate Model)

Berdasarkan sistem analisis leksikal AliWS (Alibaba Word Segmenter), komponen ini menghasilkan model tokenisasi berdasarkan parameter dan kamus kustom.

Jumlah Kata

Mengambil string sebagai input (dimasukkan secara manual atau dibaca dari file) dan menggunakan program untuk menghitung jumlah total kata dan frekuensi setiap kata.

TF-IDF

Sebuah teknik pembobotan umum untuk pengambilan informasi dan penambangan teks. Teknik ini sering digunakan di mesin pencari sebagai ukuran atau peringkat relevansi antara sebuah dokumen dan kueri pengguna.

PLDA

Di PAI, Anda dapat mengatur parameter topik untuk komponen PLDA guna mengekstrak berbagai topik dari setiap dokumen.

Word2Vec

Komponen algoritma Word2Vec menggunakan jaringan saraf untuk memetakan kata-kata ke vektor dalam ruang K-dimensi melalui pelatihan. Komponen ini mendukung operasi pada vektor yang mewakili kata-kata, yang sesuai dengan semantiknya. Inputnya adalah kolom kata atau kosa kata, dan outputnya adalah tabel vektor kata dan kosa kata.

Analisis Jaringan

Kedalaman Pohon

Mengeluarkan kedalaman dan ID pohon dari setiap node.

k-Core

Menemukan struktur subgraf yang terhubung erat dalam sebuah graf yang memenuhi coreness tertentu. Nomor core maksimum dari sebuah node disebut nomor core dari graf.

Jalur Terpendek Sumber-Tunggal

Menggunakan algoritma Dijkstra. Diberikan titik awal, ia menghasilkan jalur terpendek dari titik tersebut ke semua node lainnya.

PageRank

Berasal dari peringkat pencarian web. Algoritma ini menggunakan struktur tautan halaman web untuk menghitung peringkat setiap halaman.

Penyebaran Label Klastering

Algoritma Penyebaran Label (LPA) adalah metode pembelajaran semi-terawasi berbasis graf. Ide dasarnya adalah bahwa label (komunitas) dari sebuah node bergantung pada informasi label dari node-node yang berdekatan dengannya. Tingkat pengaruh ditentukan oleh kesamaan node, dan stabilitas dicapai melalui penyebaran iteratif.

Penyebaran Label Klasifikasi

Sebuah algoritma klasifikasi semi-terawasi yang menggunakan informasi label dari node berlabel untuk memprediksi label dari node yang tidak berlabel.

Modularitas

Sebuah metrik untuk mengevaluasi struktur jaringan komunitas. Metrik ini menilai kekompakan komunitas dalam struktur jaringan. Nilai di atas 0,3 biasanya menunjukkan struktur komunitas yang jelas.

Subgraf Terhubung Maksimal

Dalam graf tak berarah G, jika ada jalur yang menghubungkan simpul A ke simpul B, A dan B terhubung. Jika graf G berisi beberapa subgraf di mana semua simpul dalam setiap subgraf terhubung, tetapi tidak ada simpul antara subgraf yang berbeda yang terhubung, subgraf-subgraf ini disebut subgraf terhubung maksimal.

Koefisien Klastering Simpul

Dalam graf tak berarah G, komponen ini menghitung kepadatan di sekitar setiap simpul. Kepadatan jaringan bintang adalah 0, dan kepadatan jaringan sepenuhnya terhubung adalah 1.

Koefisien Klastering Sisi

Dalam graf tak berarah G, algoritma ini menghitung kepadatan di sekitar setiap tepi.

Hitung Segitiga

Dalam graf tak berarah G, komponen ini mengeluarkan semua segitiga.

Keuangan

Modul Transformasi Data

Gunakan komponen ini untuk melakukan normalisasi, diskritisasi, pengindeksan, atau transformasi Weight of Evidence (WOE) pada data.

Pelatihan Kartu Skor

Alat pemodelan umum dalam penilaian risiko kredit. Diskritisasi variabel asli dengan pengelompokan input dan kemudian menggunakan model linier seperti regresi logistik atau regresi linier untuk pelatihan model. Ini mencakup fitur seperti seleksi fitur dan transformasi skor.

Prediksi Kartu Skor

Memberi skor data mentah berdasarkan hasil model yang dihasilkan oleh komponen Pelatihan Scorecard.

Binning

Melakukan diskritisasi fitur dengan membagi data kontinu menjadi beberapa interval diskrit. Komponen Pengelompokan mendukung pengelompokan frekuensi sama, pengelompokan lebar sama, dan pengelompokan otomatis.

Indeks Stabilitas Populasi (PSI)

Indikator penting untuk mengukur pergeseran yang disebabkan oleh perubahan sampel. Umum digunakan untuk mengukur stabilitas sampel.

Algoritma visual

Pelatihan Klasifikasi Gambar (torch)

Jika skenario bisnis Anda melibatkan klasifikasi gambar, gunakan komponen Pelatihan Klasifikasi Gambar (torch) untuk membangun model klasifikasi gambar untuk inferensi model.

Pelatihan Klasifikasi Video

Gunakan komponen algoritma Pelatihan Klasifikasi Video untuk melatih model dan mendapatkan model klasifikasi video untuk inferensi.

Pelatihan Deteksi Gambar (easycv)

Membangun model deteksi objek untuk mendeteksi dan membingkai entitas berisiko tinggi dalam gambar.

Pelatihan Swa-Supervisi Gambar

Langsung melatih gambar mentah tanpa label untuk mendapatkan model ekstraksi fitur gambar.

Pelatihan Pembelajaran Metrik Gambar (mentah)

Membangun model pembelajaran metrik untuk inferensi model.

Pelatihan Titik Kunci Gambar

Jika skenario bisnis Anda melibatkan deteksi titik kunci manusia, gunakan komponen Pelatihan Titik Kunci Gambar untuk membangun model titik kunci untuk inferensi model.

Kuantisasi Model

Menyediakan algoritma kuantisasi model utama. Gunakan kuantisasi model untuk menekan dan mempercepat model untuk inferensi berkinerja tinggi.

Pemangkasan Model

Menyediakan algoritma pemangkasan model utama AGP (taylorfo). Gunakan pemangkasan model untuk menekan dan mempercepat model untuk inferensi berkinerja tinggi.

Alat

Komponen terkait Model Offline (OfflineModel)

Struktur data yang disimpan di MaxCompute. Model yang dihasilkan oleh algoritma pembelajaran mesin tradisional berbasis pada kerangka PAICommand disimpan dalam format model offline di proyek MaxCompute yang sesuai. Gunakan komponen terkait Model Offline untuk mendapatkan model offline untuk prediksi offline.

Ekspor Model Serbaguna

Gunakan komponen Ekspor Model Serbaguna untuk mengekspor model yang dilatih di MaxCompute ke jalur OSS tertentu.

Skrip Kustom

Skrip PyAlink

Memanggil algoritma Alink untuk klasifikasi, regresi, dan rekomendasi. Skrip PyAlink juga terintegrasi mulus dengan komponen algoritma Desainer lainnya untuk membangun dan memvalidasi jejak bisnis.

Skrip SQL Jendela Waktu

Menambahkan fitur eksekusi loop multi-tanggal ke komponen Skrip SQL standar. Digunakan untuk eksekusi paralel tugas SQL harian dalam periode waktu tertentu.

Komponen Beta

Pelatihan Regresi Lasso

Sebuah algoritma estimasi kompresi.

Prediksi Regresi Lasso

Mendukung format data jarang dan padat. Gunakan komponen ini untuk memprediksi variabel numerik, seperti jumlah pinjaman dan suhu.

Prediksi Regresi Ridge

Memrediksi variabel numerik, termasuk harga rumah, volume penjualan, dan kelembapan.

Pelatihan Regresi Ridge

Metode regularisasi yang paling umum digunakan untuk analisis regresi masalah tidak stabil.