Komponen algoritma yang direkomendasikan
Komponen algoritma yang direkomendasikan mencakup algoritma serbaguna seperti pembacaan data, skrip SQL, dan skrip Python. Kategori ini juga mencakup algoritma untuk pemrosesan data model bahasa besar (seperti LLM dan LVM), pelatihan, serta inferensi. Gunakan komponen algoritma berbasis DLC karena mendukung sumber daya heterogen dan lingkungan kustom, memberikan fleksibilitas lebih besar.
Tipe Komponen | Komponen | Deskripsi | ||
Komponen Kustom | Membuat komponen kustom dalam Manajemen Aset AI. Gunakan komponen kustom di Desainer untuk pelatihan model bersama dengan komponen resmi. | |||
Sumber/Tujuan | Membaca file atau folder dari jalur tertentu di bucket Object Storage Service (OSS). | |||
Membaca file CSV dari OSS, HTTP, atau HDFS. | ||||
Membaca data dari tabel MaxCompute di proyek saat ini. | ||||
Menulis data upstream ke tabel MaxCompute. | ||||
Skrip Kustom | Menjalankan pernyataan SQL kustom di MaxCompute. | |||
Menginstal paket dependensi dan menjalankan fungsi Python kustom. | ||||
Alat | Daftar Dataset | Mendaftarkan dataset ke Manajemen Aset AI. | ||
Daftar Model | Mendaftarkan model ke Manajemen Aset AI. | |||
Perbarui Layanan EAS (Beta) | Memanggil | |||
Pemrosesan data LLM | Konversi data | Mengekspor tabel MaxCompute ke OSS. | ||
Mengimpor data dari OSS ke tabel MaxCompute. | ||||
Pemrosesan data LLM (DLC) | Menghitung hash MD5 dari konten teks dan menghapus entri duplikat. | |||
Menjalankan normalisasi Unicode pada teks dan mengonversi karakter Tionghoa Tradisional menjadi Tionghoa Sederhana. | ||||
Menghapus URL dan menghilangkan format HTML untuk mengekstrak teks biasa. | ||||
Menyaring sampel berdasarkan rasio karakter khusus terhadap panjang teks total. | ||||
Menghapus informasi hak cipta dari teks, seperti komentar di header file kode. | ||||
Menyaring sampel berdasarkan rasio karakter numerik dan alfabetik terhadap panjang teks total. | ||||
Menyaring sampel berdasarkan panjang teks total, panjang garis rata-rata, dan panjang garis maksimum. | ||||
LLM-Text Quality Scoring and Language Identification - FastText (DLC) | Mengidentifikasi bahasa dari sebuah teks, menghitung skor kualitas, dan menyaring sampel berdasarkan bahasa dan rentang skor yang ditentukan. | |||
Menyaring sampel yang mengandung kata-kata dari kamus kata sensitif tertentu. | ||||
Menyembunyikan informasi sensitif, seperti alamat email, nomor telepon, dan nomor identitas. | ||||
Menghapus duplikasi dokumen dengan menghitung skor kemiripan menggunakan SimHash. | ||||
Menyaring sampel berdasarkan rasio pengulangan N-gram pada tingkat karakter atau kata. | ||||
Digunakan untuk data dalam format dokumen TEX. Ini melakukan ekspansi inline dari semua makro yang tidak memiliki parameter. Jika sebuah makro terdiri dari huruf dan angka serta tidak memiliki parameter, nama makro diganti dengan nilainya. | ||||
Menghapus bagian bibliografi dari dokumen LaTeX. | ||||
Menghapus baris komentar dan komentar sebaris dari teks sumber LaTeX. | ||||
Digunakan untuk data dalam format dokumen TEX. Ini menemukan string pertama yang cocok dengan format bab <section-type>[optional-args]{name}, menghapus semua konten sebelumnya, dan mempertahankan semua konten setelah bab pertama yang cocok, termasuk judul bab. | ||||
Pemrosesan data LLM (MaxCompute) | Menghitung Hash MD5 dari konten teks dan menghapus entri duplikat. | |||
Menjalankan normalisasi Unicode dan mengonversi karakter Tionghoa Tradisional menjadi Tionghoa Sederhana. | ||||
Menghapus konten seperti navigasi, informasi penulis, URL, dan pemformatan HTML. | ||||
Menyaring sampel berdasarkan rasio karakter khusus terhadap panjang teks total. | ||||
Menghapus informasi hak cipta dari teks, seperti komentar di header file kode. | ||||
Menyaring sampel berdasarkan jumlah huruf, angka, dan pemisah. | ||||
Menyaring sampel berdasarkan panjang teks total, panjang garis rata-rata, dan panjang garis maksimum. | ||||
Penskoran Kualitas Teks-LLM dan Identifikasi Bahasa (MaxCompute) | Mengidentifikasi bahasa dari sebuah teks, menghitung skor kualitas, dan menyaring sampel berdasarkan bahasa dan rentang skor yang ditentukan. | |||
Menyaring sampel yang mengandung kata-kata dari kamus kata sensitif tertentu. | ||||
Menyembunyikan informasi sensitif, seperti alamat email, nomor telepon, dan nomor identitas. | ||||
Menghapus kalimat identik yang duplikat dalam satu dokumen. | ||||
Menyaring sampel berdasarkan rasio pengulangan N-gram pada tingkat karakter atau kata. | ||||
Menyisipkan definisi makro tanpa parameter dalam data berformat TEX. | ||||
Menghapus bagian bibliografi dari dokumen LaTeX. | ||||
Menghapus baris komentar dan komentar sebaris dari teks sumber LaTeX. | ||||
Menghapus semua konten sebelum deklarasi bagian pertama dalam dokumen LaTeX. | ||||
Pemrosesan data LVM (DLC) | Operator pra-pemrosesan video | Menyaring data video berdasarkan jumlah teks yang ada di dalam frame. | ||
Menyaring data video berdasarkan rentang kecepatan gerak tertentu. | ||||
Menyaring data video yang berada di bawah skor kualitas estetika tertentu. | ||||
Memfilter data video berdasarkan rentang rasio aspek yang ditentukan. | ||||
Menyaring data video berdasarkan rentang durasi yang ditentukan. | ||||
Menyaring data video berdasarkan skor kemiripan semantik antara video dan teks terkaitnya. | ||||
Menyaring data video berdasarkan skor Not Safe For Work (NSFW)-nya. | ||||
Memfilter data video berdasarkan rentang resolusi yang ditentukan. | ||||
Memfilter data video yang berisi watermark. | ||||
Menyaring data video yang tidak cocok dengan set tag tertentu. | ||||
Membuat tag deskriptif untuk frame video. | ||||
Membuat teks deskriptif untuk frame video. | ||||
Membuat teks deskriptif untuk seluruh video. | ||||
Operator pra-pemrosesan gambar | Menyaring data gambar yang jatuh di bawah skor kualitas estetika tertentu. | |||
Menyaring data gambar berdasarkan rentang rasio aspek tertentu. | ||||
Menyaring data gambar berdasarkan rasio area wajah terhadap area total gambar. | ||||
Menyaring data gambar berdasarkan skor Not Safe For Work (NSFW). | ||||
Menyaring data gambar berdasarkan rentang resolusi tertentu. | ||||
Menyaring data gambar berdasarkan rentang ukuran file tertentu. | ||||
Menyaring pasangan gambar-teks berdasarkan skor pencocokannya. | ||||
Menyaring pasangan gambar-teks berdasarkan skor kesamaan semantiknya. | ||||
Menyaring data gambar yang mengandung watermark. | ||||
Membuat deskripsi bahasa alami untuk gambar. | ||||
Pelatihan dan inferensi LLM | Menjalankan inferensi offline menggunakan model klasifikasi BERT pra-latih untuk mengklasifikasikan teks dalam tabel input. | |||
Komponen algoritma tradisional
Komponen warisan ini tidak lagi dipelihara secara aktif. Stabilitas dan Service Level Agreements (SLA) tidak dijamin. Gantilah komponen warisan pada lingkungan produksi dengan komponen algoritma yang direkomendasikan untuk memastikan stabilitas.
Tipe Komponen | Komponen | Deskripsi |
Pra-pemrosesan data | Menjalankan pengambilan sampel acak, independen pada data input berdasarkan rasio atau jumlah tertentu. | |
Menghasilkan sampel dari data input menggunakan metode pemilihan berbobot. | ||
Menyaring baris data berdasarkan ekspresi SQL dan mengubah nama kolom output. | ||
Membagi data menjadi kelompok berdasarkan kolom tertentu dan melakukan pengambilan sampel acak dalam setiap kelompok. | ||
Menggabungkan dua tabel berdasarkan kunci gabungan, mirip dengan pernyataan | ||
Menggabungkan kolom dari dua tabel. Kedua tabel harus memiliki jumlah baris yang sama. | ||
Menambahkan baris dari dua tabel. Kedua tabel harus memiliki jumlah dan tipe kolom yang sama. | ||
Mengonversi tipe data kolom tertentu menjadi String, Double, atau Integer. Mengisi nilai yang hilang jika konversi gagal. | ||
Menambahkan kolom ID numerik berurutan sebagai kolom pertama tabel. | ||
Secara acak membagi dataset menjadi dua subset, biasanya untuk membuat set pelatihan dan pengujian. | ||
Mengisi nilai yang hilang di kolom tertentu menggunakan metode yang dipilih, seperti mean, median, modus, atau nilai kustom. | ||
Menskalakan ulang fitur numerik ke rentang umum, seperti [0, 1]. Mendukung format data padat dan jarang. | ||
Menskalakan ulang fitur agar memiliki mean 0 dan deviasi standar 1 (normalisasi z-score). | ||
Mengonversi tabel dari format Key-Value (KV) jarang ke format tabel padat. | ||
Mengonversi tabel padat ke format Key-Value (KV) jarang. | ||
Rekayasa fitur | Menyaring fitur Top N berdasarkan skor kepentingan yang dihasilkan oleh komponen lain. | |
Menjalankan Principal Component Analysis (PCA) untuk mengurangi dimensi dari sebuah set data dengan mentransformasi fitur menjadi satu set komponen utama yang tidak berkorelasi secara linear. | ||
Menerapkan transformasi penskalaan min-maks, log, atau z-score pada fitur numerik. | ||
Mengonversi fitur numerik kontinu menjadi fitur kategorikal diskrit (bin). | ||
Memotong nilai fitur anomali ke rentang yang ditentukan. Mendukung format data baik jarang maupun padat. | ||
Melakukan Singular Value Decomposition (SVD) pada sebuah matriks. | ||
Mendeteksi pencilan dalam data yang berisi fitur kontinu dan kategorikal. | ||
Menghitung skor pentingnya fitur menggunakan model regresi linier atau regresi logistik. | ||
Menganalisis distribusi statistik dari fitur diskrit. | ||
Menghitung skor pentingnya fitur menggunakan model Random Forest yang telah dilatih. | ||
Memilih subset fitur menggunakan metode filter seperti Chi-squared, Indeks Gini, atau Information Gain. | ||
Mengkodekan fitur non-linier menjadi fitur linier menggunakan model Gradient Boosting Decision Tree (GBDT). | ||
Mengonversi fitur kategorikal menjadi representasi vektor biner. Outputnya dalam format Key-Value (KV) jarang. | ||
Analisis statistik | Memberikan ringkasan visual dari distribusi data dan statistik untuk kolom yang dipilih. | |
Menghitung kovarians antara dua variabel acak untuk mengukur bagaimana mereka berubah bersama. | ||
Menghasilkan plot densitas probabilitas menggunakan distribusi empiris atau estimasi densitas kernel. | ||
Menghitung statistik deskriptif untuk semua kolom atau subset kolom dalam tabel. | ||
Digunakan untuk variabel kategorikal. Ini menguji apakah frekuensi teramati aktual dan frekuensi teoretis konsisten di seluruh kategori variabel kategorikal multinomial tunggal. Hipotesis nol adalah tidak ada perbedaan antara frekuensi teramati dan teoretis. | ||
Grafik box plot adalah grafik statistik yang digunakan untuk menampilkan dispersi dataset. Ini terutama digunakan untuk mencerminkan karakteristik distribusi data mentah dan juga dapat digunakan untuk membandingkan karakteristik distribusi beberapa dataset. | ||
Grafik scatter adalah plot distribusi titik data pada sistem koordinat Cartesian dalam analisis regresi. | ||
Algoritma koefisien korelasi menghitung koefisien korelasi antara setiap kolom dalam matriks. Nilainya berkisar dari [-1,1]. Selama perhitungan, jumlah didasarkan pada jumlah elemen yang tidak kosong di kedua kolom. Jumlah tersebut dapat bervariasi antara pasangan kolom yang berbeda. | ||
Berdasarkan prinsip statistik, komponen ini menguji apakah terdapat perbedaan signifikan antara rata-rata dua sampel. | ||
Menguji apakah terdapat perbedaan signifikan antara rata-rata populasi dari suatu variabel dan nilai tertentu yang ditentukan. Sampel yang diuji harus mengikuti distribusi normal. | ||
Menggunakan nilai-nilai yang diamati untuk menentukan apakah suatu populasi mengikuti distribusi normal. Ini adalah jenis uji hipotesis kesesuaian khusus yang penting dalam pengambilan keputusan statistik. | ||
Secara visual menampilkan distribusi pendapatan suatu negara atau wilayah. | ||
Sebuah istilah statistik yang digunakan untuk menghitung persentil data dalam kolom tabel. | ||
Koefisien korelasi linear yang mencerminkan tingkat korelasi linear antara dua variabel. | ||
Histogram, yang juga dikenal sebagai grafik distribusi massa, adalah grafik laporan statistik yang menggunakan serangkaian batang vertikal atau segmen garis dengan ketinggian bervariasi untuk merepresentasikan distribusi data. | ||
Pembelajaran mesin | Inputnya adalah model yang telah dilatih dan data prediksi, sedangkan outputnya adalah hasil prediksi. | |
Algoritma ini memperluas dan meningkatkan algoritma boosting. Algoritma ini mudah digunakan dan tangguh, serta banyak digunakan di berbagai sistem produksi pembelajaran mesin dan kompetisi. Saat ini, algoritma ini mendukung klasifikasi dan regresi. | ||
Algoritma ini memperluas dan meningkatkan algoritma boosting. Algoritma ini mudah digunakan dan tangguh, serta banyak digunakan di berbagai sistem produksi pembelajaran mesin dan kompetisi. Saat ini, algoritma ini mendukung klasifikasi dan regresi. | ||
Sebuah metode pembelajaran mesin berdasarkan teori pembelajaran statistik. Metode ini meningkatkan kemampuan generalisasi mesin pembelajaran dengan meminimalkan risiko struktural, sehingga meminimalkan risiko empiris dan rentang kepercayaan. | ||
Algoritma klasifikasi biner yang mendukung format data jarang dan padat. | ||
Komponen ini bekerja dengan menetapkan ambang batas. Jika nilai fitur lebih besar dari ambang batas, maka itu adalah contoh positif. Sebaliknya, itu adalah contoh negatif. | ||
Parameter Server (PS) dirancang untuk menangani tugas-tugas pelatihan skala besar secara offline dan online. Scalable Multiple Additive Regression Tree (SMART) adalah algoritma iteratif yang didasarkan pada Gradient Boosting Decision Tree (GBDT) dan diimplementasikan pada PS. | ||
Algoritma klasifikasi biner klasik yang banyak digunakan dalam skenario iklan dan pencarian. | ||
Parameter Server (PS) dirancang untuk menangani tugas pelatihan offline dan online dalam skala besar. Scalable Multiple Additive Regression Tree (SMART) adalah algoritma iteratif yang didasarkan pada Gradient Boosting Decision Tree (GBDT) dan diimplementasikan pada PS. | ||
Untuk setiap baris data dalam tabel prediksi, komponen ini memilih K catatan dengan jarak terdekat dari tabel pelatihan. Kelas dengan frekuensi tertinggi di antara K catatan tersebut ditetapkan sebagai kelas untuk baris itu. | ||
Sebuah algoritma klasifikasi biner. Model regresi logistik yang disediakan oleh PAI mendukung klasifikasi multikelas serta format data yang jarang dan padat. | ||
Sebuah pengklasifikasi yang mencakup beberapa pohon keputusan. Hasil klasifikasinya ditentukan oleh modus dari kelas-kelas yang dihasilkan oleh pohon-pohon individu. | ||
Sebuah algoritma klasifikasi probabilistik berdasarkan teorema Bayes dengan asumsi independensi. | ||
Pertama, komponen ini secara acak memilih K objek sebagai pusat kluster awal untuk setiap kluster. Kemudian, ia menghitung jarak antara objek yang tersisa dan setiap pusat kluster, menetapkan mereka ke kluster terdekat, serta menghitung ulang pusat kluster untuk setiap kluster. | ||
Gunakan komponen DBSCAN untuk membangun model pengelompokan. | ||
Gunakan komponen Pelatihan GMM untuk mengimplementasikan klasifikasi model. | ||
Gunakan komponen Prediksi DBSCAN untuk memprediksi kluster tempat data baru termasuk berdasarkan model pelatihan DBSCAN. | ||
Gunakan komponen Prediksi GMM untuk melakukan prediksi klustering berdasarkan model campuran Gaussian yang telah dilatih. | ||
Algoritma pohon keputusan iteratif yang cocok untuk skenario regresi linier dan non-linier. | ||
Model yang menganalisis hubungan linier antara variabel dependen dan beberapa variabel independen. | ||
Komponen ini dirancang untuk menangani tugas pelatihan offline dan online berskala besar. SMART adalah algoritma iteratif yang berbasis pada GBDT dan diimplementasikan pada PS. | ||
Model yang menganalisis hubungan linier antara variabel dependen dan beberapa variabel independen. Parameter Server (PS) dirancang untuk menangani tugas pelatihan offline dan online berskala besar. | ||
Menghitung metrik seperti AUC, KS, dan F1-score, serta mengeluarkan kurva KS, kurva PR, kurva ROC, bagan LIFT, dan bagan Gain. | ||
Evaluasi kualitas model algoritma regresi berdasarkan hasil prediksi dan hasil mentah, serta mengeluarkan metrik evaluasi dan histogram residu. | ||
Evaluasi kualitas model klustering berdasarkan data mentah dan hasil klustering, serta mengeluarkan metrik evaluasi. | ||
Cocok untuk pembelajaran terawasi dan sesuai dengan matriks pencocokan dalam pembelajaran tanpa pengawasan. | ||
Evaluasi kualitas model algoritma klasifikasi multikelas berdasarkan hasil prediksi dan hasil mentah model klasifikasi, serta mengeluarkan metrik evaluasi seperti Akurasi, Kappa, dan F1-Score. | ||
Pembelajaran mendalam | PAI mendukung kerangka kerja pembelajaran mendalam. Gunakan kerangka kerja ini dan sumber daya perangkat keras untuk menjalankan algoritma pembelajaran mendalam. | |
Deret waktu | Algoritma Arima untuk penyesuaian musiman yang dienkapsulasi berdasarkan X-13ARIMA-SEATS open source. | |
Mencakup program pemilihan model ARIMA otomatis, yang terutama didasarkan pada program oleh Gomez dan Maravall (1998) yang diimplementasikan dalam TRMO (1996) dan revisi selanjutnya. | ||
Menjalankan prediksi deret waktu Prophet pada setiap baris data MTable dan memberikan hasil prediksi untuk periode waktu berikutnya. | ||
Menggabungkan tabel menjadi MTable berdasarkan kolom pengelompokan. | ||
Memperluas MTable menjadi tabel. | ||
Metode rekomendasi | Algoritma Factorization Machine (FM) mempertimbangkan interaksi antar fitur. Ini adalah model non-linier yang cocok untuk skenario rekomendasi dalam e-commerce, periklanan, dan siaran langsung. | |
Algoritma Alternating Least Squares (ALS) melakukan dekomposisi model pada matriks jarang dan mengevaluasi nilai item yang hilang untuk mendapatkan model pelatihan dasar. | ||
Algoritma recall item. Gunakan komponen Pelatihan Swing untuk mengukur kesamaan item berdasarkan prinsip User-Item-User. | ||
Komponen prediksi pemrosesan batch untuk Swing. Gunakan komponen ini untuk melakukan prediksi offline berdasarkan model pelatihan Swing dan data prediksi. | ||
etrec adalah algoritma filtering kolaboratif berbasis item. Input terdiri dari dua kolom, dan outputnya adalah N item yang paling mirip. | ||
Menghitung tingkat hit recall. Tingkat hit digunakan untuk mengevaluasi kualitas hasil. Tingkat hit yang lebih tinggi menunjukkan bahwa vektor yang dihasilkan oleh pelatihan mencapai hasil recall yang lebih akurat. | ||
Deteksi anomali | Menentukan apakah sampel merupakan anomali berdasarkan nilai Local Outlier Factor (LOF)-nya. | |
Menggunakan algoritma sub-sampling untuk mengurangi kompleksitas komputasi. Dapat mengidentifikasi anomali dalam data dan memiliki efek aplikasi yang signifikan dalam deteksi anomali. | ||
Berbeda dengan SVM tradisional, ini adalah algoritma pembelajaran tanpa pengawasan. Gunakan Deteksi Anomali One-Class SVM untuk memprediksi anomali dengan mempelajari batas. | ||
Pemrosesan Bahasa Alami | Ekstrak, haluskan, atau ringkas informasi kunci dari urutan teks yang panjang dan berulang. Ringkasan judul berita adalah kasus khusus dari ringkasan teks. Gunakan komponen Prediksi Ringkasan Teks untuk memanggil model pra-latih tertentu untuk memprediksi teks berita dan menghasilkan judul berita. | |
Menjalankan prediksi offline dengan model pelatihan pemahaman membaca mesin yang dihasilkan. | ||
Ekstrak, haluskan, atau ringkas informasi kunci dari urutan teks yang panjang dan berulang. Ringkasan judul berita adalah kasus khusus dari ringkasan teks. Gunakan komponen Pelatihan Ringkasan Teks untuk melatih model yang menghasilkan judul berita untuk merangkum ide sentral dan informasi kunci artikel berita. | ||
Melatih model pemahaman membaca mesin yang dapat dengan cepat memahami dan menjawab pertanyaan berdasarkan dokumen yang diberikan. | ||
Berdasarkan sistem analisis leksikal AliWS (Alibaba Word Segmenter), komponen ini melakukan tokenisasi pada konten kolom tertentu. Token yang dihasilkan dipisahkan oleh spasi. | ||
Mengonversi tabel trituple (baris,kol,nilai) menjadi tabel key-value (KV) (baris,[kol_id:nilai]). | ||
Operasi dasar dalam pembelajaran mesin, utamanya digunakan dalam pengambilan informasi, pemrosesan bahasa alami, dan bioinformatika. | ||
Menghitung kesamaan string dan menyaring N data yang paling mirip. | ||
Sebuah metode pra-pemrosesan dalam analisis teks yang digunakan untuk menyaring kebisingan (seperti "the", "is", atau "a") dari hasil tokenisasi. | ||
Sebuah langkah dalam pelatihan model bahasa. Langkah ini menghasilkan n-gram berdasarkan kata-kata dan menghitung kemunculan setiap n-gram di seluruh korpus. | ||
Sebuah teks pendek yang sederhana dan koheren yang secara komprehensif dan akurat mencerminkan gagasan utama dari sebuah dokumen. Ringkasan otomatis menggunakan komputer untuk secara otomatis mengekstrak isi ringkasan dari dokumen aslinya. | ||
Sebuah teknik penting dalam pemrosesan bahasa alami. Teknik ini mengekstrak kata-kata dari teks yang sangat relevan dengan makna dokumen. | ||
Memisahkan sepotong teks menjadi kalimat-kalimat berdasarkan tanda baca. Komponen ini terutama digunakan untuk pra-pemrosesan sebelum ringkasan teks, mengonversi sebuah paragraf menjadi format satu kalimat per baris. | ||
Berdasarkan hasil vektor semantik dari algoritma (seperti penyematan kata yang dihasilkan oleh Word2Vec), komponen ini menghitung kata-kata tambahan (atau kalimat) untuk kata-kata tertentu (atau kalimat) dengan menemukan himpunan vektor dengan jarak terdekat. Salah satu kasus penggunaannya adalah mengembalikan daftar kata-kata yang paling mirip berdasarkan kata masukan dan penyematan kata yang dihasilkan oleh Word2Vec. | ||
Gunakan komponen algoritma Doc2Vec untuk memetakan dokumen ke vektor. Inputnya adalah kosa kata, dan outputnya adalah tabel vektor dokumen, tabel vektor kata, atau kosa kata. | ||
Conditional random field (CRF) adalah model distribusi probabilistik dari satu set variabel acak keluaran yang diberikan satu set variabel acak masukan. Ciri utamanya adalah asumsi bahwa variabel acak keluaran membentuk Markov random field. | ||
Membangun pada kesamaan string untuk menghitung kesamaan antara pasangan dokumen atau kalimat berdasarkan kata-kata. | ||
Algoritma ini menghitung kemunculan bersama semua kata dalam beberapa dokumen dan menghitung informasi mutual pointwise (PMI) antara setiap pasangan. | ||
Komponen algoritma berdasarkan model prediksi online linearCRF, terutama digunakan untuk masalah penandaan urutan. | ||
Berdasarkan sistem analisis leksikal AliWS (Alibaba Word Segmenter), komponen ini menghasilkan model tokenisasi berdasarkan parameter dan kamus kustom. | ||
Mengambil string sebagai input (dimasukkan secara manual atau dibaca dari file) dan menggunakan program untuk menghitung jumlah total kata dan frekuensi setiap kata. | ||
Sebuah teknik pembobotan umum untuk pengambilan informasi dan penambangan teks. Teknik ini sering digunakan di mesin pencari sebagai ukuran atau peringkat relevansi antara sebuah dokumen dan kueri pengguna. | ||
Di PAI, Anda dapat mengatur parameter topik untuk komponen PLDA guna mengekstrak berbagai topik dari setiap dokumen. | ||
Komponen algoritma Word2Vec menggunakan jaringan saraf untuk memetakan kata-kata ke vektor dalam ruang K-dimensi melalui pelatihan. Komponen ini mendukung operasi pada vektor yang mewakili kata-kata, yang sesuai dengan semantiknya. Inputnya adalah kolom kata atau kosa kata, dan outputnya adalah tabel vektor kata dan kosa kata. | ||
Analisis Jaringan | Mengeluarkan kedalaman dan ID pohon dari setiap node. | |
Menemukan struktur subgraf yang terhubung erat dalam sebuah graf yang memenuhi coreness tertentu. Nomor core maksimum dari sebuah node disebut nomor core dari graf. | ||
Menggunakan algoritma Dijkstra. Diberikan titik awal, ia menghasilkan jalur terpendek dari titik tersebut ke semua node lainnya. | ||
Berasal dari peringkat pencarian web. Algoritma ini menggunakan struktur tautan halaman web untuk menghitung peringkat setiap halaman. | ||
Algoritma Penyebaran Label (LPA) adalah metode pembelajaran semi-terawasi berbasis graf. Ide dasarnya adalah bahwa label (komunitas) dari sebuah node bergantung pada informasi label dari node-node yang berdekatan dengannya. Tingkat pengaruh ditentukan oleh kesamaan node, dan stabilitas dicapai melalui penyebaran iteratif. | ||
Sebuah algoritma klasifikasi semi-terawasi yang menggunakan informasi label dari node berlabel untuk memprediksi label dari node yang tidak berlabel. | ||
Sebuah metrik untuk mengevaluasi struktur jaringan komunitas. Metrik ini menilai kekompakan komunitas dalam struktur jaringan. Nilai di atas 0,3 biasanya menunjukkan struktur komunitas yang jelas. | ||
Dalam graf tak berarah G, jika ada jalur yang menghubungkan simpul A ke simpul B, A dan B terhubung. Jika graf G berisi beberapa subgraf di mana semua simpul dalam setiap subgraf terhubung, tetapi tidak ada simpul antara subgraf yang berbeda yang terhubung, subgraf-subgraf ini disebut subgraf terhubung maksimal. | ||
Dalam graf tak berarah G, komponen ini menghitung kepadatan di sekitar setiap simpul. Kepadatan jaringan bintang adalah 0, dan kepadatan jaringan sepenuhnya terhubung adalah 1. | ||
Dalam graf tak berarah G, algoritma ini menghitung kepadatan di sekitar setiap tepi. | ||
Dalam graf tak berarah G, komponen ini mengeluarkan semua segitiga. | ||
Keuangan | Gunakan komponen ini untuk melakukan normalisasi, diskritisasi, pengindeksan, atau transformasi Weight of Evidence (WOE) pada data. | |
Alat pemodelan umum dalam penilaian risiko kredit. Diskritisasi variabel asli dengan pengelompokan input dan kemudian menggunakan model linier seperti regresi logistik atau regresi linier untuk pelatihan model. Ini mencakup fitur seperti seleksi fitur dan transformasi skor. | ||
Memberi skor data mentah berdasarkan hasil model yang dihasilkan oleh komponen Pelatihan Scorecard. | ||
Melakukan diskritisasi fitur dengan membagi data kontinu menjadi beberapa interval diskrit. Komponen Pengelompokan mendukung pengelompokan frekuensi sama, pengelompokan lebar sama, dan pengelompokan otomatis. | ||
Indikator penting untuk mengukur pergeseran yang disebabkan oleh perubahan sampel. Umum digunakan untuk mengukur stabilitas sampel. | ||
Algoritma visual | Jika skenario bisnis Anda melibatkan klasifikasi gambar, gunakan komponen Pelatihan Klasifikasi Gambar (torch) untuk membangun model klasifikasi gambar untuk inferensi model. | |
Gunakan komponen algoritma Pelatihan Klasifikasi Video untuk melatih model dan mendapatkan model klasifikasi video untuk inferensi. | ||
Membangun model deteksi objek untuk mendeteksi dan membingkai entitas berisiko tinggi dalam gambar. | ||
Langsung melatih gambar mentah tanpa label untuk mendapatkan model ekstraksi fitur gambar. | ||
Membangun model pembelajaran metrik untuk inferensi model. | ||
Jika skenario bisnis Anda melibatkan deteksi titik kunci manusia, gunakan komponen Pelatihan Titik Kunci Gambar untuk membangun model titik kunci untuk inferensi model. | ||
Menyediakan algoritma kuantisasi model utama. Gunakan kuantisasi model untuk menekan dan mempercepat model untuk inferensi berkinerja tinggi. | ||
Menyediakan algoritma pemangkasan model utama AGP (taylorfo). Gunakan pemangkasan model untuk menekan dan mempercepat model untuk inferensi berkinerja tinggi. | ||
Alat | Struktur data yang disimpan di MaxCompute. Model yang dihasilkan oleh algoritma pembelajaran mesin tradisional berbasis pada kerangka PAICommand disimpan dalam format model offline di proyek MaxCompute yang sesuai. Gunakan komponen terkait Model Offline untuk mendapatkan model offline untuk prediksi offline. | |
Gunakan komponen Ekspor Model Serbaguna untuk mengekspor model yang dilatih di MaxCompute ke jalur OSS tertentu. | ||
Skrip Kustom | Memanggil algoritma Alink untuk klasifikasi, regresi, dan rekomendasi. Skrip PyAlink juga terintegrasi mulus dengan komponen algoritma Desainer lainnya untuk membangun dan memvalidasi jejak bisnis. | |
Menambahkan fitur eksekusi loop multi-tanggal ke komponen Skrip SQL standar. Digunakan untuk eksekusi paralel tugas SQL harian dalam periode waktu tertentu. | ||
Komponen Beta | Sebuah algoritma estimasi kompresi. | |
Mendukung format data jarang dan padat. Gunakan komponen ini untuk memprediksi variabel numerik, seperti jumlah pinjaman dan suhu. | ||
Memrediksi variabel numerik, termasuk harga rumah, volume penjualan, dan kelembapan. | ||
Metode regularisasi yang paling umum digunakan untuk analisis regresi masalah tidak stabil. |