Buat model klasifikasi berita menggunakan pipeline preset di Designer - Platform For AI - Alibaba Cloud - Platform For AI

Topik ini menjelaskan cara membangun model klasifikasi teks secara cepat menggunakan komponen teks di PAI.

Informasi latar belakang

Klasifikasi berita merupakan skenario umum dalam penambangan teks. Banyak media atau produsen konten memberi label artikel berita secara manual untuk diklasifikasikan, yang menghabiskan sumber daya manusia yang signifikan. PAI menyediakan algoritma penambangan teks cerdas untuk mengotomatiskan klasifikasi berita, mencakup proses seperti segmentasi kata, konversi bentuk kata, penyaringan stop word, pemodelan topik, dan pengelompokan. Pipeline ini pertama-tama menggunakan algoritma PLDA untuk menemukan topik dalam artikel, lalu melakukan pengelompokan berdasarkan bobot topik guna mengklasifikasikan berita secara otomatis.

Catatan

Data dalam pipeline ini bersifat fiktif dan hanya digunakan untuk tujuan pembelajaran.

Prasyarat

Anda telah mengaktifkan PAI (Machine Learning Designer) dan membuat ruang kerja. Untuk informasi selengkapnya, lihat Aktifkan PAI dan buat ruang kerja default.
Anda telah mengaitkan resource MaxCompute dengan ruang kerja. Untuk informasi selengkapnya, lihat Kelola ruang kerja.

Klasifikasikan berita menggunakan algoritma analisis teks

Buka halaman Machine Learning Designer.
1. Masuk ke PAI console.
2. Di panel navigasi sebelah kiri, klik Workspaces. Pada halaman Workspaces, klik nama ruang kerja yang ingin Anda kelola.
3. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).

Bangun pipeline.

Pada bagian Text Analysis - News Classification di daftar templat, klik Create.
Di daftar pipeline, klik ganda pipeline Text Analysis - News Classification untuk membukanya.

Sistem secara otomatis membangun pipeline berdasarkan template preset, seperti yang ditunjukkan pada gambar berikut.

News classification experiment

Area	Deskripsi
①	Tambahkan nomor seri. Sumber data untuk pipeline ini menggunakan artikel berita individual sebagai unit. Kolom ID harus ditambahkan untuk mengidentifikasi setiap artikel secara unik guna perhitungan algoritma.
②	Lakukan segmentasi kata dan statistik frekuensi kata. Pertama, gunakan komponen Word Segmentation untuk melakukan segmentasi pada bidang content (konten berita). Kemudian, hitung frekuensi kata untuk teks setelah menyaring stop word.
③	Saring stop word. Ini biasanya melibatkan penyaringan tanda baca dan kata fungsi yang memiliki sedikit dampak terhadap makna artikel.
④	Temukan topik teks: Input untuk komponen PLDA Text Mining harus dalam format terner. Oleh karena itu, gunakan komponen Triple to KV untuk mengonversi teks ke format terner. Dalam format ini, teks dikonversi menjadi angka. Di mana: append_id: Pengidentifikasi unik untuk setiap artikel berita. key_value: Angka sebelum titik dua adalah ID numerik untuk kata tersebut. Angka setelah titik dua adalah frekuensi kata tersebut. Gunakan komponen PLDA untuk melatih model. Algoritma PLDA (model topik) dapat mengidentifikasi kata-kata topik untuk setiap artikel. Pipeline ini dikonfigurasi dengan 50 topik. Port output kelima dari komponen PLDA menghasilkan probabilitas setiap topik untuk setiap artikel.
⑤	Analisis dan evaluasi hasilnya. Langkah-langkah sebelumnya telah mengonversi teks menjadi vektor berdasarkan topik. Anda sekarang dapat menggunakan jarak vektor untuk melakukan pengelompokan dan mengklasifikasikan teks.

Jalankan pipeline dan lihat hasil model.
1. Klik tombol Run di atas kanvas.
2. Setelah pipeline selesai dijalankan, klik kanan komponen KMeans pada kanvas dan pilih View Data > Output Clustering Table untuk melihat hasil klasifikasi.
  Di mana:
  - cluster_index: Nama setiap kelas.
  - append_id: Pengidentifikasi unik untuk setiap artikel berita.
3. Klik kanan komponen Sql Mapping pada kanvas dan pilih View Data > Output untuk melihat artikel berita dengan append_id 115, 292, 248, dan 166.
  Hasil klasifikasi berita dari pipeline ini belum ideal. Misalnya, dua artikel olahraga, satu artikel keuangan, dan satu artikel teknologi ditempatkan dalam kelas yang sama. Alasan utamanya adalah sebagai berikut:
  - Pipeline ini menggunakan jumlah data yang kecil.
  - Tutorial ini hanya memperkenalkan cara menggunakan algoritma analisis teks untuk skenario bisnis. Pipeline ini tidak melakukan rekayasa fitur atau penyetelan detail pada set data.
  Template pipeline telah mengonfigurasi Filter Condition untuk komponen Sql Mapping. Hal ini memungkinkan Anda langsung melihat artikel berita dengan append_id 115, 292, 248, dan 166. Untuk melihat artikel berita lainnya, konfigurasikan Filter Condition pada komponen Sql Mapping dengan ID berita yang sesuai, seperti pada contoh berikut.
```
append_id=292 or append_id=115  or append_id=248 or append_id=166 ;
```