全部产品
Search
文档中心

Platform For AI:Klasifikasikan berita berdasarkan analisis teks

更新时间:Oct 30, 2025

Topik ini menjelaskan cara menggunakan komponen analisis teks yang disediakan oleh Machine Learning Platform for AI (PAI) untuk membangun model klasifikasi berita.

Informasi latar belakang

Klasifikasi berita merupakan skenario umum dalam penambangan teks. Banyak media atau produsen konten mengklasifikasikan berita secara manual dengan memberi label, yang memerlukan banyak tenaga kerja. Anda dapat menggunakan algoritma penambangan teks cerdas dari PAI untuk mengotomatisasi tugas klasifikasi berita. Tugas-tugas tersebut mencakup segmentasi kata, konversi part-of-speech, penyaringan stop word, pemodelan topik, dan pengelompokan. Alur kerja yang dijelaskan dalam topik ini menggunakan algoritma Partially Labeled Dirichlet Allocation (PLDA) untuk melakukan pemodelan topik dan mengelompokkan topik berdasarkan bobotnya guna mengklasifikasikan berita.

Catatan

Set data yang digunakan dalam topik ini hanya untuk keperluan eksperimen.

Prasyarat

Klasifikasikan berita berdasarkan analisis teks

  1. Buka halaman Machine Learning Designer.

    1. Masuk ke Konsol PAI.

    2. Di panel navigasi sebelah kiri, klik Workspaces. Di halaman Ruang Kerja, klik nama ruang kerja yang ingin Anda kelola.

    3. Di panel navigasi sebelah kiri, pilih Model Training > Visualized Modeling (Designer).

  2. Buat alur kerja.

    1. Di halaman Pemodelan Visual (Designer), klik tab Preset Templates.

    2. Di bagian Text Analysis-News Classification pada tab Template Preset, klik Create.

    3. Di kotak dialog Create Pipeline, konfigurasikan parameter. Anda dapat menggunakan nilai default mereka.

      Nilai yang ditentukan untuk parameter Pipeline Data Path adalah jalur bucket Layanan Penyimpanan Objek (OSS) untuk data sementara dan model yang dihasilkan selama waktu proses alur kerja.

    4. Klik OK.

      Dibutuhkan sekitar 10 detik untuk membuat alur kerja.

    5. Dalam daftar alur kerja, klik dua kali alur kerja Text Analysis-News Classification untuk membuka alur kerja tersebut.

    6. Lihat komponen alur kerja pada kanvas seperti yang ditunjukkan pada gambar berikut. Sistem secara otomatis membuat alur kerja berdasarkan template preset.

      新闻分类实验

      Komponen

      Deskripsi

      Komponen Append Id menambahkan kolom ID ke data yang dibaca dari set data. Setiap catatan data dalam set data adalah satu berita. Anda harus menambahkan kolom ID untuk secara unik mengidentifikasi setiap catatan data. Ini memudahkan perhitungan untuk algoritma selanjutnya.

      Komponen yang ditampilkan di bagian ini membagi isi berita menjadi kata-kata dan menghitung jumlah kemunculan setiap kata. Komponen Split Word membagi isi berita, yaitu nilai dari bidang content, menjadi kata-kata. Komponen Doc Word Stat menghitung jumlah kemunculan setiap kata dalam teks setelah kata-kata stopword disaring.

      Komponen Filter Noise menyaring kata-kata stop dari isi berita. Kata-kata stop termasuk tanda baca dan partikel tata bahasa yang tidak berkontribusi pada makna berita.

      Komponen yang ditampilkan di bagian ini melakukan pemodelan topik.

      1. Komponen Triple to KV mengonversi data frekuensi kata ke format yang didukung oleh komponen PLDA. Format ini mengubah kata-kata teks menjadi angka.

        Parameter:

        • append_id: ID unik dari berita.

        • key_value: pasangan kunci-nilai yang menunjukkan frekuensi kata. Angka sebelum titik dua (:) adalah ID numerik sebuah kata. Angka setelah titik dua (:) adalah jumlah kemunculan kata tersebut.

      2. Komponen PLDA melatih model topik.

        Algoritma PLDA adalah algoritma pemodelan topik. Algoritma ini dapat menemukan kata-kata yang menunjukkan topik dari setiap berita. Lima puluh topik dikonfigurasi dalam alur kerja ini. Port output kelima dari komponen PLDA menghasilkan data yang menunjukkan probabilitas bahwa setiap berita termasuk dalam salah satu dari 50 topik.

      Komponen yang ditampilkan di bagian ini menganalisis dan mengevaluasi hasil klasifikasi. Setelah langkah-langkah sebelumnya dilakukan, topik berita diubah menjadi vektor. Anda dapat melakukan pengelompokan berdasarkan jarak antara vektor untuk mengklasifikasikan berita.

  3. Jalankan alur kerja dan lihat hasilnya.

    1. Di sudut kiri atas kanvas, klik tombol Run.

    2. Setelah menjalankan alur kerja, klik kanan KMeans di kanvas dan pilih View Data > Output Clustering Table untuk melihat hasil klasifikasi.

      分类结果

      • cluster_index: nama kategori.

      • append_id: ID unik dari berita.

    3. Klik kanan Sql Mapping di kanvas dan pilih View Data > Output Port untuk melihat berita yang diidentifikasi oleh append_id 115, 292, 248, dan 166.

      Hasil klasifikasi dari alur kerja ini belum memuaskan. Sebagai contoh, dua berita olahraga, satu berita keuangan, dan satu berita ilmu pengetahuan dan teknologi dikelompokkan ke dalam kategori yang sama. Anda dapat menggunakan metode berikut untuk meningkatkan hasil:

      • Gunakan set data yang lebih besar untuk alur kerja.

      • Lakukan rekayasa fitur atau penyetelan parameter pada set data.

      Dalam alur kerja, parameter Filter Criteria dari komponen Sql Mapping telah diatur sebelumnya untuk menampilkan berita yang diidentifikasi oleh append_id 115, 292, 248, dan 166. Untuk melihat berita lainnya, Anda dapat mengonfigurasi parameter Filter Criteria berdasarkan format contoh berikut:

      append_id=292 or append_id=115  or append_id=248 or append_id=166 ;