Basic Machine Learning Algorithms

Pertanyaan dasar yang perlu dijawab oleh filosofi adalah dari mana kita berasal, siapa saya, dan kemana kita pergi? Proses pencarian jawaban mungkin didasarkan pada rutinitas pembelajaran mesin: pengorganisasian data -> menambang pengetahuan -> memprediksi masa depan . Pengorganisasian data adalah fitur desain, menghasilkan sampel yang memenuhi persyaratan format tertentu, menambang pengetahuan adalah pemodelan, dan memprediksi masa depan adalah penerapan model.

Desain fitur tergantung pada pemahaman skenario bisnis, dan dapat dibagi menjadi fitur berkelanjutan, fitur diskrit, dan gabungan fitur tingkat tinggi. Artikel ini berfokus pada pengenalan algoritma pembelajaran mesin, yang dapat dibagi menjadi dua kategori: pembelajaran yang diawasi dan pembelajaran yang tidak diawasi.

Ada banyak algoritme pembelajaran tanpa pengawasan. Dalam beberapa tahun terakhir, industri lebih memperhatikan model topik. LSA->PLSA->LDA adalah algoritme tipikal dalam tiga tahap pengembangan model topik. Mereka terutama berbeda dalam asumsi pemodelan. LSA mengasumsikan bahwa dokumen tersebut hanya memiliki satu topik, PLSA mengasumsikan bahwa distribusi probabilitas dari setiap topik adalah konstan (theta adalah tetap), dan LDA mengasumsikan bahwa probabilitas topik dari setiap dokumen dan kata adalah variabel.

Inti dari algoritme LDA dapat dipahami dengan bantuan lemparan dadu Tuhan.Untuk detailnya, silakan merujuk ke artikel "Gosip Data LDA" yang ditulis oleh Rickjin.

Pembelajaran yang diawasi dapat dibagi menjadi klasifikasi dan regresi. Perceptron adalah pengklasifikasi linier yang paling sederhana. Saat ini aplikasi praktisnya relatif sedikit, tetapi ini adalah unit dasar jaringan saraf dan pembelajaran mendalam.

Ketika fungsi linier cocok dengan data dan mengklasifikasikan berdasarkan ambang batas, ia mudah terganggu oleh sampel derau dan memengaruhi akurasi klasifikasi. Regresi Logistik (Regresi Logistik) menggunakan fungsi sigmoid untuk membatasi keluaran model antara 0 dan 1, yang secara efektif dapat melemahkan dampak negatif dari data kebisingan, dan banyak digunakan dalam prediksi tingkat klik-tayang iklan Internet.

Parameter model regresi logistik dapat diselesaikan dengan kemungkinan maksimum, pertama-tama tentukan fungsi tujuan L(theta), kemudian pemrosesan log mengubah logika perkalian dari fungsi tujuan menjadi logika penjumlahan (memaksimalkan kemungkinan kemungkinan -> meminimalkan fungsi kerugian), dan terakhir gunakan solusi penurunan Gradien.

Dibandingkan dengan klasifikasi linier, pengklasifikasi nonlinier seperti pohon keputusan memiliki kemampuan klasifikasi yang lebih kuat.ID3 dan C4.5 adalah algoritme pohon keputusan tipikal, dan proses pemodelan pada dasarnya serupa.Keduanya terutama dalam fungsi penguatan (fungsi tujuan) Definisinya adalah berbeda.

Regresi linier dan klasifikasi linier serupa dalam ekspresi, Perbedaan mendasar adalah bahwa fungsi tujuan klasifikasi adalah nilai diskrit, sedangkan fungsi tujuan regresi adalah nilai kontinu. Perbedaan fungsi tujuan mengarah pada definisi fungsi tujuan berdasarkan kuadrat terkecil untuk regresi Tentu saja, dengan asumsi bahwa kesalahan observasi memenuhi distribusi Gaussian, kuadrat terkecil dan kemungkinan maksimum bisa sama.

Saat penurunan gradien digunakan untuk menyelesaikan parameter model, mode Batch atau mode Stokastik dapat digunakan. Secara umum, mode Batch lebih akurat dan mode Stokastik tidak terlalu rumit.

Seperti disebutkan di atas, meskipun perceptron adalah pengklasifikasi linier paling sederhana, ini dapat dianggap sebagai unit dasar pembelajaran mendalam, dan parameter model dapat diselesaikan dengan metode seperti Auto Encoder.

Salah satu keunggulan deep learning dapat dipahami sebagai abstraksi fitur, belajar dari fitur tingkat rendah untuk mendapatkan fitur tingkat tinggi, dan mendeskripsikan struktur informasi yang lebih kompleks. Misalnya, belajar mengabstraksi fitur kontur tepi yang menggambarkan struktur tekstur dari pembelajaran fitur tingkat piksel, dan belajar lebih lanjut untuk mendapatkan fitur tingkat tinggi yang mencirikan objek lokal.

Seperti kata pepatah, tiga tukang sepatu lebih baik daripada Zhuge Liang. Baik itu klasifikasi linier atau pembelajaran mendalam, algoritme model tunggal berjuang sendirian. Apakah ada cara untuk mengintegrasikan kekuatan ratusan sekolah untuk lebih meningkatkan akurasi model mengolah data? Tentu saja, Model Ensembel adalah untuk mengatasi masalah ini. Bagging adalah salah satu metode Untuk tugas pemrosesan data yang diberikan, model/parameter/fitur yang berbeda digunakan untuk melatih beberapa set parameter model, dan akhirnya hasil akhir adalah output dengan voting atau rata-rata tertimbang.

Boosting adalah metode lain dari Model Ensemble. Idenya adalah untuk meningkatkan akurasi pemrosesan sampel data keseluruhan dengan menyesuaikan bobot kehilangan sampel yang salah setiap iterasi model. Algoritma tipikal termasuk AdaBoost, GBDT, dll.

Untuk skenario tugas data yang berbeda, Anda dapat memilih metode Model Ensemble yang berbeda.Untuk pembelajaran mendalam, Anda dapat menggunakan metode DropOut untuk node lapisan tersembunyi untuk mencapai efek serupa.

Setelah memperkenalkan begitu banyak algoritme pembelajaran mesin dasar, izinkan saya berbicara tentang kriteria dasar untuk mengevaluasi pro dan kontra dari model tersebut. Underfitting dan overfitting adalah dua situasi yang sering terjadi. Cara sederhana untuk menilai adalah dengan membandingkan hubungan antara kesalahan pelatihan dan kesalahan pengujian. Saat underfitting, Anda dapat merancang lebih banyak fitur untuk meningkatkan akurasi pelatihan model. Saat overfitting Kapan, kuantitas fitur dapat dioptimalkan untuk mengurangi kompleksitas model dan meningkatkan akurasi pengujian model.

Kuantitas fitur adalah cerminan intuitif dari kompleksitas model. Ini adalah metode untuk mengatur kuantitas fitur input sebelum pelatihan model. Metode umum lainnya adalah memperkenalkan istilah kendala reguler dari parameter fitur ke dalam fungsi/kehilangan tujuan selama proses pelatihan model Berfungsi untuk memfilter fitur berkualitas tinggi berdasarkan proses pelatihan.

Penyesuaian model adalah tugas yang sangat teliti, dan pada akhirnya penting untuk dapat memberikan hasil prediksi yang andal untuk skenario aktual dan memecahkan masalah praktis. Berharap untuk menerapkan apa yang telah saya pelajari!

Related Articles

Explore More Special Offers

  1. Short Message Service(SMS) & Mail Service

    50,000 email package starts as low as USD 1.99, 120 short messages start at only USD 1.00

phone Contact Us