How to use algorithms to empower material governance

Deskripsi Proyek

Materi merupakan elemen yang sangat penting dalam promosi besar, materi meliputi informasi produk, manfaat inti, nilai jual, dll. nama produk dan fitur produk. Dan cara penting penawaran terkait.

Di bawah tren umum ritel baru, di satu sisi, "undang-undang e-niaga" yang diberlakukan oleh negara untuk industri e-niaga menjadi semakin sempurna, dan pedagang yang membuat publisitas palsu dan berlebihan mudah disentuh. undang-undang nasional, dan ada risiko pelanggaran yang lebih besar; di sisi lain, dalam konsumsi Di lingkungan makro era peningkatan, pelanggan memiliki standar kualitas konsumsi yang lebih tinggi dan lebih tinggi, dan bahan yang lebih rendah dapat dengan mudah membuat konsumen berbelanja dengan buruk pengalaman, yang pada gilirannya mempengaruhi transaksi akhir. Berdasarkan hal ini, kami segera meluncurkan proyek penambangan material berkualitas rendah, pembelajaran mesin memberdayakan manajemen material, menghindari risiko platform, dan berharap dapat memberikan pengalaman berbelanja yang lebih baik kepada konsumen.

Nilai keseluruhan proyek terutama tercermin dalam aspek-aspek berikut:

Sisi platform: Publisitas palsu dan berlebihan dari pedagang sangat mudah untuk melanggar peraturan.Solusi ini dapat menghindari risiko hukum dan opini publik yang ditimbulkannya, dan pada saat yang sama, juga akan meningkatkan tingkat konversi penelusuran konsumen;

Sisi pedagang: Gali materi yang lebih rendah, standarkan konten yang diisi oleh pedagang, sehingga materi promosi besar pedagang dapat disimpan ke dalam aktivitas sehari-hari dan digunakan, dan realisasikan materi produk pedagang "isi paling banyak sekali";

Sisi konsumen: untuk memberikan pengalaman menjelajah yang lebih baik kepada konsumen, dan untuk memastikan bahwa diskon yang dilihat konsumen adalah diskon nyata yang dapat dinikmati.

Permukaan yang terpengaruh

Semua jenis bahan berkualitas rendah telah sangat memengaruhi pengalaman penelusuran dan pembelian konsumen. Di sisi lain, mereka juga akan membawa risiko ke platform dan bahkan menyebabkan kegagalan opini publik. Sebagai pembela pengalaman pengguna dan pengontrol risiko platform, kami bertanggung jawab atas 0 toleransi, menggali bahan berkualitas rendah, mendorong pedagang untuk memodifikasi bahan, dan kemudian mengembalikan bahan produk untuk produk yang belum dimodifikasi dalam waktu yang ditentukan, memastikan pengalaman menjelajah dan membeli konsumen, dan mengurangi risiko platform.

klasifikasi identifikasi

Secara garis besar, kami biasanya membagi material berkualitas rendah menjadi tiga kategori:

judul pendek yang tidak biasa

Judul produk pendek berisi 6-10 karakter, terutama menggambarkan nama produk, atribut produk, dan fitur dasar produk.Namun, judul pendek yang tidak normal akan berisi berbagai informasi abnormal, bahkan beberapa konten yang memicu klik, yang berdampak serius pada konsumen. Pengalaman pembelian, seperti yang ditunjukkan di bawah ini:

Manfaat luar biasa

Manfaat produk terutama menggambarkan diskon produk, diskon, dan informasi terkait lainnya, dan manfaat berkualitas rendah yang sama akan berisi berbagai informasi berkualitas rendah, seperti "ahhhhhhhh" dan "poin manfaat untuk ditambahkan". Bahkan ada beberapa konten yang mendorong pembelian, seperti "merek besar menawarkan keuntungan 700.000 yuan", "menangani kerugian dan mengambilnya dari rak", dll., yang memengaruhi pengalaman berbelanja konsumen dan dapat membawa risiko pada platform, seperti yang ditunjukkan pada gambar berikut:

terlalu dipublikasikan

Setelah pedagang mendaftar untuk acara diskon 50% di seluruh toko dan menjadi "pedagang diskon 50% di seluruh toko", ia dapat menampilkan "diskon 50% di seluruh toko dalam hitungan detik", "diskon kurang dari 50% dari seluruh toko" dan "diskon 50% untuk seluruh toko" di poin menarik untuk menarik konsumen untuk melihat-lihat dan membeli. Namun, beberapa pedagang belum terdaftar sebagai "diskon 50% pedagang di seluruh toko", dan setidaknya satu produk dalam produk promosi yang didaftarkan oleh pedagang bukan diskon 50%. Ini melibatkan publisitas palsu dan dapat menyebabkan risiko opini publik selanjutnya , seperti yang ditunjukkan pada gambar di bawah ini:

larutan

Tantangan dan Tanggapan

Seperti kata pepatah, "Menulis adalah yang pertama, Wu adalah yang kedua", kecuali untuk beberapa judul pendek yang jelas lebih rendah, banyak jenis judul pendek tampaknya sulit untuk didefinisikan secara akurat, seperti "menerima kupon tanpa batas", "penjualan panas di bawah harga biaya "" toko unggulan XXXX "dan seterusnya, orang yang berbeda mungkin memiliki pemahaman yang berbeda.

Solusi: Berkomunikasi dengan pedagang dan mahasiswa bisnis di tempat tersebut, tentukan judul pendek dengan kualitas rendah dan jenis poin minat dengan kualitas rendah, dan ekstrak karakteristik dari berbagai jenis kualitas rendah untuk identifikasi dan klasifikasi.

Jumlah materi acara yang didaftarkan selama periode Double Eleven banyak, dan persyaratan ketepatan waktu dan akurasinya tinggi. Data perlu diproduksi setiap hari, dan penerimaan bisnis hanya dapat dibersihkan.

Solusi: Data disinkronkan ke ODPS untuk diproses agar memenuhi persyaratan ketepatan waktu yang tinggi.

Selama periode Double Eleven, izin materi bisnis harus sangat dapat ditafsirkan, dan tidak ada dukungan untuk sampel abnormal yang ditandai dengan lini bisnis kelas dua. Data harus lebih akurat.

Solusi: Pilih algoritme dengan keyakinan tinggi dan interpretasi yang kuat, seperti model TF-IDF, model FastText, kesamaan jarak edit, kesamaan jarak kosinus, urutan umum terpanjang, dll., untuk memastikan keakuratan pengenalan algoritme.

Solusi teknis

Seluruh sistem terdiri dari lapisan input, lapisan preprocessing data, lapisan model, lapisan hasil dan lapisan pemrosesan.

Lapisan input: secara otomatis memilih metode pembacaan data yang berbeda sesuai dengan sumber data yang berbeda: mengadopsi sinkronisasi pesan atau skema sinkronisasi DB untuk sistem sumber pengiriman materi; mengadopsi skema sinkronisasi ODPS untuk membaca materi offline; membaca materi gambar Menggunakan teknologi gambar OCR untuk ekstraksi bahan;

Lapisan prapemrosesan data: Pemrosesan data dilakukan pada data yang diidentifikasi oleh lapisan input Teks panjang seperti judul produk dan manfaat produk disegmentasi menjadi kata entitas individual melalui teknologi NLP, dan penandaan bagian ucapan dilakukan pada kata entitas setelahnya segmentasi melalui teknologi NLP. ;

Lapisan model (modul pengenalan): modul pengenalan mencakup model kesamaan jarak edit, model kesamaan jarak kosinus, dan model TF-IDF.

Lapisan model (modul klasifikasi): Modul klasifikasi mencakup model substring umum terpanjang, model urutan umum terpanjang, dan model FastText.

Lapisan hasil: Berdasarkan hasil klasifikasi lapisan model, hasil pengenalan ditandai sebagai judul pendek inferior (seperti judul pendek produk 6-8, judul yang akan dioptimalkan, dll.), judul pendek poin manfaat (terjangkau, murah, dll.), judul pendek promosi ( Harga spesial hanya untuk satu hari, terburu-buru untuk membeli sudah dekat, dll.), judul pendek promosi besar (harga rendah di akhir Double 12, harga rendah dalam sejarah Double Sebelas, dll.), manfaat berkualitas rendah (di sini perlu direvisi, Bea Cukai Republik, dll.), publisitas yang berlebihan (penonton penuh diskon 50% dan kemudian diskon 50%, perawatan merugi, terjual habis, dll.) , dll.

Lapisan pemrosesan: Metode pemrosesan yang berbeda dipilih secara otomatis sesuai dengan sumber data hasil: untuk data hasil offline, monitor dan alarm, dorong pedagang untuk memodifikasi bahan, lalu lakukan pemrosesan izin bahan untuk produk yang belum mengubah bahan di dalamnya waktu yang ditentukan; untuk online Data hasil materi disadap secara sinkron tanpa mengeluarkan alasan tertentu, dan pedagang didorong untuk mengisi konten materi dengan cara yang standar, sehingga materi promosi besar pedagang dapat disimpan ke dalam aktivitas sehari-hari dan digunakan, dan bahan produk pedagang dapat "diisi paling banyak satu kali".

model algoritma

Judul pendek abnormal diidentifikasi dengan menghitung kesamaan antara judul pendek produk dan judul panjang, dan poin minat abnormal diidentifikasi dengan menghitung kesamaan antara manfaat produk dan judul pendek inferior. Gunakan kesamaan komprehensif dari model TF-IDF, edit kesamaan jarak, kesamaan jarak kosinus, kesamaan jarak Euclidean, dll. untuk mengidentifikasi judul pendek berkualitas buruk, tetapkan ambang batas, dan pilih judul yang kesamaannya lebih rendah dari ambang batas sebagai abnormal judul pendek Judul dilatih lebih lanjut, dan model fastText digunakan untuk mengklasifikasikan judul pendek inferior yang teridentifikasi: mereka akhirnya dibagi menjadi beberapa jenis seperti kualitas rendah, poin minat, slogan, teks yang tidak konsisten, dan nama toko.

Model TF-IDF

Ide inti dari model TF-IDF adalah untuk mengubah teks bahasa alami menjadi vektor kata, di mana vektor kata merujuk ke kata apa pun w dalam kamus D, menentukan vektor bernilai nyata tetap v(m), v(m) disebut Vektor kata dari kata w, jika kata-kata yang digunakan dalam dua kalimat lebih mirip, isinya harus lebih mirip, jadi kita bisa mulai dari frekuensi kata, membangun vektor kata dari kata entitas, dan kemudian menghitung kemiripannya melalui vektor.

Lantas bagaimana cara menghitung kesamaan dua vektor? Kita dapat menganggapnya sebagai dua segmen garis dalam ruang, keduanya dimulai dari titik asal ([0, 0, ...]) dan menunjuk ke arah yang berbeda. Sudut yang disertakan terbentuk antara dua ruas garis. Jika sudut yang disertakan adalah 0 derajat, artinya arahnya sama dan ruas garisnya berimpit; jika sudut yang disertakan adalah 90 derajat, artinya membentuk sudut siku-siku dan arah sama sekali berbeda; Pergi ke arah yang berlawanan. Oleh karena itu, kita dapat menilai kesamaan vektor dengan ukuran sudut yang disertakan. Semakin kecil sudutnya, semakin mirip. Misalkan vektor judul pendek adalah [x1, y1], dan vektor judul adalah [x2, y2] Menurut hukum cosinus, rumus berikut diberikan:

Kami memperluas metode perhitungan ini ke vektor n-dimensi, dengan asumsi bahwa A dan B adalah dua vektor n-dimensi, A adalah [A1, A2,..., An], B adalah [B1, B2, ..., Bn] , maka kosinus sudut θ antara A dan B sama dengan:

Semakin dekat nilai cosinus ke 1, semakin dekat sudutnya ke 0 derajat, yaitu semakin mirip kedua vektor; semakin dekat nilai cosinus ke 0, semakin dekat sudutnya ke 180 derajat, yang berarti bahwa kedua vektor kurang terkait.

Mari kita lihat sebuah contoh:

Judul singkat produk (sub_title): Kemeja rajutan draped, judul produk (judul): port Ports draped T-shirt rajutan wanita.

Segmentasi kata → sub_title: drape/pleat/rajutan/kemeja, judul: port/port/drape/pleat/pakaian wanita/rajutan/T-shirt.

Tuliskan dimensi vektor kata: total vektor kata 8 dimensi → port, Port, tirai, lipatan, pakaian wanita, rajutan, kemeja, T-shirt.

Menurut metode perhitungan kesamaan cosinus, kita dapat menghitung bahwa kesamaan antara judul pendek dan judul adalah 0,57, dan sudut antara keduanya sekitar 55 derajat, yang relatif sama.

model teks cepat

Input dari model fastText adalah urutan kata, yaitu potongan teks, dan menampilkan probabilitas bahwa urutan kata termasuk dalam kategori yang berbeda. Kata dan frasa dalam urutan membentuk vektor fitur, yang dipetakan ke lapisan tengah melalui transformasi linier, dan lapisan tengah kemudian dipetakan ke label.

sunting kesamaan jarak

Algoritma jarak edit mengacu pada jumlah minimum operasi pengeditan yang diperlukan untuk mengubah satu string karakter ke string lainnya di antara dua string. Jika jarak antara keduanya lebih besar, berarti keduanya lebih berbeda. Operasi pengeditan yang diizinkan termasuk mengganti karakter dengan yang lain karakter, masukkan karakter, hapus karakter, tentukan fungsi edit(i,j), yang merepresentasikan jarak edit dari substring dengan panjang i di string s1 ke substring dengan panjang j di string s2.

Jika i == 0 dan j ==0, edit(i, j) = 0, artinya jika keduanya adalah barisan kosong, jarak edit adalah 0;

Jika i == 0 dan j> 0, edit(i, j) = j, artinya jika s1 adalah barisan kosong dan panjang barisan s2 adalah j, maka jarak edit adalah panjang j dari s2;

Jika i > 0 dan j == 0, edit(i, j) = i, artinya jika s2 adalah barisan kosong dan panjang barisan s1 adalah i, maka jarak edit adalah panjang i dari s2;

Jika i ≥ 1 dan j ≥ 1, edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1 ) + f(i, j) }, mewakili tiga cara mengubah dari string i ke string j (dari kiri ke kanan, hapus karakter di akhir string A, tambahkan karakter ampersand di akhir string A Hal yang sama karakter di akhir string B, ganti karakter di akhir string A dengan karakter di akhir string B), lalu hitung jarak edit masing-masing, dan terakhir ambil nilai minimum sebagai jarak edit

Hitung kesamaan = jarak 1-edit/Math.Max ​​(str1.length, str2.length).

efek pengakuan

judul pendek yang tidak biasa
Judul pendek abnormal diidentifikasi dan diklasifikasikan menjadi judul pendek kualitas rendah, judul pendek manfaat, judul pendek slogan promosi, dan judul pendek nama toko.Beberapa efek yang dikenali adalah sebagai berikut:

Manfaat luar biasa
Teridentifikasinya interest point abnormal dan diklasifikasikan menjadi interest point berkualitas rendah dan interest point yang dipublikasikan secara berlebihan Beberapa dampak yang teridentifikasi adalah sebagai berikut:

pandangan masa depan

Kecerdasan mesin secara bertahap menjadi entri lapangan baru. Atas dasar data material di masa depan, kami akan terus menekankan teknologi algoritme untuk memberdayakan manajemen material, terus mengeksplorasi penggabungan teknologi dan produk, mengumpulkan data dan sistem pengetahuan, serta meningkatkan tempat pengalaman Konsumen, untuk memastikan bahwa apa yang dilihat konsumen adalah nyata dan tersedia diskon, dan pada saat yang sama menerapkan materi produk pedagang "isi paling banyak sekali".

Di bidang teknologi, kami akan terus memperdalam di bidang model generatif, peningkatan pembelajaran, pembacaan mesin, dan emosionalisasi. Kami akan meninjau dan menghapus mesin akses material pedagang, dan mencegat material berkualitas rendah secara real time.

Related Articles

Explore More Special Offers

  1. Short Message Service(SMS) & Mail Service

    50,000 email package starts as low as USD 1.99, 120 short messages start at only USD 1.00

phone Contact Us