Fungsi penambangan pola sering menganalisis data multidimensi untuk mengekstrak kombinasi atribut dengan perbedaan signifikan, mengukur dampaknya, serta mendukung berbagai konfigurasi parameter untuk mengoptimalkan hasil penambangan.
get_patterns
Operator get_patterns digunakan untuk penambangan itemset sering. Operator ini menambang item sering, menggabungkan hasil, menghapus duplikat, serta mengekstrak templat (itemset sering) dari data tabular.
Sintaksis
get_patterns($TABLE, $HEADER, $PARAM)Parameter
Parameter | Tipe data | Diperlukan | Deskripsi |
$TABLE | row<array<T>, array<E>, ..., array<F>> | Ya | Tabel input untuk penambangan item sering. Setiap kolom adalah kolom dimensi yang akan ditambang. |
$HEADER | array<varchar> | Ya | Nama kolom. Nama ini sesuai dengan kolom di $TABLE. Jumlah nama header harus sesuai dengan jumlah kolom dalam tabel. |
$PARAM | varchar | Tidak | Untuk informasi lebih lanjut, lihat deskripsi parameter param. |
Deskripsi parameter param
Nama parameter | Deskripsi | Tipe parameter | Diperlukan | Nilai default | Rentang nilai |
minimum_support_fraction | Support minimum untuk pola keluaran dalam kelompok uji. Misalnya, jika suatu pola muncul dengan frekuensi 0,1 dalam kelompok uji, support-nya adalah 0,1. Parameter ini mengontrol jumlah pola dengan menyesuaikan sensitivitas. | double | Tidak | 0,05 | (0, 1) |
Contoh
Analisis kueri:
Fitur ini dalam pratinjau publik. Anda harus secara manual menambahkan pernyataan `set session enable_remote_functions=true`. Persyaratan ini akan dihapus di versi mendatang.
(*)| set session enable_remote_functions=true ; with t0 as (select JSON_EXTRACT_SCALAR(entity, '$.platform') AS platform, JSON_EXTRACT_SCALAR(entity, '$.region') AS region, cast(value as double) as value, if((value > 100), 'true', 'false') as anomaly_label from log), t1 as ( select array_agg(platform) as platform, array_agg(region) as region, array_agg(anomaly_label) as anomaly_label, array_agg(value) as value from t0), t2 as ( select row(platform, region) as table_row from t1), t3 as (select get_patterns(table_row, ARRAY['platform', 'region']) as ret from t2) select * from t3Keluaran:
[["platform=eBay","platform=edX","platform=Amazon","platform=Skillshare","platform=Shopify","platform=Khan Academy","platform=Coursera","platform=Udemy","platform=Alibaba","platform=Taobao","platform=Snapchat","platform=Amazon Prime","platform=YouTube","platform=Hulu","platform=Peloton","platform=Twitter","platform=Fitbit","platform=Nike Training","platform=LinkedIn","platform=Instagram","platform=Disney+","platform=Strava","platform=MyFitnessPal","platform=Facebook","platform=Netflix","platform=Console","platform=Samsung SmartThings","platform=Apple HomeKit","platform=Mobile","platform=PC","platform=Google Home","platform=VR"],[156960,149760,148320,148320,146880,145440,139680,136800,133920,133920,96480,95040,92160,90720,90720,89280,89280,87840,84960,83520,83520,82080,82080,77760,70560,46080,41760,41760,34560,33120,31680,30240],null,null]
Deskripsi nilai kembali
Parameter | Tipe | Deskripsi | Contoh |
$RET.patterns | array<varchar> | Templat tabel, yaitu itemset sering. Setiap varchar adalah ekspresi di mana kondisi dihubungkan oleh AND, seperti |
|
$RET.test_supports | array<bigint> | Frekuensi setiap templat. |
|
$RET.labels | array<bigint> | Nilai kembali cadangan untuk penggunaan masa depan dalam klasifikasi data otomatis. Nilainya selalu |
|
$RET.error_msg | array<varchar>/null | Pesan kesalahan. Jika tidak ada kesalahan yang terjadi, nilai kembali adalah |
|