全部產品
Search
文件中心

Platform For AI:ngram-count

更新時間:Apr 03, 2025

ngram-count是語言模型訓練過程中的一個關鍵步驟,涉及產生和統計n-gram的出現頻率。在此過程中,演算法在整個語料庫中識別連續的n個詞(n-gram),並計算其出現次數,以構建詞彙之間的統計關聯式模式。結果反映的是n-gram在整個語料集上的全域計數,而非局限於單個文檔的統計。

組件配置

方式一:可視化方式

在Designer工作流程頁面添加ngram-count組件,並在介面右側配置相關參數:

參數類型

參數

描述

欄位設定

輸入表中句子所在的列

輸入表中句子所在欄欄位。

詞袋中詞所在的列名

選擇詞袋中詞所在的列名。

輸入的count結果表的words列

輸入的count結果表的words列。

輸入的count結果表的count列

輸入的count結果表的count列。

句子的權重列

輸入句子的權重列。

參數設定

N-grams的最大長度

設定N-grams的最大長度,預設為3。

執行調優

可選,核心個數

預設自動選擇。

可選,單個核心使用的記憶體數

預設自動選擇,單位為MB。

方式二:PAI命令方式

使用PAI命令配置ngram-count組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼

PAI -name ngram_count    
    -project algo_public    
    -DinputTableName=pai_ngram_input    
    -DoutputTableName=pai_ngram_output    
    -DinputSelectedColNames=col0    
    -DweightColName=weight    
    -DcoreNum=2    
    -DmemSizePerCore=1000;

參數

是否必選

預設值

描述

inputTableName

輸入表。

outputTableName

輸出表。

inputSelectedColNames

第一個字元類型的列

輸入表選擇列。

weightColName

1

權重列名。

inputTablePartitions

選擇全表

輸入表指定分區。

countTableName

ngram-count以往的輸出表,最終結果將合并這張表。

countWordColName

選擇第二列

count表中詞所在的列名。

countCountColName

選擇第三列

count表中count所在的列。

countTablePartitions

count表指定分區。

vocabTableName

詞袋錶,不在詞袋中的詞在結果中會被標識為\<unk\。

vocabSelectedColName

選擇第一個字元類型的列

詞袋所在的列名。

vocabTablePartitions

詞袋錶指定分區。

order

3

N-grams的最大長度。

lifecycle

輸出表的生命週期。

coreNum

核心個數。

memSizePerCore

單個核心使用的記憶體數。單位為MB。