推奨されるアルゴリズム コンポーネント
推奨されるアルゴリズム コンポーネントには、一般的なアルゴリズム (データ読み取りアルゴリズム、SQL スクリプト、Python スクリプトなど) と LLM データ処理アルゴリズム (LLM データ処理、LVM データ処理など)、および LLM のトレーニングと推論アルゴリズムが含まれます。 ヘテロジニアス リソースとユーザー定義環境をサポートし、より柔軟に使用できる DLC ベースのアルゴリズム コンポーネントをお勧めします。
タイプ | コンポーネント | 説明 | ||
カスタム コンポーネント | AI コンピューティング アセット管理でカスタム コンポーネントを作成できます。 その後、Designer の公式コンポーネントと一緒に使用します。 | |||
データ ソース/ターゲット | Object Storage Service (OSS) バケットからファイルまたはディレクトリを読み取ります。 | |||
OSS、HTTP、および HDFS から CSV ファイルを読み取ります。 | ||||
デフォルトでは、現在のプロジェクトの MaxCompute テーブルからデータを読み取ります。 | ||||
アップストリーム データを MaxCompute に書き込みます。 | ||||
ユーザー定義スクリプト | エディターで SQL 文を記述し、MaxCompute に送信して実行できるカスタム SQL コンポーネントです。 | |||
依存関係を定義し、カスタム Python 関数を実行します。 | ||||
ツール | データセットの登録 | データセットを AI アセット管理に登録します。 | ||
モデルの登録 | モデルを AI アセット管理に登録します。 | |||
EAS サービスの更新 (ベータ版) | eascmd を呼び出して、指定された EAS サービスを更新します。 更新されるサービスは、実行中状態である必要があります。 新しいサービス バージョンが毎回作成されます。 | |||
大規模モデル データの前処理 | データ変換 | MaxCompute テーブルを OSS にインポートします。 | ||
OSS から MaxCompute テーブルにデータをインポートします。 | ||||
LLM データ処理 (DLC) | テキストの MD5 ハッシュ値を計算し、ハッシュ値に基づいてテキストの重複を除去します。 | |||
Unicode テキストを正規化し、繁体字中国語を簡体字中国語に変換します。 | ||||
テキストから URL を削除します。 また、HTML 形式の文字を削除し、HTML テキストを解析することもできます。 | ||||
特殊文字の比率に基づいてサンプルをフィルタリングし、指定された比率範囲内のサンプルを保持します。 | ||||
テキストから著作権情報を削除します。 多くの場合、コード テキストからヘッダーの著作権コメントを削除するために使用されます。 | ||||
数字とアルファベットの比率に基づいてサンプルをフィルタリングします。 | ||||
テキストの長さ、平均の長さ、最大行の長さなどに基づいてサンプルをフィルタリングします。 | ||||
テキストの言語を識別し、スコアを計算します。 その後、言語とスコアに基づいてサンプルをフィルタリングします。 | ||||
禁止用語を含むサンプルを除外します。 | ||||
メール アドレスを [EMAIL] に、電話番号を [TELEPHONE] または [MOBILEPHONE] に、ID カード番号を [IDNUM] に置き換えるなど、機密情報をマスクします。 | ||||
SimHash アルゴリズムを使用してテキスト間の類似度を計算し、テキストの重複除去を実現します。 | ||||
文字レベルまたは単語レベルの N-Gram 反復率が指定された範囲内にあるサンプルを保持します。 | ||||
TEX ドキュメント形式のデータに使用されます。 パラメーターのないすべてのマクロに対してインライン展開を実行します。 マクロが文字と数字で構成され、パラメーターがない場合、マクロ名はマクロ値に置き換えられます。 | ||||
TEX ドキュメント形式のデータに使用されます。 LaTeX 形式のテキストの末尾にある参考文献を削除します。 | ||||
TEX ドキュメント形式のデータに使用されます。 LaTeX 形式のテキストのコメント行とインライン コメントを削除します。 | ||||
TEX ドキュメント形式のデータに使用されます。 <section-type>[optional-args]{name} chapter 形式に一致する最初の文字列を検索し、その前のすべてのコンテンツを削除します。 最初に一致した章の後のすべてのコンテンツ (章のタイトルを含む) は保持されます。 | ||||
LLM データ処理 (MaxCompute) | LLM のテキスト データの前処理に使用されます。 テキストの MD5 ハッシュ値を計算し、ハッシュ値に基づいてテキストの重複を除去します。 | |||
LLM のテキスト データの前処理に使用されます。 Unicode テキストを正規化し、繁体字中国語を簡体字中国語に変換します。 | ||||
LLM のテキスト データの前処理に使用されます。 ナビゲーション情報、作成者情報、記事ソース情報、URL リンク、不可視文字などの特殊コンテンツをテキストから削除し、HTML 形式の文字を削除して HTML テキストを解析します。 | ||||
LLM のテキスト データの前処理に使用されます。 特殊文字の比率に基づいてサンプルをフィルタリングし、特殊文字のテキスト全体の長さに対する比率が指定された範囲内にあるサンプルを保持します。 | ||||
LLM のテキスト データの前処理に使用されます。 テキストから著作権情報を削除します。 多くの場合、コード テキストからヘッダーの著作権コメントを削除するために使用されます。 | ||||
LLM のテキスト データの前処理に使用されます。 文字、数字、および区切り文字の数に基づいてサンプルをフィルタリングします。 | ||||
LLM のテキスト データの前処理に使用されます。 テキストの長さ、平均の長さ、最大行の長さなどに基づいてサンプルをフィルタリングします。 平均の長さと最大行の長さのフィルタリングでは、デフォルトで統計を計算する前にテキストが行ごとに分割されます。 | ||||
LLM のテキスト データの前処理に使用されます。 テキストの言語を識別し、スコアを計算します。 言語とスコアに基づいてサンプルをフィルタリングできます。 | ||||
LLM のテキスト データの前処理に使用されます。 禁止用語を含むサンプルを除外します。 | ||||
LLM のテキスト データの前処理に使用されます。 メール アドレスを | ||||
LLM のテキスト データの前処理に使用されます。 記事内の文の重複を除去します。 | ||||
LLM のテキスト データの前処理に使用されます。 文字レベルまたは単語レベルの N-Gram 反復率が指定された範囲内にあるサンプルを保持します。 | ||||
LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 パラメーターのないすべてのマクロに対してインライン展開を実行します。 マクロが文字と数字で構成され、パラメーターがない場合、マクロ名はマクロ値に置き換えられます。 | ||||
LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 LaTeX 形式のテキストの末尾にある参考文献を削除します。 | ||||
LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 LaTeX 形式のテキストのコメント行とインライン コメントを削除します。 | ||||
LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 <section-type>[optional-args]{name} chapter 形式に一致する最初の文字列を検索し、その前のすべてのコンテンツを削除します。 最初に一致した章の後のすべてのコンテンツ (章のタイトルを含む) は保持されます。 | ||||
LVM データ処理 (DLC) | ビデオデータの前処理 | テキストが多すぎるビデオデータをフィルタリングします。 特にビデオ編集やコンテンツ モデレーションのシナリオに適しており、ユーザーはテキストが多すぎるビデオセグメントを自動的に識別して処理できるため、作業効率が向上します。 | ||
モーションが速すぎる、または遅すぎるビデオデータをフィルタリングします。 | ||||
美的スコアの低いビデオデータをフィルタリングします。 | ||||
アスペクト比が大きすぎる、または小さすぎるビデオデータをフィルタリングします。 | ||||
再生時間が長すぎる、または短すぎるビデオデータをフィルタリングします。 | ||||
類似度スコアの低いビデオデータをフィルタリングします。 | ||||
NSFW スコアの高いビデオデータをフィルタリングします。 | ||||
解像度が高すぎる、または低すぎるビデオデータをフィルタリングします。 | ||||
ウォーターマーク付きのビデオデータをフィルタリングします。 | ||||
指定されたタグと一致しないビデオデータをフィルタリングします。 | ||||
ビデオフレームのタグを計算します。 | ||||
ビデオのテキストを生成します。 | ||||
ビデオのテキストを生成します。 | ||||
画像データの前処理 | 美的スコアの低い画像データをフィルタリングします。 | |||
アスペクト比が大きすぎる、または小さすぎる画像データをフィルタリングします。 | ||||
顔の比率が大きすぎる、または小さすぎる画像データをフィルタリングします。 | ||||
NSFW スコアの高い画像データをフィルタリングします。 | ||||
解像度が高すぎる、または低すぎる画像データをフィルタリングします。 | ||||
大きすぎる、または小さすぎる画像データをフィルタリングします。 | ||||
テキストと画像のマッチ スコアが低い画像データをフィルタリングします。 | ||||
テキストと画像の類似度スコアの低い画像データをフィルタリングします。 | ||||
ウォーターマーク付きの画像データをフィルタリングします。 | ||||
入力画像の自然言語による説明を生成します。 | ||||
大規模モデルのトレーニングと推論 | PAI-Model Gallery の一部の LLM をサポートしています。 | |||
PAI-Model Gallery の一部の LLM をサポートし、オンライン推論をオフライン推論に変換します。 | ||||
BERT モデルのオフライン推論に使用され、トレーニング済みの BERT 分類モデルを利用して入力テーブルのテキストを分類します。 | ||||
従来のアルゴリズム コンポーネント
従来のアルゴリズムコンポーネントは、長い間更新されていない初期に開発されたアルゴリズムです。 安定性は保証できません。 本番環境で使用する必要がある場合は、まず適用性を評価してください。 すでに本番環境で使用されている場合は、できるだけ早く推奨コンポーネントに置き換えてください。
タイプ | コンポーネント | 説明 |
データ前処理 | 指定された割合または数に従って、入力に対してランダムな独立サンプリングを実行します。 | |
重み付けされた列の値に基づいてサンプリングデータを生成します。 | ||
式に基づいてデータをフィルタリングし、出力フィールド名を変更できます。 | ||
グループ化列が指定されている場合、入力データをこれらの列の異なる値に基づいて異なるグループに分割し、各グループ内で個別にランダムサンプリングを実行します。 | ||
テーブルの列を関連付けることで 2 つのテーブルをマージし、出力フィールドを決定します。SQL の JOIN 文のように機能します。 | ||
列に基づいて 2 つのテーブルをマージします。 2 つのテーブルの行数は同じである必要があります。そうでない場合は、エラーが発生します。 2 つのテーブルのいずれか一方にのみパーティションがある場合、パーティションテーブルは 2 番目の入力ポートに接続する必要があります。 | ||
2 つのテーブルを行単位でマージします。左右のテーブルから選択された出力フィールドの数とデータ型は同じである必要があります。このコンポーネントは、UNION と UNION ALL の機能を統合しています。 | ||
任意のデータ型のフィーチャーを STRING、DOUBLE、および INT フィーチャーに変換し、変換例外が発生した場合の欠損値の補完をサポートします。 | ||
データテーブルの最初の列に ID 列を追加します。 | ||
トレーニング データセットとテスト データセットを生成するためにデータをランダムに分割します。 | ||
データセットの欠損データを処理します。このコンポーネントのパラメーターは、コンソールまたは PAI コマンドで設定できます。 | ||
密データまたは疎データを正規化します。 | ||
コンソールで、または PAI コマンドを実行することで、標準化されたインスタンスを生成します。 | ||
KV(Key:Value)形式のテーブルを標準のテーブル形式に変換します。 | ||
コンソールで、または PAI コマンドを実行することで、標準テーブルを KV(Key:Value)形式のテーブルに変換します。 | ||
特徴量エンジニアリング | 線形特徴量の重要度、GBDT 特徴量の重要度、ランダムフォレスト特徴量の重要度などのコンポーネントにフィルタリング機能を提供し、TopN 特徴量のフィルタリングをサポートします。 | |
少数の主成分によって複数の変数間の内部構造をどのように明らかにするかを研究する多変量統計手法であり、複数の変数間の相関関係を調べます。 | ||
密または疎フォーマットの数値特徴量に対して、一般的なスケーリング変換を実行します。 | ||
特定のルールに基づいて連続特徴量を離散化します。 | ||
入力特徴量に含まれる異常データを特定の間隔に平滑化します。スパースデータ形式とデンスデータ形式の両方がサポートされています。 | ||
線形代数における重要な行列分解であり、行列解析における正規行列の対角化の一般化です。 | ||
連続値特徴量と列挙型特徴量を持つデータを検出します。データ内の異常点を特定するのに役立ちます。 | ||
線形回帰と二項ロジスティック回帰を含み、スパース データ形式とデンス データ形式の両方をサポートします。 | ||
離散特徴の分布を分析します。 | ||
特徴量の重要度を計算します。 | ||
使用するさまざまな特徴量選択メソッドに基づいて、すべてのスパースまたはデンス フォーマットの特徴量データから上位 N 個の特徴量データを選択してフィルター処理します。 | ||
GBDT を使用して、非線形特徴量を線形特徴量にエンコードします。 | ||
データをスパースデータに変換し、出力結果もスパースなキーと値の構造になります。 | ||
統計分析 | 特徴とラベル列の分布、および特徴の特性を視覚的に理解するのに役立ち、後続のデータ分析を容易にします。 | |
2 つの変数の同時変動性を測定します。 | ||
経験分布とカーネル密度推定アルゴリズムを使用して、サンプルデータの確率密度を推定します。 | ||
テーブルのデータ、または選択した列のみの統計情報を収集します。 | ||
変数がカテゴリ変数であるシナリオで使用されます。単一の多項カテゴリ変数の分類全体で、実際に観測された度数と理論上の度数が一致するかどうかを検定することを目的としています。帰無仮説は、観測度数と理論度数の間に差がないというものです。 | ||
箱ひげ図は、データセットの分散を表示するために使用される統計グラフです。主に元のデータの分布特性を反映するために使用され、複数のデータセットの分布特性を比較するためにも使用できます。 | ||
回帰分析では、散布図はデカルト座標系におけるデータポイントの分布を示します。 | ||
相関係数アルゴリズムは、マトリックス内の各列間の相関係数を計算するために使用され、値の範囲は [-1,1] です。システムが計算する場合、カウントは 2 つの列間で同時に空でない要素の数に基づいており、これは列のペアによって異なる場合があります。 | ||
統計的原理に基づいて、2 つの標本の平均値に有意差があるかどうかを検定します。 | ||
変数の全体の平均と指定された値の間に有意差があるかどうかを検定します。検定される標本は、全体として正規分布に従う必要があります。 | ||
観測値を使用して、母集団が正規分布に従っているかどうかを判断します。統計的意志決定における適合度検定の重要な特殊なタイプです。 | ||
国または地域の所得分布を確認するのに役立ちます。 | ||
データテーブルの列データのパーセンタイルを計算するために使用される統計用語です。 | ||
2 つの変数の間の線形相関を測定する線形相関係数。 | ||
質量分布図とも呼ばれ、さまざまな高さの連続した縦棒または線分を使用してデータ分布を表す統計レポートグラフです。 | ||
機械学習 | トレーニング済みモデルと予測データを入力として使用し、予測結果を出力として生成します。 | |
ブースティングアルゴリズムに基づく拡張および改良版であり、使いやすさと堅牢性が向上しています。さまざまな機械学習 本番システムおよび競技分野で広く使用されています。現在は、分類と回帰をサポートしています。 | ||
ブースティングアルゴリズムに基づく拡張および改良版であり、使いやすさと堅牢性が向上しています。さまざまな機械学習 本番システム および競技分野で広く使用されています。現在、分類と回帰をサポートしています。 | ||
統計的学習理論に基づく機械学習手法です。構造的リスク最小化を追求することで学習マシンの汎化能力を向上させ、それによって経験的リスクと信頼区間 の最小化を実現します。 | ||
スパース データ形式とデンス データ形式の両方をサポートするバイナリ分類アルゴリズムです。 | ||
このコンポーネントは、しきい値を設定することで機能します。特徴量の値がしきい値より大きい場合は、正のサンプルとして分類されます。それ以外の場合は、負のサンプルとして分類されます。 | ||
パラメーターサーバー PS (Parameter Server) は、大規模なオフラインおよびオンラインのトレーニングタスクの解決に特化しています。SMART (Scalable Multiple Additive Regression Tree) は、PS に基づいて GBDT (Gradient Boosting Decision Tree) によって実装された反復アルゴリズムです。 | ||
広告や検索のシナリオで広く使用されている、従来の 2 値分類アルゴリズムです。 | ||
パラメーターサーバー PS は、大規模なオフラインおよびオンラインのトレーニングタスクの解決に特化しています。SMART は、GBDT 用に PS に基づいて実装された反復アルゴリズムです。 | ||
予測テーブルのデータの各行について、トレーニング テーブルから距離が最も近い K レコードを選択し、これらの K レコードの中で最も多くのカテゴリを持つクラスをその行のクラスとして使用します。 | ||
バイナリ分類アルゴリズムです。PAI が提供するロジスティック回帰は、多クラス分類と、スパース データ形式とデンス データ形式の両方をサポートしています。 | ||
複数の決定木で構成される分類器です。分類結果は、個々の木の出力クラスのモードによって決定されます。 | ||
独立性を仮定したベイズの定理に基づく確率的分類アルゴリズムです。 | ||
各クラスタの初期クラスタリングセンターとして K 個のオブジェクトをランダムに選択し、残りのオブジェクトと各クラスタセンター間の距離を計算し、最も近いクラスタに割り当て、各クラスタのクラスタリングセンターを再計算します。 | ||
クラスタリング モデルを構築します。 | ||
モデル分類を実装します。 | ||
DBSCAN トレーニングモデルに基づいて、新しいポイントデータが属するクラスターを予測します。 | ||
トレーニング済みのガウス混合モデルに基づいてクラスタリング予測を実行します。 | ||
反復決定木アルゴリズム。線形および非線形回帰シナリオに適しています。 | ||
従属変数と複数の独立変数間の線形関係を分析するモデルです。 | ||
大規模なオフラインおよびオンラインのトレーニング タスクを解決します。SMART は、GBDT 向けに PS に基づいて実装された反復アルゴリズムです。 | ||
従属変数と複数の独立変数間の線形関係を分析するモデル。PS は、大規模なオフラインおよびオンラインのトレーニング タスクの解決に特化しています。 | ||
AUC、KS、および F1 Score メトリックを計算して、KS 曲線、PR 曲線、ROC 曲線、LIFT チャート、およびゲインチャートを生成します。 | ||
予測結果と元の結果に基づいて回帰アルゴリズム モデルの品質を評価し、評価メトリックと残差ヒストグラムを出力します。 | ||
元のデータとクラスタリング結果に基づいてクラスタリングモデルの品質を評価し、評価メトリックを出力します。 | ||
教師あり学習に適しており、教師なし学習では一致行列に相当します。 | ||
分類モデルの予測結果と元の結果に基づいて、多クラス分類アルゴリズムモデルの長所と短所を評価し、評価メトリック(Accuracy、Kappa、F1-Score など)を出力します。 | ||
ディープ ラーニング | PAI は、ディープ ラーニング フレームワークをサポートしています。これらのフレームワークとハードウェア リソースを使用して、ディープ ラーニング アルゴリズムを実装できます。 | |
時系列 | オープンソースの X-13ARIMA-SEATS パッケージに基づく季節調整用の ARIMA アルゴリズム。 | |
Gomez 氏と Maravall 氏 (1998) によるプログラムをベースとした、TRAMO (1996) およびその後の改訂版に実装されている自動 ARIMA モデル選択プログラムが含まれています。 | ||
MTable データの各行に対して Prophet 時系列予測を実行し、次の期間の予測結果を提供します。 | ||
グループ化列に基づいてテーブルを MTable に集約します。 | ||
MTable をテーブルに展開します。 | ||
推奨 | FM(Factorization Machine)アルゴリズムは、特徴間の相互作用を考慮します。これは、eコマース、広告、ライブストリーミングの推奨シナリオに適した非線形モデルです。 | |
Alternating Least Squares(ALS)アルゴリズムは、スパース行列に対してモデル分解を実行し、欠損項目の値を評価し、基本的なトレーニングモデルを取得します。 | ||
アイテム想起アルゴリズム。ユーザーアイテムユーザー原則に基づいてアイテムの類似性を測定するために使用できます。 | ||
Swing のバッチ処理予測コンポーネントです。Swing 訓練モデルと予測データに基づいてオフライン予測を実行するために使用できます。 | ||
etrec は、アイテム ベースの協調フィルタリングアルゴリズムであり、2 つの列を入力として受け取り、アイテム 間の TopN 類似度を出力します。 | ||
リコールのヒット率の結果を計算します。ヒット率は結果の品質の評価として機能し、ヒット率が高いほど、トレーニングによって生成されたベクターがより正確なリコール結果を達成していることを示します。 | ||
外れ値検出 | データサンプルの Local Outlier Factor (LOF) 値に基づいて、サンプルが異常かどうかを判断します。 | |
サブサンプリングアルゴリズムを使用することで、アルゴリズムの計算の複雑さを軽減します。 データ内の異常点を特定でき、異常検出の分野で大きなアプリケーション効果があります。 | ||
従来の SVM とは異なり、教師なし学習アルゴリズムです。境界を学習することで、異常点を予測するために使用できます。 | ||
自然言語処理 | 冗長で反復的なテキストシーケンスから重要な情報を抽出、絞り込み、または要約します。ニュースの見出し要約は、テキスト要約の特殊なケースです。指定された事前学習済みモデルを呼び出してニューステキストを予測し、ニュースの見出しを生成するために使用できます。 | |
生成された機械読解トレーニング モデルを使用してオフライン予測を実行します。 | ||
冗長で反復的なテキストシーケンスから重要な情報を抽出、絞り込み、または要約します。ニュースの見出しの要約は、テキスト要約の特殊なケースです。ニュース記事の中心となるアイデアと重要な情報を要約したニュースの見出しを生成するモデルのトレーニングに使用できます。 | ||
指定されたドキュメントに基づいて質問をすばやく理解して回答する機械読解モデルをトレーニングします。 | ||
AliWS (Alibaba Word Segmenter) 語彙分析システムに基づいています。指定された列の内容に対してワード分割を実行し、分割後に各ワードをスペースで区切ります。 | ||
トライアドテーブル (行、列、値) を KV テーブル (行、[列 ID:値]) に変換します。 | ||
機械学習分野における基本的な操作であり、主に情報検索、自然言語処理、バイオインフォマティクスで使用されます。 | ||
文字列の類似度を計算し、上位 N 件の類似データを除外します。 | ||
テキスト分析における前処理手法であり、単語分割結果のノイズ (「of」、「is」、「ah」など) を除去するために使用されます。 | ||
言語モデルのトレーニング手順の 1 つです。単語に基づいて N-gram を生成し、コーパス全体で対応する N-gram の数をカウントします。 | ||
ドキュメントの中心となる考えを包括的かつ正確に反映できる、簡潔でまとまりのある短いテキスト。自動テキスト要約は、コンピューターを使用して元のドキュメントから要約コンテンツを自動的に抽出します。 | ||
自然言語処理における重要な技術であり、具体的には、テキストから記事の意味と強い関連性を持つ単語を抽出することを指します。 | ||
句読点に基づいてテキストを文に分割します。主にテキスト要約前の前処理に使用され、テキストの段落を各文が別々の行に表示されるフォーマットに変換します。 | ||
Word2Vec によって生成された単語埋め込みなどのアルゴリズムからのセマンティックベクター結果に基づいて、特定のベクトルに最も近い距離を持つベクトルのセットを見つけることによって、指定された単語(または文)の拡張単語(または拡張文)を計算します。1 つのアプリケーションは、入力単語に基づいて、Word2Vec によって生成された単語埋め込みに基づいて、最も類似した単語のリストを返すことです。 | ||
記事をベクターにマッピングします。入力は語彙です。出力はドキュメント ベクター テーブル、単語ベクター テーブル、または語彙です。 | ||
指定された入力ランダム変数のグループを条件として、出力ランダム変数のグループにおける確率分布モデルです。その特性は、出力ランダム変数がマルコフ確率場を構成すると仮定することです。 | ||
文字列の類似度に基づいて、単語に基づいて記事または文のペア間の類似度を計算します。 | ||
複数記事内のすべての単語の共起をカウントし、各ペア間の PMI(点相互情報量)を計算します。 | ||
線形 CRF オンライン予測モデルに基づくアルゴリズムコンポーネントであり、主にシーケンスラベリング問題の処理に使用されます。 | ||
AliWS に基づいて開発され、パラメーターとカスタム辞書に基づいて単語分割モデルを生成します。 | ||
入力文字列 (手動入力または指定されたファイルから読み取り) に基づいて、プログラムを使用して、これらの文字列内の単語の総数と各単語の出現回数をカウントします。 | ||
情報検索とテキストマイニングで一般的に使用される重み付け手法です。通常、検索エンジンに適用され、ドキュメントとユーザー クエリとの関連性の尺度または評価として使用できます。 | ||
各ドキュメントから異なるトピックを抽出するために、PLDA コンポーネントのトピック パラメーターを設定します。 | ||
ニューラルネットワークを使用して、トレーニングを通じて単語を K 次元空間のベクトルにマッピングし、セマンティクスに対応しながら単語を表すベクトルに対する操作をサポートします。入力は単語列または語彙であり、出力は単語ベクトルテーブルと語彙です。 | ||
ネットワーク分析 | 各ノードの深さとツリー ID を出力します。 | |
指定されたコア次数を満たす、グラフ内で密接に関連付けられたサブグラフ構造を見つけます。ノードのコア番号の最大値は、グラフのコア番号と呼ばれます。 | ||
ダイクストラアルゴリズムを使用して、特定のノードと他のすべてのノード間の最短経路を生成します。 | ||
Web 検索ランキングから派生したもので、Web ページのリンク構造を使用して各 Web ページのランキングを計算します。 | ||
グラフベースの半教師あり学習手法です。その基本原理は、ノードのラベル(コミュニティ)が隣接ノードのラベル情報に依存し、影響度はノードの類似性によって決まり、伝播と反復更新によって安定性が実現されることです。 | ||
ラベル付きノードのラベル情報を使用して、ラベルなしノードのラベル情報を予測する半教師あり分類アルゴリズムです。 | ||
コミュニティネットワーク構造を評価するために使用されるメトリックです。ネットワーク構造内で分割されたコミュニティの凝集性を評価します。一般的に、0.3 を超える値は、比較的明確なコミュニティ構造を示します。 | ||
無向グラフ G において、頂点 A から頂点 B に接続するパスが存在する場合、A と B は接続されていると言います。グラフ G には、いくつかのサブグラフが存在します。各サブグラフ内のすべての頂点が接続されているが、異なるサブグラフ間の頂点は接続されていない場合、グラフ G のこれらのサブグラフは最大連結サブグラフと呼ばれます。 | ||
無向グラフ G 内の各ノード周辺の密度を計算します。スター型ネットワークの密度は 0 で、完全接続型ネットワークの密度は 1 です。 | ||
無向グラフ G の各エッジ周辺の密度を計算します。 | ||
無向グラフ G 内のすべての三角形を出力します。 | ||
財務 | データに対して正規化、離散化、インデックス作成、または WOE 変換を実行します。 | |
信用リスク評価分野で一般的に使用されるモデリングツールです。入力値をビニングして元の変数を離散化し、線形モデル(ロジスティック回帰や線形回帰など)を使用してモデル学習を行います。特徴量選択やスコア変換などの機能が含まれています。 | ||
スコアカードトレーニングコンポーネントによって生成されたモデル結果に基づいて、生データのスコアを付けます。 | ||
特徴量の離散化を実行します。これは、連続データを複数の離散的な間隔にセグメント化します。等頻度ビニング、等幅ビニング、および自動ビニングをサポートしています。 | ||
サンプルの変化によって引き起こされるずれを測定するための重要な指標であり、サンプルの安定性を測定するために一般的に使用されます。 | ||
ビジュアル アルゴリズム | 画像分類モデルを推論用にトレーニングします。 | |
推論用の動画分類モデルをトレーニングします。 | ||
画像内の高リスクエンティティを識別してフレーム化するオブジェクト検出モデルを構築します。 | ||
ラベル付けされていない生のイメージを直接トレーニングして、イメージ特徴抽出用のモデルを取得します。 | ||
モデル推論のためのメトリック学習モデルを構築します。 | ||
ビジネスシナリオに人物関連のキーポイント検出が含まれる場合は、このコンポーネントを使用して推論用のキーポイントモデルを構築できます。 | ||
主要なモデル量子化アルゴリズムを提供します。これを使用して、モデルを圧縮および高速化し、高パフォーマンスの推論を実現できます。 | ||
主流のモデル プルーニング アルゴリズムである AGP(taylorfo)を提供します。これを使用して、モデルを圧縮および高速化し、高パフォーマンスの推論を実現できます。 | ||
ツール | MaxCompute に格納されているデータ構造です。PAI Command フレームワークに基づく従来の機械学習アルゴリズムによって生成されたモデルは、対応する MaxCompute プロジェクトにオフラインモデル形式で格納されます。オフラインモデル関連コンポーネントを使用して、オフライン予測用のオフラインモデルを取得できます。 | |
MaxCompute でトレーニングされたモデルを指定された OSS パスにエクスポートします。 | ||
カスタム スクリプト | Alink の分類アルゴリズムを分類に、回帰アルゴリズムを回帰に、レコメンデーションアルゴリズムをレコメンデーションなどに呼び出します。 PyAlink スクリプトは、Designer の他のアルゴリズムコンポーネントとのシームレスな統合もサポートしており、ビジネストレースを構築し、その有効性を検証できます。 | |
通常の SQL スクリプトコンポーネントに加えて複数の日付ループ実行機能を追加し、特定の期間内の毎日の SQL タスクの並列実行に使用します。 | ||
ベータコンポーネント | 圧縮推定アルゴリズム。 | |
スパースデータ形式とデンスデータ形式の両方をサポートしています。このコンポーネントを使用して、ローン金額の予測、温度の予測など、数値変数を予測できます。 | ||
住宅価格予測、販売量予測、湿度予測など、数値変数を予測します。 | ||
不良設定問題の回帰分析で最も一般的に使用される正則化手法です。 |