すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Designer コンポーネントの概要

最終更新日:Jul 04, 2025

推奨されるアルゴリズム コンポーネント

推奨されるアルゴリズム コンポーネントには、一般的なアルゴリズム (データ読み取りアルゴリズム、SQL スクリプト、Python スクリプトなど) と LLM データ処理アルゴリズム (LLM データ処理、LVM データ処理など)、および LLM のトレーニングと推論アルゴリズムが含まれます。 ヘテロジニアス リソースとユーザー定義環境をサポートし、より柔軟に使用できる DLC ベースのアルゴリズム コンポーネントをお勧めします。

タイプ

コンポーネント

説明

カスタム コンポーネント

カスタム コンポーネント

AI コンピューティング アセット管理でカスタム コンポーネントを作成できます。 その後、Designer の公式コンポーネントと一緒に使用します。

データ ソース/ターゲット

ファイル データの読み取り

Object Storage Service (OSS) バケットからファイルまたはディレクトリを読み取ります。

CSV ファイルの読み取り

OSS、HTTP、および HDFS から CSV ファイルを読み取ります。

テーブルの読み取り

デフォルトでは、現在のプロジェクトの MaxCompute テーブルからデータを読み取ります。

テーブルへの書き込み

アップストリーム データを MaxCompute に書き込みます。

ユーザー定義スクリプト

SQL スクリプト

エディターで SQL 文を記述し、MaxCompute に送信して実行できるカスタム SQL コンポーネントです。

Python スクリプト

依存関係を定義し、カスタム Python 関数を実行します。

ツール

データセットの登録

データセットを AI アセット管理に登録します。

モデルの登録

モデルを AI アセット管理に登録します。

EAS サービスの更新 (ベータ版)

eascmd を呼び出して、指定された EAS サービスを更新します。 更新されるサービスは、実行中状態である必要があります。 新しいサービス バージョンが毎回作成されます。

大規模モデル データの前処理

データ変換

MaxCompute テーブルを OSS にエクスポートする

MaxCompute テーブルを OSS にインポートします。

OSS データを MaxCompute テーブルにエクスポートする

OSS から MaxCompute テーブルにデータをインポートします。

LLM データ処理 (DLC)

LLM-MD5 重複除去 (DLC)

テキストの MD5 ハッシュ値を計算し、ハッシュ値に基づいてテキストの重複を除去します。

LLM-テキスト正規化 (DLC)

Unicode テキストを正規化し、繁体字中国語を簡体字中国語に変換します。

LLM-特殊コンテンツの削除 (DLC)

テキストから URL を削除します。 また、HTML 形式の文字を削除し、HTML テキストを解析することもできます。

LLM-特殊文字比率フィルター (DLC)

特殊文字の比率に基づいてサンプルをフィルタリングし、指定された比率範囲内のサンプルを保持します。

LLM-著作権情報の削除 (DLC)

テキストから著作権情報を削除します。 多くの場合、コード テキストからヘッダーの著作権コメントを削除するために使用されます。

LLM-カウント フィルター (DLC)

数字とアルファベットの比率に基づいてサンプルをフィルタリングします。

LLM-長さフィルター (DLC)

テキストの長さ、平均の長さ、最大行の長さなどに基づいてサンプルをフィルタリングします。

LLM-品質予測と言語認識-FastText (DLC)

テキストの言語を識別し、スコアを計算します。 その後、言語とスコアに基づいてサンプルをフィルタリングします。

LLM-禁止キーワード フィルター (DLC)

禁止用語を含むサンプルを除外します。

LLM-機密コンテンツ マスク (DLC)

メール アドレスを [EMAIL] に、電話番号を [TELEPHONE] または [MOBILEPHONE] に、ID カード番号を [IDNUM] に置き換えるなど、機密情報をマスクします。

LLM-ドキュメント重複除去 (DLC)

SimHash アルゴリズムを使用してテキスト間の類似度を計算し、テキストの重複除去を実現します。

LLM-N-Gram 反復フィルター (DLC)

文字レベルまたは単語レベルの N-Gram 反復率が指定された範囲内にあるサンプルを保持します。

LLM-LaTeX マクロ展開 (DLC)

TEX ドキュメント形式のデータに使用されます。 パラメーターのないすべてのマクロに対してインライン展開を実行します。 マクロが文字と数字で構成され、パラメーターがない場合、マクロ名はマクロ値に置き換えられます。

LLM-LaTeX 参考文献の削除 (DLC)

TEX ドキュメント形式のデータに使用されます。 LaTeX 形式のテキストの末尾にある参考文献を削除します。

LLM-LaTeX コメントの削除 (DLC)

TEX ドキュメント形式のデータに使用されます。 LaTeX 形式のテキストのコメント行とインライン コメントを削除します。

LLM-LaTeX ヘッダーの削除 (DLC)

TEX ドキュメント形式のデータに使用されます。 <section-type>[optional-args]{name} chapter 形式に一致する最初の文字列を検索し、その前のすべてのコンテンツを削除します。 最初に一致した章の後のすべてのコンテンツ (章のタイトルを含む) は保持されます。

LLM データ処理 (MaxCompute)

LLM-MD5 重複除去 (MaxCompute)

LLM のテキスト データの前処理に使用されます。 テキストの MD5 ハッシュ値を計算し、ハッシュ値に基づいてテキストの重複を除去します。

LLM-テキスト正規化 (MaxCompute)

LLM のテキスト データの前処理に使用されます。 Unicode テキストを正規化し、繁体字中国語を簡体字中国語に変換します。

LLM-特殊コンテンツの削除 (MaxCompute)

LLM のテキスト データの前処理に使用されます。 ナビゲーション情報、作成者情報、記事ソース情報、URL リンク、不可視文字などの特殊コンテンツをテキストから削除し、HTML 形式の文字を削除して HTML テキストを解析します。

LLM-特殊文字比率フィルター (MaxCompute)

LLM のテキスト データの前処理に使用されます。 特殊文字の比率に基づいてサンプルをフィルタリングし、特殊文字のテキスト全体の長さに対する比率が指定された範囲内にあるサンプルを保持します。

LLM-著作権情報の削除 (MaxCompute)

LLM のテキスト データの前処理に使用されます。 テキストから著作権情報を削除します。 多くの場合、コード テキストからヘッダーの著作権コメントを削除するために使用されます。

LLM-カウント フィルター (MaxCompute)

LLM のテキスト データの前処理に使用されます。 文字、数字、および区切り文字の数に基づいてサンプルをフィルタリングします。

LLM-長さフィルター (MaxCompute)

LLM のテキスト データの前処理に使用されます。 テキストの長さ、平均の長さ、最大行の長さなどに基づいてサンプルをフィルタリングします。 平均の長さと最大行の長さのフィルタリングでは、デフォルトで統計を計算する前にテキストが行ごとに分割されます。

LLM-テキスト品質予測と言語識別-FastText (MaxCompute)

LLM のテキスト データの前処理に使用されます。 テキストの言語を識別し、スコアを計算します。 言語とスコアに基づいてサンプルをフィルタリングできます。

LLM-禁止キーワード フィルター (MaxCompute)

LLM のテキスト データの前処理に使用されます。 禁止用語を含むサンプルを除外します。

LLM-機密コンテンツ マスク (MaxCompute)

LLM のテキスト データの前処理に使用されます。 メール アドレスを [EMAIL] に、電話番号を [TELEPHONE] または [MOBILEPHONE] に、ID カード番号を [IDNUM] に置き換えるなど、機密情報をマスクします。

LLM-文重複除去

LLM のテキスト データの前処理に使用されます。 記事内の文の重複を除去します。

LLM-N-Gram 反復フィルター (MaxCompute)

LLM のテキスト データの前処理に使用されます。 文字レベルまたは単語レベルの N-Gram 反復率が指定された範囲内にあるサンプルを保持します。

LLM-LaTeX マクロ展開 (MaxCompute)

LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 パラメーターのないすべてのマクロに対してインライン展開を実行します。 マクロが文字と数字で構成され、パラメーターがない場合、マクロ名はマクロ値に置き換えられます。

LLM-LaTeX 参考文献の削除 (MaxCompute)

LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 LaTeX 形式のテキストの末尾にある参考文献を削除します。

LLM-LaTeX コメントの削除 (MaxCompute)

LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 LaTeX 形式のテキストのコメント行とインライン コメントを削除します。

LLM-LaTeX ヘッダーの削除 (MaxCompute)

LLM のテキスト データの前処理に使用され、TEX ドキュメント形式のデータに適しています。 <section-type>[optional-args]{name} chapter 形式に一致する最初の文字列を検索し、その前のすべてのコンテンツを削除します。 最初に一致した章の後のすべてのコンテンツ (章のタイトルを含む) は保持されます。

LVM データ処理 (DLC)

ビデオデータの前処理

LVM-テキスト比率フィルター (DLC)

テキストが多すぎるビデオデータをフィルタリングします。 特にビデオ編集やコンテンツ モデレーションのシナリオに適しており、ユーザーはテキストが多すぎるビデオセグメントを自動的に識別して処理できるため、作業効率が向上します。

LVM-モーション フィルター (DLC)

モーションが速すぎる、または遅すぎるビデオデータをフィルタリングします。

LVM-美的フィルター (DLC)

美的スコアの低いビデオデータをフィルタリングします。

LVM-アスペクト比フィルター (DLC)

アスペクト比が大きすぎる、または小さすぎるビデオデータをフィルタリングします。

LVM-再生時間フィルター (DLC)

再生時間が長すぎる、または短すぎるビデオデータをフィルタリングします。

LVM-テキストフレーム類似度フィルター (DLC)

類似度スコアの低いビデオデータをフィルタリングします。

LVM-NSFW フィルター (DLC)

NSFW スコアの高いビデオデータをフィルタリングします。

LVM-解像度フィルター (DLC)

解像度が高すぎる、または低すぎるビデオデータをフィルタリングします。

LVM-ウォーターマーク フィルター (DLC)

ウォーターマーク付きのビデオデータをフィルタリングします。

LVM-タグ フィルター (DLC)

指定されたタグと一致しないビデオデータをフィルタリングします。

LVM-タグ マッパー (DLC)

ビデオフレームのタグを計算します。

LVM-キャプションフレーム マッパー (DLC)

ビデオのテキストを生成します。

LVM-キャプションビデオ マッパー (DLC)

ビデオのテキストを生成します。

画像データの前処理

LVM-画像美的フィルター (DLC)

美的スコアの低い画像データをフィルタリングします。

LVM-画像アスペクト比フィルター (DLC)

アスペクト比が大きすぎる、または小さすぎる画像データをフィルタリングします。

LVM-画像顔比率フィルター (DLC)

顔の比率が大きすぎる、または小さすぎる画像データをフィルタリングします。

LVM-画像 NSFW フィルター (DLC)

NSFW スコアの高い画像データをフィルタリングします。

LVM-画像形状フィルター (DLC)

解像度が高すぎる、または低すぎる画像データをフィルタリングします。

LVM-画像サイズ フィルター (DLC)

大きすぎる、または小さすぎる画像データをフィルタリングします。

LVM-画像テキストマッチング フィルター (DLC)

テキストと画像のマッチ スコアが低い画像データをフィルタリングします。

LVM-画像テキスト類似度フィルター (DLC)

テキストと画像の類似度スコアの低い画像データをフィルタリングします。

LVM-画像ウォーターマーク フィルター (DLC)

ウォーターマーク付きの画像データをフィルタリングします。

LVM-画像キャプション マッパー (DLC)

入力画像の自然言語による説明を生成します。

大規模モデルのトレーニングと推論

LLM モデル トレーニング

PAI-Model Gallery の一部の LLM をサポートしています。

LLM モデル推論

PAI-Model Gallery の一部の LLM をサポートし、オンライン推論をオフライン推論に変換します。

PAI BERT モデル推論

BERT モデルのオフライン推論に使用され、トレーニング済みの BERT 分類モデルを利用して入力テーブルのテキストを分類します。

従来のアルゴリズム コンポーネント

重要

従来のアルゴリズムコンポーネントは、長い間更新されていない初期に開発されたアルゴリズムです。 安定性は保証できません。 本番環境で使用する必要がある場合は、まず適用性を評価してください。 すでに本番環境で使用されている場合は、できるだけ早く推奨コンポーネントに置き換えてください。

タイプ

コンポーネント

説明

データ前処理

ランダムサンプリング

指定された割合または数に従って、入力に対してランダムな独立サンプリングを実行します。

重み付きサンプリング

重み付けされた列の値に基づいてサンプリングデータを生成します。

フィルタリングとマッピング

式に基づいてデータをフィルタリングし、出力フィールド名を変更できます。

層化サンプリング

グループ化列が指定されている場合、入力データをこれらの列の異なる値に基づいて異なるグループに分割し、各グループ内で個別にランダムサンプリングを実行します。

結合

テーブルの列を関連付けることで 2 つのテーブルをマージし、出力フィールドを決定します。SQL の JOIN 文のように機能します。

列をマージする

列に基づいて 2 つのテーブルをマージします。 2 つのテーブルの行数は同じである必要があります。そうでない場合は、エラーが発生します。 2 つのテーブルのいずれか一方にのみパーティションがある場合、パーティションテーブルは 2 番目の入力ポートに接続する必要があります。

行のマージ (UNION)

2 つのテーブルを行単位でマージします。左右のテーブルから選択された出力フィールドの数とデータ型は同じである必要があります。このコンポーネントは、UNION と UNION ALL の機能を統合しています。

データ型変換

任意のデータ型のフィーチャーを STRING、DOUBLE、および INT フィーチャーに変換し、変換例外が発生した場合の欠損値の補完をサポートします。

ID 列を追加

データテーブルの最初の列に ID 列を追加します。

分割

トレーニング データセットとテスト データセットを生成するためにデータをランダムに分割します。

欠損データ補完

データセットの欠損データを処理します。このコンポーネントのパラメーターは、コンソールまたは PAI コマンドで設定できます。

正規化

密データまたは疎データを正規化します。

標準化

コンソールで、または PAI コマンドを実行することで、標準化されたインスタンスを生成します。

KV からテーブルへの変換

KV(Key:Value)形式のテーブルを標準のテーブル形式に変換します。

テーブルから KV へ

コンソールで、または PAI コマンドを実行することで、標準テーブルを KV(Key:Value)形式のテーブルに変換します。

特徴量エンジニアリング

特徴量の重要度に基づくフィルタリング

線形特徴量の重要度、GBDT 特徴量の重要度、ランダムフォレスト特徴量の重要度などのコンポーネントにフィルタリング機能を提供し、TopN 特徴量のフィルタリングをサポートします。

主成分分析 (PCA)

少数の主成分によって複数の変数間の内部構造をどのように明らかにするかを研究する多変量統計手法であり、複数の変数間の相関関係を調べます。

特徴量のスケーリング

密または疎フォーマットの数値特徴量に対して、一般的なスケーリング変換を実行します。

特徴量の離散化

特定のルールに基づいて連続特徴量を離散化します。

特徴量のソフトニング

入力特徴量に含まれる異常データを特定の間隔に平滑化します。スパースデータ形式とデンスデータ形式の両方がサポートされています。

特異値分解 (SVD)

線形代数における重要な行列分解であり、行列解析における正規行列の対角化の一般化です。

異常検出

連続値特徴量と列挙型特徴量を持つデータを検出します。データ内の異常点を特定するのに役立ちます。

線形モデル特徴量の重要度

線形回帰と二項ロジスティック回帰を含み、スパース データ形式とデンス データ形式の両方をサポートします。

個別特徴分析

離散特徴の分布を分析します。

ランダムフォレスト特徴量の重要度評価

特徴量の重要度を計算します。

特徴量選択 (フィルター メソッド)

使用するさまざまな特徴量選択メソッドに基づいて、すべてのスパースまたはデンス フォーマットの特徴量データから上位 N 個の特徴量データを選択してフィルター処理します。

特徴量エンコーディング

GBDT を使用して、非線形特徴量を線形特徴量にエンコードします。

ワンホットエンコーディング

データをスパースデータに変換し、出力結果もスパースなキーと値の構造になります。

統計分析

データピボット

特徴とラベル列の分布、および特徴の特性を視覚的に理解するのに役立ち、後続のデータ分析を容易にします。

共分散

2 つの変数の同時変動性を測定します。

経験的確率密度チャート

経験分布とカーネル密度推定アルゴリズムを使用して、サンプルデータの確率密度を推定します。

テーブル全体の統計

テーブルのデータ、または選択した列のみの統計情報を収集します。

カイ二乗適合度検定

変数がカテゴリ変数であるシナリオで使用されます。単一の多項カテゴリ変数の分類全体で、実際に観測された度数と理論上の度数が一致するかどうかを検定することを目的としています。帰無仮説は、観測度数と理論度数の間に差がないというものです。

箱ひげ図

箱ひげ図は、データセットの分散を表示するために使用される統計グラフです。主に元のデータの分布特性を反映するために使用され、複数のデータセットの分布特性を比較するためにも使用できます。

散布図

回帰分析では、散布図はデカルト座標系におけるデータポイントの分布を示します。

相関係数マトリックス

相関係数アルゴリズムは、マトリックス内の各列間の相関係数を計算するために使用され、値の範囲は [-1,1] です。システムが計算する場合、カウントは 2 つの列間で同時に空でない要素の数に基づいており、これは列のペアによって異なる場合があります。

二標本 t 検定

統計的原理に基づいて、2 つの標本の平均値に有意差があるかどうかを検定します。

1 標本 t 検定

変数の全体の平均と指定された値の間に有意差があるかどうかを検定します。検定される標本は、全体として正規分布に従う必要があります。

正規性検定

観測値を使用して、母集団が正規分布に従っているかどうかを判断します。統計的意志決定における適合度検定の重要な特殊なタイプです。

ローレンツ曲線

国または地域の所得分布を確認するのに役立ちます。

パーセンタイル

データテーブルの列データのパーセンタイルを計算するために使用される統計用語です。

ピアソン係数

2 つの変数の間の線形相関を測定する線形相関係数。

ヒストグラム

質量分布図とも呼ばれ、さまざまな高さの連続した縦棒または線分を使用してデータ分布を表す統計レポートグラフです。

機械学習

予測

トレーニング済みモデルと予測データを入力として使用し、予測結果を出力として生成します。

XGboost Train

ブースティングアルゴリズムに基づく拡張および改良版であり、使いやすさと堅牢性が向上しています。さまざまな機械学習 本番システムおよび競技分野で広く使用されています。現在は、分類と回帰をサポートしています。

XGboost 予測

ブースティングアルゴリズムに基づく拡張および改良版であり、使いやすさと堅牢性が向上しています。さまざまな機械学習 本番システム および競技分野で広く使用されています。現在、分類と回帰をサポートしています。

線形 SVM

統計的学習理論に基づく機械学習手法です。構造的リスク最小化を追求することで学習マシンの汎化能力を向上させ、それによって経験的リスクと信頼区間 の最小化を実現します。

バイナリ分類用のロジスティック回帰

スパース データ形式とデンス データ形式の両方をサポートするバイナリ分類アルゴリズムです。

GBDT バイナリ分類

このコンポーネントは、しきい値を設定することで機能します。特徴量の値がしきい値より大きい場合は、正のサンプルとして分類されます。それ以外の場合は、負のサンプルとして分類されます。

PS-SMART バイナリ分類トレーニング

パラメーターサーバー PS (Parameter Server) は、大規模なオフラインおよびオンラインのトレーニングタスクの解決に特化しています。SMART (Scalable Multiple Additive Regression Tree) は、PS に基づいて GBDT (Gradient Boosting Decision Tree) によって実装された反復アルゴリズムです。

2 値分類のための PS ロジスティック回帰

広告や検索のシナリオで広く使用されている、従来の 2 値分類アルゴリズムです。

PS-SMART マルチクラス分類

パラメーターサーバー PS は、大規模なオフラインおよびオンラインのトレーニングタスクの解決に特化しています。SMART は、GBDT 用に PS に基づいて実装された反復アルゴリズムです。

K近傍法

予測テーブルのデータの各行について、トレーニング テーブルから距離が最も近い K レコードを選択し、これらの K レコードの中で最も多くのカテゴリを持つクラスをその行のクラスとして使用します。

多クラス分類のためのロジスティック回帰

バイナリ分類アルゴリズムです。PAI が提供するロジスティック回帰は、多クラス分類と、スパース データ形式とデンス データ形式の両方をサポートしています。

ランダムフォレスト

複数の決定木で構成される分類器です。分類結果は、個々の木の出力クラスのモードによって決定されます。

単純ベイズ

独立性を仮定したベイズの定理に基づく確率的分類アルゴリズムです。

K 平均法クラスタリング

各クラスタの初期クラスタリングセンターとして K 個のオブジェクトをランダムに選択し、残りのオブジェクトと各クラスタセンター間の距離を計算し、最も近いクラスタに割り当て、各クラスタのクラスタリングセンターを再計算します。

DBSCAN

クラスタリング モデルを構築します。

GMM トレーニング

モデル分類を実装します。

DBSCAN 予測

DBSCAN トレーニングモデルに基づいて、新しいポイントデータが属するクラスターを予測します。

GMM 予測

トレーニング済みのガウス混合モデルに基づいてクラスタリング予測を実行します。

GBDT 回帰

反復決定木アルゴリズム。線形および非線形回帰シナリオに適しています。

線形回帰

従属変数と複数の独立変数間の線形関係を分析するモデルです。

PS-SMART 回帰

大規模なオフラインおよびオンラインのトレーニング タスクを解決します。SMART は、GBDT 向けに PS に基づいて実装された反復アルゴリズムです。

PS 線形回帰

従属変数と複数の独立変数間の線形関係を分析するモデル。PS は、大規模なオフラインおよびオンラインのトレーニング タスクの解決に特化しています。

バイナリ分類の評価

AUC、KS、および F1 Score メトリックを計算して、KS 曲線、PR 曲線、ROC 曲線、LIFT チャート、およびゲインチャートを生成します。

回帰モデル評価

予測結果と元の結果に基づいて回帰アルゴリズム モデルの品質を評価し、評価メトリックと残差ヒストグラムを出力します。

クラスタリングモデル評価

元のデータとクラスタリング結果に基づいてクラスタリングモデルの品質を評価し、評価メトリックを出力します。

混同行列

教師あり学習に適しており、教師なし学習では一致行列に相当します。

多クラス分類の評価

分類モデルの予測結果と元の結果に基づいて、多クラス分類アルゴリズムモデルの長所と短所を評価し、評価メトリック(Accuracy、Kappa、F1-Score など)を出力します。

ディープ ラーニング

ディープ ラーニングを有効にする

PAI は、ディープ ラーニング フレームワークをサポートしています。これらのフレームワークとハードウェア リソースを使用して、ディープ ラーニング アルゴリズムを実装できます。

時系列

x13_arima

オープンソースの X-13ARIMA-SEATS パッケージに基づく季節調整用の ARIMA アルゴリズム。

x13_auto_arima

Gomez 氏と Maravall 氏 (1998) によるプログラムをベースとした、TRAMO (1996) およびその後の改訂版に実装されている自動 ARIMA モデル選択プログラムが含まれています。

Prophet

MTable データの各行に対して Prophet 時系列予測を実行し、次の期間の予測結果を提供します。

MTable アセンブラ

グループ化列に基づいてテーブルを MTable に集約します。

MTable Expander

MTable をテーブルに展開します。

推奨

FM アルゴリズム

FM(Factorization Machine)アルゴリズムは、特徴間の相互作用を考慮します。これは、eコマース、広告、ライブストリーミングの推奨シナリオに適した非線形モデルです。

ALS 行列分解

Alternating Least Squares(ALS)アルゴリズムは、スパース行列に対してモデル分解を実行し、欠損項目の値を評価し、基本的なトレーニングモデルを取得します。

スイングトレイン

アイテム想起アルゴリズム。ユーザーアイテムユーザー原則に基づいてアイテムの類似性を測定するために使用できます。

Swing レコメンデーション

Swing のバッチ処理予測コンポーネントです。Swing 訓練モデルと予測データに基づいてオフライン予測を実行するために使用できます。

協調フィルタリング (etrec)

etrec は、アイテム ベースの協調フィルタリングアルゴリズムであり、2 つの列を入力として受け取り、アイテム 間の TopN 類似度を出力します。

ベクターベースのリコール評価

リコールのヒット率の結果を計算します。ヒット率は結果の品質の評価として機能し、ヒット率が高いほど、トレーニングによって生成されたベクターがより正確なリコール結果を達成していることを示します。

外れ値検出

LOF 外れ値

データサンプルの Local Outlier Factor (LOF) 値に基づいて、サンプルが異常かどうかを判断します。

iForest Outlier を使用して異常を検出する

サブサンプリングアルゴリズムを使用することで、アルゴリズムの計算の複雑さを軽減します。 データ内の異常点を特定でき、異常検出の分野で大きなアプリケーション効果があります。

One-Class SVM 外れ値

従来の SVM とは異なり、教師なし学習アルゴリズムです。境界を学習することで、異常点を予測するために使用できます。

自然言語処理

テキスト要約予測

冗長で反復的なテキストシーケンスから重要な情報を抽出、絞り込み、または要約します。ニュースの見出し要約は、テキスト要約の特殊なケースです。指定された事前学習済みモデルを呼び出してニューステキストを予測し、ニュースの見出しを生成するために使用できます。

機械読解予測

生成された機械読解トレーニング モデルを使用してオフライン予測を実行します。

テキスト要約

冗長で反復的なテキストシーケンスから重要な情報を抽出、絞り込み、または要約します。ニュースの見出しの要約は、テキスト要約の特殊なケースです。ニュース記事の中心となるアイデアと重要な情報を要約したニュースの見出しを生成するモデルのトレーニングに使用できます。

機械読解トレーニング

指定されたドキュメントに基づいて質問をすばやく理解して回答する機械読解モデルをトレーニングします。

ワード分割

AliWS (Alibaba Word Segmenter) 語彙分析システムに基づいています。指定された列の内容に対してワード分割を実行し、分割後に各ワードをスペースで区切ります。

行、列、値を KV ペアに変換する

トライアドテーブル (行、列、値) を KV テーブル (行、[列 ID:値]) に変換します。

文字列類似度

機械学習分野における基本的な操作であり、主に情報検索、自然言語処理、バイオインフォマティクスで使用されます。

文字列類似度 - 上位 N 件

文字列の類似度を計算し、上位 N 件の類似データを除外します。

非推奨のワードフィルター

テキスト分析における前処理手法であり、単語分割結果のノイズ (「of」、「is」、「ah」など) を除去するために使用されます。

N-gram カウント

言語モデルのトレーニング手順の 1 つです。単語に基づいて N-gram を生成し、コーパス全体で対応する N-gram の数をカウントします。

テキスト要約

ドキュメントの中心となる考えを包括的かつ正確に反映できる、簡潔でまとまりのある短いテキスト。自動テキスト要約は、コンピューターを使用して元のドキュメントから要約コンテンツを自動的に抽出します。

キーワード抽出

自然言語処理における重要な技術であり、具体的には、テキストから記事の意味と強い関連性を持つ単語を抽出することを指します。

文分割

句読点に基づいてテキストを文に分割します。主にテキスト要約前の前処理に使用され、テキストの段落を各文が別々の行に表示されるフォーマットに変換します。

セマンティックベクター距離

Word2Vec によって生成された単語埋め込みなどのアルゴリズムからのセマンティックベクター結果に基づいて、特定のベクトルに最も近い距離を持つベクトルのセットを見つけることによって、指定された単語(または文)の拡張単語(または拡張文)を計算します。1 つのアプリケーションは、入力単語に基づいて、Word2Vec によって生成された単語埋め込みに基づいて、最も類似した単語のリストを返すことです。

Doc2Vec

記事をベクターにマッピングします。入力は語彙です。出力はドキュメント ベクター テーブル、単語ベクター テーブル、または語彙です。

条件付き確率場

指定された入力ランダム変数のグループを条件として、出力ランダム変数のグループにおける確率分布モデルです。その特性は、出力ランダム変数がマルコフ確率場を構成すると仮定することです。

ドキュメント類似度

文字列の類似度に基づいて、単語に基づいて記事または文のペア間の類似度を計算します。

PMI

複数記事内のすべての単語の共起をカウントし、各ペア間の PMI(点相互情報量)を計算します。

条件付き確率場予測

線形 CRF オンライン予測モデルに基づくアルゴリズムコンポーネントであり、主にシーケンスラベリング問題の処理に使用されます。

単語分割 (モデル生成)

AliWS に基づいて開発され、パラメーターとカスタム辞書に基づいて単語分割モデルを生成します。

単語出現頻度統計

入力文字列 (手動入力または指定されたファイルから読み取り) に基づいて、プログラムを使用して、これらの文字列内の単語の総数と各単語の出現回数をカウントします。

TF-IDF

情報検索とテキストマイニングで一般的に使用される重み付け手法です。通常、検索エンジンに適用され、ドキュメントとユーザー クエリとの関連性の尺度または評価として使用できます。

PLDA

各ドキュメントから異なるトピックを抽出するために、PLDA コンポーネントのトピック パラメーターを設定します。

Word2Vec

ニューラルネットワークを使用して、トレーニングを通じて単語を K 次元空間のベクトルにマッピングし、セマンティクスに対応しながら単語を表すベクトルに対する操作をサポートします。入力は単語列または語彙であり、出力は単語ベクトルテーブルと語彙です。

ネットワーク分析

ツリーの深さ

各ノードの深さとツリー ID を出力します。

Kコア

指定されたコア次数を満たす、グラフ内で密接に関連付けられたサブグラフ構造を見つけます。ノードのコア番号の最大値は、グラフのコア番号と呼ばれます。

単一始点最短経路

ダイクストラアルゴリズムを使用して、特定のノードと他のすべてのノード間の最短経路を生成します。

ページランク

Web 検索ランキングから派生したもので、Web ページのリンク構造を使用して各 Web ページのランキングを計算します。

ラベル伝播クラスタリング

グラフベースの半教師あり学習手法です。その基本原理は、ノードのラベル(コミュニティ)が隣接ノードのラベル情報に依存し、影響度はノードの類似性によって決まり、伝播と反復更新によって安定性が実現されることです。

ラベル伝搬分類

ラベル付きノードのラベル情報を使用して、ラベルなしノードのラベル情報を予測する半教師あり分類アルゴリズムです。

モジュール性

コミュニティネットワーク構造を評価するために使用されるメトリックです。ネットワーク構造内で分割されたコミュニティの凝集性を評価します。一般的に、0.3 を超える値は、比較的明確なコミュニティ構造を示します。

最大連結部分グラフ

無向グラフ G において、頂点 A から頂点 B に接続するパスが存在する場合、A と B は接続されていると言います。グラフ G には、いくつかのサブグラフが存在します。各サブグラフ内のすべての頂点が接続されているが、異なるサブグラフ間の頂点は接続されていない場合、グラフ G のこれらのサブグラフは最大連結サブグラフと呼ばれます。

頂点クラスタ係数

無向グラフ G 内の各ノード周辺の密度を計算します。スター型ネットワークの密度は 0 で、完全接続型ネットワークの密度は 1 です。

エッジ クラスタリング係数

無向グラフ G の各エッジ周辺の密度を計算します。

三角形の数を数える

無向グラフ G 内のすべての三角形を出力します。

財務

データ変換モジュール

データに対して正規化、離散化、インデックス作成、または WOE 変換を実行します。

スコアカードトレーニング

信用リスク評価分野で一般的に使用されるモデリングツールです。入力値をビニングして元の変数を離散化し、線形モデル(ロジスティック回帰や線形回帰など)を使用してモデル学習を行います。特徴量選択やスコア変換などの機能が含まれています。

スコアカード予測

スコアカードトレーニングコンポーネントによって生成されたモデル結果に基づいて、生データのスコアを付けます。

ビニング

特徴量の離散化を実行します。これは、連続データを複数の離散的な間隔にセグメント化します。等頻度ビニング、等幅ビニング、および自動ビニングをサポートしています。

母集団安定性指標

サンプルの変化によって引き起こされるずれを測定するための重要な指標であり、サンプルの安定性を測定するために一般的に使用されます。

ビジュアル アルゴリズム

画像分類 (torch)

画像分類モデルを推論用にトレーニングします。

動画分類

推論用の動画分類モデルをトレーニングします。

オブジェクト検出 (easycv)

画像内の高リスクエンティティを識別してフレーム化するオブジェクト検出モデルを構築します。

画像の自己教師あり学習

ラベル付けされていない生のイメージを直接トレーニングして、イメージ特徴抽出用のモデルを取得します。

画像メトリック学習 (raw)

モデル推論のためのメトリック学習モデルを構築します。

ポーズ検出

ビジネスシナリオに人物関連のキーポイント検出が含まれる場合は、このコンポーネントを使用して推論用のキーポイントモデルを構築できます。

モデル量子化

主要なモデル量子化アルゴリズムを提供します。これを使用して、モデルを圧縮および高速化し、高パフォーマンスの推論を実現できます。

モデル プルーニング

主流のモデル プルーニング アルゴリズムである AGP(taylorfo)を提供します。これを使用して、モデルを圧縮および高速化し、高パフォーマンスの推論を実現できます。

ツール

OfflineModel コンポーネント

MaxCompute に格納されているデータ構造です。PAI Command フレームワークに基づく従来の機械学習アルゴリズムによって生成されたモデルは、対応する MaxCompute プロジェクトにオフラインモデル形式で格納されます。オフラインモデル関連コンポーネントを使用して、オフライン予測用のオフラインモデルを取得できます。

モデルのエクスポート

MaxCompute でトレーニングされたモデルを指定された OSS パスにエクスポートします。

カスタム スクリプト

PyAlink スクリプト

Alink の分類アルゴリズムを分類に、回帰アルゴリズムを回帰に、レコメンデーションアルゴリズムをレコメンデーションなどに呼び出します。 PyAlink スクリプトは、Designer の他のアルゴリズムコンポーネントとのシームレスな統合もサポートしており、ビジネストレースを構築し、その有効性を検証できます。

Time Window SQL

通常の SQL スクリプトコンポーネントに加えて複数の日付ループ実行機能を追加し、特定の期間内の毎日の SQL タスクの並列実行に使用します。

ベータコンポーネント

ラッソ回帰トレーニング

圧縮推定アルゴリズム。

ラッソ回帰予測

スパースデータ形式とデンスデータ形式の両方をサポートしています。このコンポーネントを使用して、ローン金額の予測、温度の予測など、数値変数を予測できます。

リッジ回帰予測

住宅価格予測、販売量予測、湿度予測など、数値変数を予測します。

リッジ回帰トレーニング

不良設定問題の回帰分析で最も一般的に使用される正則化手法です。