認証情報なしでパブリックデータセットテーブルをオフライン同期 - DataWorks

DataWorks は、すぐに使用できる組み込みのパブリックデータセットのデータソースを提供します。これにより、設定不要で単一テーブルのオフラインデータ同期を迅速にテストできます。このトピックでは、DataWorks がパブリックデータセットに対してサポートするデータ同期機能について説明します。

サポートされるデータセットとリージョン

サポートされているパブリックデータセットのリストとその詳細については、DataWorks Gallery の Alibaba Cloud Marketplace Datasets カテゴリをご参照ください。同期タスクでデータセットを使用する前に、そのデータセットをサブスクライブする必要があります。
パブリックデータセットのデータソースは、次のリージョンで利用できます：
中国 (北京)、中国 (上海)、中国 (杭州)、中国 (深セン)、中国 (張家口)、中国 (成都)、中国 (ウランチャブ)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、および米国 (バージニア)。

データ同期タスクの開発

データ同期タスクの構成エントリポイントと一般的な構成プロセスについては、以下のガイドをご参照ください。

単一テーブルのオフライン同期タスクの構成

手順については、「コードレス UI での設定」および「コードエディタでの設定」をご参照ください。
コードエディタでタスクを構成するためのすべてのパラメーターとスクリプトデモについては、「付録：スクリプトデモとパラメーターの説明」をご参照ください。

付録：スクリプトデモとパラメーターの説明

オフラインタスクスクリプトの構成

コードエディタを使用してオフラインタスクを構成する場合、スクリプト内のパラメーターを標準フォーマットで記述する必要があります。詳細については、「コードエディタでの設定」をご参照ください。次のセクションでは、コードエディタ用のデータソースパラメーターについて説明します。

Reader スクリプトデモ

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "public_dataset",
            "parameter": {
                "datasource": "Curated Book Dataset",
                "column": [
                    "bookid",
                    "title",
                    "authors",
                    "average_rating",
                    "isbn",
                    "isbn13",
                    "language_code",
                    "__num_pages",
                    "ratings_count",
                    "text_reviews_count",
                    "publication_date",
                    "publisher"
                ],
                "table": "good_reads_books"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "stream",
            "parameter": {
                "print": true
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "locale": "zh_CN",
        "speed": {
            "concurrent": 2,
            "throttle": false
        }
    }
}

Reader スクリプトのパラメーター

パラメーター	説明	必須	デフォルト値
datasource	パブリックデータセットの名前。例：Curated Book Dataset。	はい	なし
table	同期するテーブルの名前。テーブル名はデータセットの詳細で確認します。	はい	なし
column	パブリックデータセットのテーブルから読み取るフィールド。フィールドはカンマで区切ります。例："column": ["id", "name", "age"]。	はい	なし