すべてのプロダクト
Search
ドキュメントセンター

DataWorks:パブリックデータセットのデータソース

最終更新日:Dec 09, 2025

DataWorks は、すぐに使用できる組み込みのパブリックデータセットのデータソースを提供します。これにより、設定不要で単一テーブルのオフラインデータ同期を迅速にテストできます。このトピックでは、DataWorks がパブリックデータセットに対してサポートするデータ同期機能について説明します。

サポートされるデータセットとリージョン

  • サポートされているパブリックデータセットのリストとその詳細については、DataWorks GalleryAlibaba Cloud Marketplace Datasets カテゴリをご参照ください。同期タスクでデータセットを使用する前に、そのデータセットをサブスクライブする必要があります。

  • パブリックデータセットのデータソースは、次のリージョンで利用できます:

    中国 (北京)、中国 (上海)、中国 (杭州)、中国 (深セン)、中国 (張家口)、中国 (成都)、中国 (ウランチャブ)、中国 (香港)、日本 (東京)、シンガポール、マレーシア (クアラルンプール)、インドネシア (ジャカルタ)、ドイツ (フランクフルト)、イギリス (ロンドン)、米国 (シリコンバレー)、および米国 (バージニア)。

データ同期タスクの開発

データ同期タスクの構成エントリポイントと一般的な構成プロセスについては、以下のガイドをご参照ください。

単一テーブルのオフライン同期タスクの構成

付録:スクリプトデモとパラメーターの説明

オフラインタスクスクリプトの構成

コードエディタを使用してオフラインタスクを構成する場合、スクリプト内のパラメーターを標準フォーマットで記述する必要があります。詳細については、「コードエディタでの設定」をご参照ください。次のセクションでは、コードエディタ用のデータソースパラメーターについて説明します。

Reader スクリプトデモ

{
    "type": "job",
    "version": "2.0",
    "steps": [
        {
            "stepType": "public_dataset",
            "parameter": {
                "datasource": "Curated Book Dataset",
                "column": [
                    "bookid",
                    "title",
                    "authors",
                    "average_rating",
                    "isbn",
                    "isbn13",
                    "language_code",
                    "__num_pages",
                    "ratings_count",
                    "text_reviews_count",
                    "publication_date",
                    "publisher"
                ],
                "table": "good_reads_books"
            },
            "name": "Reader",
            "category": "reader"
        },
        {
            "stepType": "stream",
            "parameter": {
                "print": true
            },
            "name": "Writer",
            "category": "writer"
        }
    ],
    "setting": {
        "errorLimit": {
            "record": "0"
        },
        "locale": "zh_CN",
        "speed": {
            "concurrent": 2,
            "throttle": false
        }
    }
}

Reader スクリプトのパラメーター

パラメーター

説明

必須

デフォルト値

datasource

パブリックデータセットの名前。例:Curated Book Dataset。

はい

なし

table

同期するテーブルの名前。テーブル名はデータセットの詳細で確認します。

はい

なし

column

パブリックデータセットのテーブルから読み取るフィールド。フィールドはカンマで区切ります。例:"column": ["id", "name", "age"]

はい

なし