全部產品
Search
文件中心

E-MapReduce:PySpark基礎操作

更新時間:Jul 01, 2024

PySpark是Spark提供的Python API。您可以通過PySpark提供的DataFrame介面,完成各種計算邏輯。本文為您介紹PySpark的基礎操作。

操作步驟

  1. 通過SSH方式串連叢集,詳情請參見登入叢集

  2. 執行以下命令,進入PySpark互動式環境。

    pyspark

    更多命令列參數請執行pyspark --help 查看。

  3. 初始化SparkSession。

    from pyspark.sql import SparkSession
    
    spark = SparkSession.builder.getOrCreate()
  4. 建立DataFrame。

    from datetime import datetime, date
    import pandas as pd
    from pyspark.sql import Row
    
    df = spark.createDataFrame([
        (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
        (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
        (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
    ],schema='a long, b double, c string, d date, e timestamp')

    DataFrame建立完成後,您就可以通過各種類型的transform運算元完成資料計算。

  5. 列印DataFrame和Schema。

    df.show()
    df.printSchema()