Contoh Spark 1.x - MaxCompute

Topik ini menjelaskan cara mengonfigurasi dependensi Spark 1.x dan menyediakan beberapa contoh.

Konfigurasikan dependensi untuk Spark 1.x

Untuk mengirimkan aplikasi Spark 1.x menggunakan Spark di MaxCompute, tambahkan dependensi berikut ke file pom.xml.

<properties>
    <spark.version>1.6.3</spark.version>
    <cupid.sdk.version>3.3.3-public</cupid.sdk.version>
    <scala.version>2.10.4</scala.version>
    <scala.binary.version>2.10</scala.binary.version>
</properties>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_${scala.binary.version}</artifactId>
    <version>${spark.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_${scala.binary.version}</artifactId>
    <version>${spark.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-mllib_${scala.binary.version}</artifactId>
    <version>${spark.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_${scala.binary.version}</artifactId>
    <version>${spark.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>com.aliyun.odps</groupId>
    <artifactId>cupid-sdk</artifactId>
    <version>${cupid.sdk.version}</version>
    <scope>provided</scope>
</dependency>
<dependency>
    <groupId>com.aliyun.odps</groupId>
    <artifactId>hadoop-fs-oss</artifactId>
    <version>${cupid.sdk.version}</version>
</dependency>
<dependency>
    <groupId>com.aliyun.odps</groupId>
    <artifactId>odps-spark-datasource_${scala.binary.version}</artifactId>
    <version>${cupid.sdk.version}</version>
</dependency>
<dependency>
    <groupId>org.scala-lang</groupId>
    <artifactId>scala-library</artifactId>
    <version>${scala.version}</version>
</dependency>
<dependency>
    <groupId>org.scala-lang</groupId>
    <artifactId>scala-actors</artifactId>
    <version>${scala.version}</version>
</dependency>

Dalam kode sebelumnya, atur parameter scope sesuai dengan instruksi berikut:

Atur menjadi provided untuk semua paket yang dirilis di komunitas Apache Spark, seperti spark-core dan spark-sql.
Atur menjadi compile untuk modul odps-spark-datasource.

Contoh WordCount (Scala)

Kode Sampel
WordCount.scala

Cara Mengirimkan

cd /path/to/MaxCompute-Spark/spark-1.x
mvn clean package

# Untuk informasi lebih lanjut tentang cara mengonfigurasi variabel lingkungan dalam file spark-defaults.conf, lihat Set up a Spark on MaxCompute development environment. 
cd $SPARK_HOME
bin/spark-submit --master yarn-cluster --class com.aliyun.odps.spark.examples.WordCount \
    /path/to/MaxCompute-Spark/spark-1.x/target/spark-examples_2.10-1.0.0-SNAPSHOT-shaded.jar

Contoh membaca data dari atau menulis data ke tabel MaxCompute (Scala)

Kode Sampel
SparkSQL.scala

Cara Mengirimkan

cd /path/to/MaxCompute-Spark/spark-1.x
mvn clean package
# Untuk informasi lebih lanjut tentang cara mengonfigurasi variabel lingkungan dalam file spark-defaults.conf, lihat Set up a Spark on MaxCompute development environment. 
cd $SPARK_HOME
bin/spark-submit --master yarn-cluster --class com.aliyun.odps.spark.examples.sparksql.SparkSQL \
    /path/to/MaxCompute-Spark/spark-1.x/target/spark-examples_2.10-1.0.0-SNAPSHOT-shaded.jar

Contoh membaca data dari atau menulis data ke tabel MaxCompute (Python)

Untuk informasi lebih lanjut tentang kode sampel Python untuk membaca data dari atau menulis data ke tabel MaxCompute, lihat spark_sql.py.

Contoh membaca data dari atau menulis data ke tabel MaxCompute (Java)

Untuk informasi lebih lanjut tentang kode sampel Java untuk membaca data dari atau menulis data ke tabel MaxCompute, lihat JavaSparkSQL.java.