阿里云流式数据服务DataHub流式数据(Streaming Data)的处理平台,提供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。本文主要介绍如何通过DLA Serverless Spark访问DataHub。
前提条件
- 已经在DataHub中创建项目。本文档中假设DataHub的区域为华南1(深圳),Project名称为spark_test,Topic名称为topic01。
说明 目前内置的SparkOnDataHub Connectors仅支持TUPLE类型的Topic。
- 已经开通对象存储OSS(Object Storage Service)服务。具体操作请参见开通OSS服务。
背景信息
为了Spark能正常消费到DataHub数据,您需要将本地准备的模拟测试数据发送到DataHub,来测试Spark和DataHub的连通性。本文档假设您下载以下模拟测试代码到本地,并执行以下命令运行jar包来发送数据到spark_test下的topic01。
//下载模拟测试代码到本地。
wget https://spark-home.oss-cn-shanghai.aliyuncs.com/common_test/common-test-0.0.1-SNAPSHOT-shaded.jar
//运行jar包来发送数据到spark_test下的topic01。
java -cp /opt/jars/common-test-0.0.1-SNAPSHOT-shaded.jar com.aliyun.datahub.DatahubWrite_java spark_test topic01 xxx1 xxx2 https://dh-cn-shenzhen.aliyuncs.com
命令参数说明:参数名称 | 参数说明 |
---|---|
spark_test | DataHub的project名称。 |
topic01 | DataHub的topic名称。 |
xxx1 | 访问阿里云API的AccessKey ID。 |
xxx2 | 访问阿里云API的AccessKey Secret。 |
https://dh-cn-shenzhen.aliyuncs.com | DataHub访问域名中“华南1(深圳)”的“外网Endpoint”。 |