MaxCompute是阿里巴巴自研的一站式的快速、完全托管的TB/PB/EB级数据仓库解决方案。本文将为您介绍MaxCompute相关的开源功能。

SDK

MaxCompute提供Java SDK和Python SDK接口实现创建、查看、删除MaxCompute表等操作。通过SDK,您可以通过编辑代码灵活地操作MaxCompute。MaxCompute提供的SDK如下:
  • Java SDK

    Java SDK使用说明请参见Java SDK介绍

    服务支持方式:您可通过访问官方文档获取支持。

  • Python SDK
    PyODPS是MaxCompute的Python版本的SDK,提供对MaxCompute对象的基本操作和DataFrame框架,让您可以轻松地在MaxCompute上进行数据分析。更多详情请参见GitHub项目aliyun-odps-python-sdk和包括所有接口、类的细节等详细内容的PyODPS文档

    服务支持方式:您可通过访问官方文档获取支持。

MaxCompute RODPS

MaxCompute R语言插件:RODPS。使用说明请参见GitHub ODPS Plugin for R

服务支持方式:在GitHub ODPS Plugin for R中留言或新建Issue。

ODPS JDBC是MaxCompute官方提供的JDBC驱动,它向Java程序提供了一套执行SQL任务的接口。项目托管在GitHub ODPS JDBC

服务支持方式:在GitHub ODPS JDBC中留言或新建Issue。

Mars

Mars是一个基于张量的统一分布式计算框架。使用Mars进行科学计算,不仅使大规模科学计算任务的实现从MapReduce上的数千行代码降低到Mars上的数行代码,更在性能上有大幅提升。

Mars已经在Github上开源代码,您可以一起参与共建Mars。详情请参见GitHub开源代码Mars

关于Mars的更多说明信息请参见Mars开发指南

服务支持方式:在Github Mars中留言或新建Issue。

Data collector

MaxCompute数据集成工具插件,包括Flume、OGG、Kettle、Sqoop、Hive 。

Data Collector是MaxCompute主要开源数据采集工具的集合,包括:
  • Flume插件
  • OGG插件
  • Sqoop
  • Kettle插件
  • Hive Data Transfer UDTF

    Flume和OGG插件是基于DataHub的SDK实现,而Sqoop、Kettle以及Hive Data Transfer UDTF是基于Tunnel的SDK实现。DataHub和Tunnel分别是MaxCompute系统的实时和批量数据通道。Flume插件和OGG插件面向于实时数据传输,而Sqoop、Kettle和Hive Data Transfer UDTF则适合用于离线批量的数据传输。

源代码请参见GitHub Aliyun MaxCompute Data Collectors。插件说明请参见wiki

服务支持方式:在GitHub Aliyun MaxCompute Data Collectors中留言或新建Issue。