本文为您介绍Python SDK及其常见方法。
背景信息
PyODPS是MaxCompute的Python SDK,提供DataFrame框架和MaxCompute对象的基本操作方法。您可以通过MaxCompute轻松地分析数据。
PyODPS支持的底层Python版本为Python2(2.6以上版本)和Python3。
获取详细PyODPS信息的方式如下:
- 了解PyODPS:PyODPS文档和PyODPS云栖社区专辑。
- 下载odps-python-sdk:Github。
- 安装PyODPS:PyODPS安装指南。
- 开发PyODPS:PyODPS开发指南。
初始化入口
在使用PyODPS前,您需要用阿里云账号初始化一个MaxCompute的入口,执行命令如下。
from odps import ODPS
odps = ODPS('<your_accesskey_id>', '<your_accesskey_secret>', '<your_default_project>', endpoint='<your_end_point>')
参数说明:
- your_accesskey_id:具备目标MaxCompute项目中待操作对象相关操作权限的AccessKey ID。您可以进入AccessKey管理页面获取AccessKey ID。
- your_accesskey_secret:AccessKey ID对应的AccessKey Secret。您可以进入AccessKey管理页面获取AccessKey Secret。
- your_default_project:使用的MaxCompute项目名称。您可以登录MaxCompute控制台,左上角切换地域后,即可在项目管理页签查看到具体的MaxCompute项目名称。
- your_end_point:目标MaxCompute项目所在地域的Endpoint。详情请参见Endpoint。
方法说明
PyODPS提供MaxCompute对象的基本操作方法,详情如下。
操作类型 | 方法名称 | 方法说明 |
---|---|---|
项目 | get_project(project_name) | 获取MaxCompute项目名称。 |
exist_project(project_name) | 判断某个MaxCompute项目是否存在。 | |
表 | list_tables() | 列出MaxCompute项目下的所有表。 |
exist_table(table_name) | 判断表是否存在。 | |
get_table(table_name,project=project_name) | 获取指定表。允许跨项目获取表。 | |
create_table() | 创建表。 | |
read_table() | 读取表数据。 | |
write_table() | 写入表数据。 | |
delete_table() | 删除已经存在的表。 | |
表分区 | exist_partition() | 判断分区是否存在。 |
get_partition() | 获取分区。 | |
create_partition() | 创建分区。 | |
delete_partition() | 删除分区。 | |
SQL | execute_sql()/run_sql() | 执行SQL语句。 |
open_reader() | 读取执行结果。 | |
任务实例 | list_instances() | 获取MaxCompute项目下的所有Instance。 |
exist_instance() | 判断Instance是否存在。 | |
get_instance() | 获取Instance。 | |
stop_instance() | 停止Instance。 | |
资源 | create_resource() | 创建资源。 |
open_resource() | 打开资源。 | |
get_resource() | 获取资源。 | |
list_resources() | 列出所有资源。 | |
exist_resource() | 判断资源是否存在。 | |
delete_resource() | 删除资源。 | |
函数 | create_function() | 创建函数。 |
delete_function() | 删除函数。 | |
数据上传下载通道 | create_upload_session() | 创建上传数据会话。 |
create_download_session() | 创建下载数据会话。 |