本文为您介绍如何使用MaxCompute分析IP来源,包括下载、上传IP地址库数据、编写UDF函数和编写SQL四个步骤。
前提条件
- 开通MaxCompute和DataWorks。
- 在DataWorks上完成创建业务流程,本例使用DataWorks简单模式。详情请参见创建业务流程。
背景信息
淘宝IP地址库的查询接口为IP地址字串,使用示例如下。

在MaxCompute中禁止使用HTTP请求,因此目前可以通过如下三种方式实现在MaxCompute中查询IP:
- 用SQL将数据下载至本地,再发起HTTP请求查询。
说明 效率低下,且淘宝IP库查询频率需要小于10 QPS,否则拒绝请求。
- 下载IP地址库至本地,再进行查询。
说明 效率低下,且不利于数据仓库等产品分析使用。
- 将IP地址库定期维护上传至MaxCompute,进行连接查询。
说明 比较高效,但是IP地址库需要自己定期维护。
下载IP地址库数据
上传IP地址库数据
编写UDF函数
- 进入数据开发页面。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 单击相应工作空间后的数据开发。
- 新建Python资源。
- 新建函数。
- 单击工具栏中的
图标。
- 提交函数。
- 单击工具栏中的
图标。
- 在提交新版本对话框中,输入备注。
- 单击确认。
- 单击工具栏中的