阿里云文件存储HDFS(Apsara File Storage for HDFS)是面向阿里云ECS实例及容器服务等计算资源的文件存储服务。您可以像在Hadoop分布式文件系统 (Hadoop Distributed File System) 中管理和访问数据那样使用文件存储HDFS。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。

适用场景

文件存储HDFS适用于对吞吐要求较高的大数据分析与机器学习业务场景。文件存储HDFS能够提供高吞吐量和低延迟的访问能力,无需将数据迁移到计算资源本地。

您将数据存入文件存储HDFS后 ,ECS实例或其他计算资源即可直接访问这些数据。将Hadoop或其他机器学习应用部署在多个计算资源上,应用可以直接通过Hadoopfs接口访问数据进行离线或在线计算,也可以直接将计算结果输出到文件存储HDFS做永久保存。

性能

衡量文件存储HDFS的性能指标主要是吞吐能力。吞吐最大不会超过ECS带宽。如果您的ECS带宽只有1.5Gbps,则吞吐最高可达到187.5MB/s。吞吐能力和购买的存储空间相关。

数据持久性和服务可用性

和文件存储NAS一样,文件存储HDFS的数据在后端进行多副本存储,每份数据都有多份拷贝在故障域隔离的不同设备上存放, 提供 99.999999999%(11个9) 的数据可靠性,能够有效降低数据安全风险。

扩展性和弹性

文件存储HDFS能够为应用负载提供高吞吐量、高IOPS及低时延的存储性能。同时,其性能与容量成线性关系,可满足业务增长时对更高容量与存储性能的需求。

安全性

文件存储HDFS具有文件系统标准权限控制、权限组访问控制和RAM主子账号授权等多种安全机制,从而保证文件系统数据安全万无一失。

接口

文件存储HDFS的SDK包含文件系统SDK和管控系统SDK。目前公测期间只提供文件系统SDK,管控操作则通过控制台进行。文件存储HDFS SDK实现了Hadoop FileSystem 接口,提供一种Hadoop兼容的文件系统,对外输出为一个单独的JAR文件,即aliyun-sdk-dfs-x.y.z.jar。借助该SDK,Apache Hadoop的计算分析应用(如MapReduce、Hive、Spark、Flink等)可以无需修改代码和编译,直接使用文件存储HDFS作为 defaultFS,从而获得超越原始HDFS的功能和性能优势 。

如果您更习惯使用图形化的Web应用程序,可以使用管理控制台来管理HDFS文件系统。

费用模型

文件存储HDFS的计费项包括存储容量和预置吞吐。开通产品时默认按照实际使用量按小时计费(按量付费),同时也支持购买资源包(包年包月)的方式提前购买资源的使用额度和时长,获取更多的优惠。详情请参见云产品定价