Alibaba Cloud가 새로운 클라우드 네이티브 데이터 레이크 시스템 구축을 지원하는 방법

급증하는 정보화의 물결 속에서 빅 데이터 기술은 지속적으로 업데이트되고 반복되며 데이터 관리 도구가 빠르게 발전하고 관련 개념도 탄생했습니다. Data Lake의 개념은 2011년에 출시된 이후 개념적 위치 지정, 아키텍처 설계 및 관련 기술이 빠르게 개발되고 실행되어 왔습니다.차세대 기본 데이터 플랫폼. 이 기사에서는 Alibaba Cloud의 기본 서비스와 풍부한 컴퓨팅 엔진을 결합하여 새로운 클라우드 네이티브 데이터 레이크 시스템을 만드는 방법을 소개합니다.

클라우드 네이티브 데이터 레이크 시스템

클라우드 네이티브 시대의 도래로 데이터 레이크는 "클라우드-레이크 공생"의 새로운 단계에 진입했습니다. 이러한 맥락에서 Alibaba Cloud는 클라우드 고유 기술을 기반으로 하는 엔터프라이즈급 데이터 레이크 솔루션을 출시했습니다.이 솔루션은 스토리지 컴퓨팅 분리 아키텍처를 채택합니다.스토리지 계층은 Alibaba Cloud Object Storage OSS에 구축되며 Alibaba Cloud의 데이터와 통합됩니다. 호수 분석 및 데이터 호수 건설. , E-MapReduce, DataWorks 및 기타 컴퓨팅 엔진은 원활하게 연결되고 풍부한 오픈 소스 컴퓨팅 엔진 생태계와 호환됩니다.

(1) 데이터 레이크 스토리지는 클라우드 기반 개체 스토리지 OSS와 JindoFS를 사용하여 HDFS를 대체하여 데이터 규모를 늘리고 스토리지 비용을 줄이며 컴퓨팅 및 스토리지를 위한 별도 아키텍처를 달성합니다.
(2) 데이터 레이크 건설 서비스는 통합 메타데이터 및 통합 권한 관리를 제공하고 다중 엔진 액세스를 지원합니다.
(3) EMR의 Spark와 같은 컴퓨팅 엔진의 클라우드 네이티브화는 탄력적 컴퓨팅 리소스를 더 잘 사용할 수 있습니다.
(4) 클라우드의 데이터 개발 및 거버넌스 플랫폼 Dataworks는 데이터 레이크 메타데이터 거버넌스, 데이터 통합 ​​및 데이터 개발의 문제를 해결합니다.

Alibaba Cloud의 클라우드 네이티브 데이터 레이크 시스템은 EB 수준 데이터 레이크를 지원하고 100,000개 이상의 데이터베이스, 1억 개 이상의 테이블 및 10억 개 수준의 파티션을 저장하고, 하루에 30억 개 이상의 메타데이터 서비스 요청을 지원하고, 10개 이상의 개방형을 지원할 수 있습니다. MaxCompute 및 Hologres와 같은 소스 컴퓨팅 엔진 및 클라우드 네이티브 데이터 웨어하우스 엔진.

동시에 Alibaba Cloud 데이터 레이크의 스토리지 비용은 고효율 클라우드 디스크보다 10배 이상 낮고 쿼리 성능은 기존 개체 스토리지보다 3배 이상 빠르며 쿼리 엔진은 30초 이내에 1,000개 이상의 Spark Executor를 시작할 수 있는 고탄력성. . Alibaba Cloud의 강력한 스토리지 및 컴퓨팅 기능이 함께 업계 최고의 데이터 레이크 시스템을 생성했음을 알 수 있습니다. 빅데이터 시대를 주도하려면 데이터의 원본 정보를 유지하면서 다양한 컴퓨팅 플랫폼에 빠르게 연결할 수 있는 시스템이 필요하다는 것을 알 수 있습니다.

E-MapReduce

Alibaba Cloud Elastic MapReduce(E-MapReduce) 는 Hadoop, Spark, Kafka, Flink, Storm 및 기타 구성 요소를 포함하는 오픈 소스 생태계를 기반으로 클러스터, 클러스터 등의 서비스를 제공하는 원스톱 엔터프라이즈 빅 데이터 플랫폼입니다. 작업 및 데이터 관리 알리바바 클라우드 플랫폼의 빅 데이터 처리를 위한 시스템 솔루션 세트에서 실행됩니다. E-MapReduce는 Alibaba Cloud ECS 탄력적 가상 머신을 기반으로 하며 오픈 소스 Apache Hadoop 및 Apache Spark를 기반으로 하므로 Hadoop 및 Spark 에코시스템의 다른 주변 시스템(Apache Hive, Apache Kafka, Flink, Druid 등)을 쉽게 사용할 수 있습니다. , TensorFlow 등)을 사용하여 자신의 데이터를 분석하고 처리합니다. 또한 E-MapReduce를 통해 OSS, SLS, RDS와 같은 다른 Alibaba Cloud 클라우드 데이터 스토리지 시스템의 데이터를 쉽게 처리할 수 있습니다.

데이터 레이크 스토리지 OSS

Alibaba Cloud Object Storage OSS는 데이터 레이크의 통합 스토리지 계층입니다.99.9999999999%(12 9s) 내구성 안정성 설계를 기반으로 합니다.모든 규모의 데이터를 저장할 수 있고 비즈니스 응용 프로그램과 다양한 컴퓨팅 및 분석에 연결할 수 있습니다. OSS를 기반으로 데이터 레이크를 구축하는 기업에 매우 적합합니다. OSS는 HDFS에 비해 많은 수의 작은 파일을 저장할 수 있으며 핫 및 콜드 계층화, 고밀도 저장소, 고압축 알고리즘과 같은 고급 기술을 통해 단위 저장소 비용을 크게 줄입니다. 동시에 OSS는 Hadoop에 대해 친환경적이며 Alibaba Cloud 컴퓨팅 플랫폼에 원활하게 연결됩니다. 데이터 분석 시나리오의 경우 OSS는 데이터 처리 속도를 높이고 데이터 일관성을 향상시키기 위해 OSS Select, Shallow Copy 및 다중 버전과 같은 기능을 제공합니다.

Alibaba Cloud Object Storage Service(OSS)는 업계 최고의 확장성, 내구성 및 성능을 제공합니다. 모든 규모와 산업의 고객이 백업 및 복구, 콘텐츠 배포, 데이터 레이크, 웹사이트, 모바일 애플리케이션, 데이터 아카이브, IoT 장치와 같은 다양한 사용 사례에서 데이터를 저장하고 보호하는 데 사용할 수 있습니다.

데이터 레이크 거버넌스

DataWorks의 포괄적인 데이터 거버넌스는 Alibaba Cloud 고객에게 데이터 자산의 현재 상황을 파악하고, 데이터 품질을 개선하고, 데이터 수집 효율성을 개선하고, 데이터 보안 규정 준수를 보장하고, 분석 효율성을 개선하는 데 사용할 수 있는 통합 데이터 보기를 제공할 수 있습니다. 데이터 쿼리의. 오프라인 빅 데이터 웨어하우스 구축, 데이터 연합 쿼리 및 분석, 대용량 데이터의 저주파 대화형 쿼리 및 지능형 보고서 구축, 데이터 레이크 솔루션 구현을 효과적으로 지원할 수 있습니다.

MaxCompute/EMR/Hologres와 같은 빅 데이터 컴퓨팅 엔진을 기반으로 하는 빅 데이터 개발 및 거버넌스 플랫폼인 DataWorks는 고객에게 전문적이고 효율적이며 안전하며 신뢰할 수 있는 원스톱 빅 데이터 개발 및 거버넌스 플랫폼을 제공합니다. 센터 및 데이터 거버넌스 모범 사례, 다양한 산업의 디지털 혁신을 가능하게 합니다. 매일 Alibaba Group 내 수만 명의 데이터/알고리즘 엔지니어가 DataWorks를 사용하여 그룹 데이터 비즈니스 구축의 99%를 수행하고 있습니다.

데이터 레이크 건설

데이터 레이크는 모든 규모의 정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 리포지토리로 빅 데이터 및 AI 컴퓨팅을 지원합니다. 클라우드 네이티브 데이터 레이크 아키텍처의 핵심 구성 요소인 데이터 레이크 구축은 클라우드 네이티브 데이터 레이크 솔루션을 쉽고 빠르게 구축하고, 레이크에서 메타데이터의 통합 관리, 엔터프라이즈 수준 권한 제어를 제공하고, 여러 컴퓨팅 엔진에 원활하게 연결할 수 있습니다.

• 손쉬운 데이터 수집: 체계적인 데이터 수집 기능, 대용량 스토리지 서비스, 정형/반정형/비정형 데이터 소스 지원
• 보다 유연한 아키텍처: 컴퓨팅과 스토리지의 분리, 보다 유연한 리소스 계획 및 아키텍처, 비용 낭비 감소, 효율성 향상, 빠른 비즈니스 변화에 대응
• 손쉬운 데이터 관리: 통합 스토리지, 핫 및 콜드 레이어 라이프 사이클 관리, 다양한 클러스터에 흩어져 있는 데이터 및 데이터 복사와 같은 운영 및 유지 관리 문제 해결
• 손쉬운 가치 추출: 데이터 레이크를 통해 여러 컴퓨팅 및 분석 플랫폼을 연결하고 데이터 사일로를 깨고 비즈니스 가치에 대한 통찰력 확보

https://www.alibabacloud.com/product/datalake-formation

클라우드 네이티브 데이터 레이크 분석

클라우드 네이티브 데이터 레이크 분석을 사용하면 ETL 없이 표준 SQL 및 기존 BI(비즈니스 인텔리전스) 도구를 통해 Alibaba Cloud의 데이터를 매우 비용 효과적이고 효율적으로 분석할 수 있습니다.

클라우드 네이티브 데이터 레이크 분석은 클라우드에서 서비스를 대화식으로 분석할 수 있는 서버리스 구조입니다. 엔터프라이즈 사용자의 경우 인프라 및 관리 비용이 필요 없고 인스턴스를 유지할 필요가 없으며 사용한 만큼만 지불합니다. 시작 시간 제로, 투명한 업그레이드, QoS 탄력적 서비스. DLA는 SQL을 완전히 사용하여 서버와 상호 작용하고 표준 SQL과 호환되며 풍부한 내장 기능을 지원합니다. DLA는 다채널 데이터 소스 접근 분석을 지원하며 다양하고 이기종 데이터 소스에 대한 분석 기능을 제공합니다. 고객은 Alibaba Cloud OSS 및 Table Store의 데이터를 분석할 수 있을 뿐만 아니라 두 데이터 간의 상관관계 분석도 수행할 수 있습니다. MPP 및 DAG 기술의 포괄적인 통합, 초수평 분석 및 확장 기능, 벡터화된 실행 최적화, 운영자 파이프라인 최적화. 좋은 리소스 격리 및 우선 순위 스케줄링 기능이 있습니다.

https://www.alibabacloud.com/product/data-lake-analytics

관련 문서

더 많은 특별 제안 살펴보기

  1. Short Message Service(SMS) & Mail Service

    최저 USD 1.99부터 시작하는 10,000개의 이메일 패키지

phone 문의하기