데이터 레이크 대 데이터 웨어하우스

최근 몇 년 동안 데이터 레이크의 개념이 부상하면서 업계에서는 데이터 웨어하우스와 데이터 레이크 간의 비교와 논쟁에 대해 끊임없이 논쟁을 벌였습니다. 데이터 레이크를 차세대 빅데이터 플랫폼이라고 하는 사람들도 있고, 주요 클라우드 제조사들도 자체 데이터 레이크 솔루션을 제안하고 있고, 일부 클라우드 데이터 웨어하우스 제품은 데이터 레이크와 연동하는 기능도 추가하고 있다. 그러나 데이터 웨어하우스와 데이터 레이크의 차이점은 정확히 무엇입니까?

지난 글에서는 데이터 레이크가 무엇인지, 데이터 레이크의 기본 아키텍처와 클라우드 기반 데이터 레이크 프레임워크를 소개했는데, 이 글에서는 데이터 레이크와 데이터 웨어하우스의 차이점을 분석하고 새로운 방향을 소개합니다. 둘의 통합과 진화 - 하나의 호수 창고.

1. 데이터 웨어하우스란?

데이터 웨어하우스의 개념은 주로 복잡한 데이터 지향 쿼리 및 분석 시나리오를 다루는 데이터베이스 분야에서 시작되었습니다. 빅데이터 기술의 발달로 SQL 언어, 쿼리 최적화기 등 수많은 데이터베이스 기술을 차용하여 빅데이터 웨어하우스를 형성하고 있으며, 이는 강력한 분석 능력으로 인해 주류가 되었습니다. 최근 몇 년 동안 데이터 웨어하우스와 클라우드 고유 기술의 결합으로 클라우드 데이터 웨어하우스가 생성되어 기업이 데이터 웨어하우스를 배포할 수 있는 리소스 공급 문제를 해결했습니다. 클라우드 데이터 웨어하우스는 빅데이터의 상위(엔터프라이즈급) 플랫폼 기능으로 즉시 사용 가능하고 무제한 확장이 가능하며 간단한 운영 및 유지 관리 기능으로 인해 점점 더 많은 관심을 받고 있습니다.

데이터 웨어하우스는 기업의 모든 수준에서 의사 결정 프로세스를 위한 모든 유형의 데이터를 지원하는 전략적 컬렉션입니다. 분석 보고 및 의사 결정 지원을 위해 생성된 단일 데이터 저장소입니다. 비즈니스 인텔리전스가 필요한 비즈니스를 위한 비즈니스 프로세스 개선, 모니터링 시간, 비용, 품질 및 제어에 대한 지침을 제공합니다.

데이터 웨어하우스의 본질은 다음 세 부분으로 구성됩니다.
(1) 내장 스토리지 시스템, 데이터는 추상적인 방식(예: 테이블 또는 뷰 사용)으로 제공되며 파일 시스템은 노출되지 않습니다.
(2) 일반적으로 ETL/ELT 방법을 사용하여 데이터를 정리하고 변환해야 합니다.
(3) 비즈니스 인텔리전스 의사결정을 위한 모델링 및 데이터 관리 강조

위의 기준으로 판단할 때 기존 데이터 웨어하우스(예: Teradata)와 새로운 클라우드 데이터 웨어하우스 시스템(AWS Redshift, Google BigQuery, Alibaba Cloud MaxCompute)은 모두 데이터 웨어하우스의 설계 본질을 구현하며 둘 다 파일 시스템을 외부 세계로 데이터를 입출력하는 서비스 인터페이스입니다. 이 디자인은 다음과 같은 몇 가지 이점을 가져올 수 있습니다.

(1) 엔진이 데이터를 깊이 이해하고 스토리지 및 컴퓨팅을 깊이 최적화할 수 있습니다.
(2) 데이터 라이프 사이클 관리, 완벽한 혈연 시스템
(3) 세분화된 데이터 관리 및 거버넌스
(4) 완벽한 메타데이터 관리 기능, 엔터프라이즈급 데이터 센터 구축 용이

이 때문에 Alibaba의 Feitian 빅 데이터 플랫폼 구축 초기에 데이터 웨어하우스 아키텍처, 즉 MaxCompute 빅 데이터 플랫폼을 채택했습니다. MaxCompute(이전의 ODPS)는 Alibaba 경제를 위한 빅 데이터 플랫폼일 뿐만 아니라 Alibaba Cloud의 온라인 빅 데이터 컴퓨팅 서비스로, 안전하고 안정적이며 고성능이며 저렴한 비용으로 GB에서 EB까지 온디맨드로 탄력적으로 확장할 수 있습니다. (그림 6. MaxCompute 제품 아키텍처입니다. 자세한 내용은 Alibaba Cloud MaxCompute 공식 웹사이트 주소를 클릭하십시오.) SaaS 모델의 엔터프라이즈 수준 클라우드 데이터 웨어하우스인 MaxCompute는 인터넷, 새로운 금융, 새로운 소매 및 디지털 정부를 포함하여 Alibaba 경제 및 Alibaba Cloud의 수천 명의 고객에서 널리 사용됩니다.

MaxCompute 데이터 웨어하우스의 아키텍처 덕분에 Alibaba의 고위 경영진은 "데이터 보안 시스템", "데이터 품질", "데이터 거버넌스" 및 "데이터 레이블링"과 같은 관리 기능을 점차적으로 구축하여 마침내 Alibaba의 큰 규모를 형성했습니다. 데이터 미들 오피스 . . 데이터 중간 플랫폼 개념의 초기 지지자로서 Alibaba의 데이터 중간 플랫폼은 데이터 웨어하우스 아키텍처의 이점을 누릴 수 있습니다.

2. 데이터베이스, 데이터 웨어하우스에서 데이터 레이크로의 진화 추세

데이터베이스의 데이터에는 정렬 요구 사항이 있고 데이터베이스는 응용 프로그램 지향적이며 각 응용 프로그램에는 데이터베이스가 필요할 수 있습니다. 회사에 수십 개의 애플리케이션이 있다면 수십 개의 데이터베이스가 있을 것입니다. 수십 개의 데이터베이스를 연결하고 분석하는 방법은 무엇입니까? 방법이 없다.

그런 다음 데이터베이스에서 데이터 웨어하우스로 발전했으며 데이터 웨어하우스는 어떤 애플리케이션에도 적합하지 않습니다. 그러나 데이터베이스에 연결되어 있기 때문에 매일 일부 ETL 일괄 작업을 예약해야 하는 경우 다른 응용 프로그램과 데이터를 집계하고 일부 패러다임 모델에 따라 연결 분석을 수행하여 특정 기간 동안의 전체 데이터 보기를 얻습니다. 이 전제는 많은 데이터베이스가 데이터 웨어하우스에 데이터를 제공해야 한다는 것입니다.

데이터 볼륨의 증가와 데이터 유형의 변화로 인해 비디오, 오디오, 문서와 같은 많은 비정형 데이터가 전체 데이터에서 차지하는 비중이 점점 더 커지고 있습니다. 원본 데이터 웨어하우스는 지원하기 어려웠으므로 점점 더 많은 기업이 원본 데이터를 실제 초기 상태로 유지하기를 희망합니다. 이러한 수요에 힘입어 데이터 레이크의 아이디어가 구체화되기 시작했으며 데이터를 원래 상태로 저장할 수 있어 기업이 다차원에서 더 많은 분석을 수행할 수 있습니다. 데이터는 데이터 레이크에 쉽게 들어갈 수 있으며 사용자는 데이터 수집, 데이터 정리 및 표준화된 처리를 지연할 수도 있습니다. 이러한 작업은 비즈니스 요구 사항이 올 때까지 지연될 수 있습니다. 기존 데이터 웨어하우스에서는 모델 패러다임의 요구 사항으로 인해 비즈니스를 무작정 변경할 수 없으며 변경에는 기본 데이터의 다양한 변경이 수반됩니다. 상대적으로 말하자면, 데이터 레이크는 더 유연하고 상위 계층 데이터 애플리케이션의 변화에 ​​더 빠르게 적응할 수 있습니다.

3. 데이터 레이크 대 데이터 웨어하우스

데이터 레이크는 원본 데이터 형식으로 저장되며, 모든 데이터가 가장 원시적인 형태로 저장될 수 있으며, 이는 정형 또는 비정형 데이터일 수 있으므로 세부 정보, 모든 실시간 데이터를 잃지 않고 데이터를 사용할 수 있습니다. 및 배치 데이터는 데이터 레이크로 집계된 다음 머신 러닝 또는 데이터 분석을 위해 레이크에서 관련 데이터를 가져옵니다.

데이터 레이크 우선 설계는 기본 파일 스토리지를 열어 레이크에 들어가는 데이터에 최대한의 유연성을 제공합니다. 데이터 레이크에 들어가는 데이터는 구조화, 반구조화 또는 완전히 구조화되지 않은 원시 로그일 수 있습니다. 또한 개방형 스토리지는 상위 계층 엔진에 더 많은 유연성을 제공합니다.다양한 엔진은 자체 시나리오에 따라 데이터 레이크에 저장된 데이터를 마음대로 읽고 쓸 수 있지만 상당히 느슨한 호환성 규칙을 따르면 됩니다. 그러나 동시에 파일 시스템에 대한 직접 액세스로 인해 세분화된(파일 단위보다 작은) 권한 관리, 통합 파일 관리 및 읽기-쓰기 인터페이스 업그레이드와 같은 많은 상위 수준 기능을 구현하기 어렵습니다. 매우 어렵습니다.(모든 액세스를 완료해야 합니다.) 파일의 엔진이 업그레이드되고 업그레이드가 완료됩니다.

데이터 웨어하우스 우선 설계는 데이터 사용 효율성, 대규모 데이터 관리, 보안/규정 준수와 같은 엔터프라이즈 수준의 성장 요구 사항에 더 많은 관심을 기울입니다. 데이터는 통합된 개방형 서비스 인터페이스를 통해 데이터 웨어하우스에 입력됩니다. 데이터는 일반적으로 사전 정의된 스키마를 가지며 사용자는 데이터 서비스 인터페이스 또는 컴퓨팅 엔진을 통해 분산 스토리지 시스템의 파일에 액세스합니다. 데이터 웨어하우스 우선 설계는 데이터 액세스 인터페이스/권한 관리/데이터 자체를 추상화하여 더 높은 성능(저장 또는 컴퓨팅), 폐쇄 루프 보안 시스템 및 데이터 거버넌스 기능을 교환합니다. 이러한 기능은 기업 사용은 중요합니다. 우리는 그것을 성장이라고 부릅니다.

4. 호수와 창고 통합

호수와 창고의 통합은 데이터 창고와 데이터 호수의 두 시스템이 연결되어 데이터와 컴퓨팅이 호수와 창고 사이를 자유롭게 흐르고 완전하고 유기적인 빅 데이터 기술 생태계를 구축한다는 것을 의미합니다.

Alibaba Cloud Lake 및 창고 통합 솔루션:

원래 데이터 웨어하우스 아키텍처를 기반으로 Alibaba Cloud MaxCompute는 오픈 소스 데이터 레이크와 클라우드 기반 데이터 레이크를 통합하고 마침내 호수와 웨어하우스 통합의 전체 아키텍처를 실현합니다. 이 아키텍처에서는 여러 기본 스토리지 시스템이 공존하지만 통합 스토리지 액세스 계층과 통합 메타데이터 관리를 통해 상위 엔진에 통합 캡슐화 인터페이스를 제공하고 사용자는 데이터 웨어하우스와 데이터 레이크의 테이블을 공동으로 쿼리할 수 있습니다. 전체 아키텍처에는 통합 데이터 보안, 관리 및 거버넌스 기능도 있습니다.

MaxCompute 호수 및 창고 통합 기술을 기반으로 DataWorks는 호수와 창고의 두 시스템을 추가로 캡슐화하고 호수와 창고의 이기종 클러스터 정보를 보호하고 통합된 빅 데이터 중간 엔드를 구축하여 일련의 데이터와 일련의 작업을 호수와 창고 간에 통합할 수 있습니다. 원활한 일정 및 관리. 기업은 레이크와 웨어하우스의 통합 데이터 미들 오피스 기능을 사용하여 데이터 관리 구조를 최적화하고 데이터 레이크와 데이터 웨어하우스의 각 장점을 완전히 통합할 수 있습니다. 데이터 레이크를 중앙 집중식 원시 데이터 스토리지로 사용하여 데이터 레이크의 유연성과 개방성을 활용하십시오. 레이크 및 웨어하우스 기술의 통합을 통해 생산 지향적인 고주파 데이터와 작업이 데이터 웨어하우스로 원활하게 파견되어 더 나은 성능과 비용은 물론 향후 생산 지향적인 데이터 거버넌스 및 최적화 시리즈를 얻을 수 있습니다. 효율성과 효율성 사이의 최상의 균형.

일반적으로 MaxCompute, 레이크 및 웨어하우스의 통합은 기업에 보다 유연하고 효율적이며 경제적인 데이터 플랫폼 솔루션을 제공하며 새로운 빅 데이터 플랫폼을 구축하는 기업 및 기존 빅 데이터 플랫폼을 보유한 기업이 아키텍처를 업그레이드하는 데 적합합니다. 투자를 보호하고 자산 수익을 실현할 수 있습니다.

관련 문서

더 많은 특별 제안 살펴보기

  1. Short Message Service(SMS) & Mail Service

    최저 USD 1.99부터 시작하는 10,000개의 이메일 패키지

wave
phone 문의하기