데이터 레이크란 무엇인가 | 데이터 레이크의 기본 아키텍처

데이터 레이크의 개념은 현재 매우 뜨겁습니다.많은 사람들이 데이터 레이크를 구축하는 방법, Alibaba Cloud가 성숙한 데이터 레이크 솔루션을 보유하고 있는지 여부, Alibaba Cloud의 데이터 레이크 솔루션이 실제로 구현되었는지 여부, 데이터 레이크 및 데이터 레이크를 이해하는 방법에 대해 논의하고 있습니다. 데이터 레이크와 빅 데이터 플랫폼 등의 차이점은 무엇이며 이 시리즈의 기사에서는 데이터 레이크를 분석합니다.

이 기사의 내용은 다음과 같습니다. 1. 데이터 레이크란 2. 데이터 레이크의 기본 아키텍처 3. 클라우드 기반 데이터 레이크 프레임워크인 다음 기사에서는 데이터 레이크와 데이터 웨어하우스의 차이점을 소개합니다.

1. 데이터 레이크란?

데이터 레이크 구축을 계획하기 전에 데이터 레이크가 무엇인지 이해하고 데이터 레이크 프로젝트의 기본 구성 요소를 명확히 한 다음 데이터 레이크의 기본 아키텍처를 설계하는 것이 매우 중요합니다.

데이터 레이크는 여러 데이터 입력 방식에 연결할 수 있는 통합 스토리지 풀로, 모든 규모의 정형, 반정형, 비정형 데이터를 저장할 수 있습니다. 데이터 레이크는 다양한 컴퓨팅 및 분석 플랫폼과 원활하게 연결하고 데이터를 직접 처리 및 분석하고 사일로를 허물고 비즈니스 가치에 대한 통찰력을 얻을 수 있습니다. 동시에 데이터 레이크는 데이터의 전체 수명 주기를 포괄하는 핫 레이어와 콜드 레이어 간의 변환 기능을 제공합니다.

데이터 레이크에 대한 많은 정의가 있지만 기본적으로 다음과 같은 특성을 중심으로 합니다.
(1) 데이터 레이크는 기업/조직의 모든 데이터를 저장할 수 있는 충분한 데이터 저장 용량을 제공해야 합니다.
(2) 데이터 레이크는 정형, 반정형 및 비정형 데이터를 포함하여 모든 유형의 방대한 양의 데이터를 저장할 수 있습니다.
(3) 데이터 레이크의 데이터는 비즈니스 데이터의 완전한 복사본인 원본 데이터입니다. 데이터 레이크의 데이터는 비즈니스 시스템에 있던 그대로 유지됩니다.
(4) 데이터 레이크는 데이터 소스, 데이터 형식, 연결 정보, 데이터 스키마 및 권한 관리를 포함한 다양한 데이터 관련 요소를 관리할 수 있는 완벽한 데이터 관리 기능(완벽한 메타데이터)이 있어야 합니다.
(5) 데이터 레이크는 일괄 처리, 스트림 컴퓨팅, 대화형 분석 및 기계 학습을 포함하되 이에 국한되지 않는 다양한 분석 기능을 가져야 하며 동시에 특정 작업 일정 및 관리 기능도 제공해야 합니다.
(6) 데이터 레이크에는 완전한 데이터 수명 주기 관리 기능이 있어야 합니다. 원본 데이터를 저장할 뿐만 아니라 다양한 분석 및 처리의 중간 결과를 저장할 수 있고 데이터의 분석 및 처리 과정을 완전히 기록할 수 있어야 사용자가 생성 과정을 추적할 수 있습니다. 완전하고 상세한 방식으로 모든 데이터 조각.
(7) 데이터 레이크에는 완벽한 데이터 수집 및 데이터 릴리스 기능이 있어야 합니다. 데이터 레이크는 다양한 데이터 소스를 지원하고 관련 데이터 소스에서 전체/증분 데이터를 얻은 다음 스토리지를 표준화할 수 있어야 합니다. 데이터 레이크는 데이터 분석 및 처리 결과를 적절한 스토리지 엔진으로 푸시하여 다양한 애플리케이션 액세스 요구 사항을 충족할 수 있습니다.
(8) 초대형 스토리지 및 확장 가능한 대규모 데이터 처리 기능을 포함한 빅 데이터 지원.

따라서 데이터 레이크는 빅 데이터 저장, 처리 및 분석을 위한 진화하고 확장 가능한 인프라가 되어야 합니다. -모드 처리 및 전체 수명 주기 관리, 다양한 외부 이기종 데이터 소스와의 상호 작용 및 통합을 통해 다양한 엔터프라이즈 수준 응용 프로그램을 지원합니다.

2. 데이터 레이크의 기본 아키텍처

데이터 레이크는 데이터가 비정형, 반정형 또는 정형일 수 있고 조직 내의 다양한 소스에서 수집될 수 있기 때문에 플랫 아키텍처를 갖는 반면, 데이터 웨어하우스는 폴더의 파일 또는 파일에 데이터를 저장합니다. 데이터 레이크는 온프레미스 또는 클라우드에서 호스팅할 수 있습니다.

아키텍처 특성으로 인해 데이터 레이크는 엑사바이트까지 대규모로 확장할 수 있습니다. 이는 데이터 레이크를 생성할 때 보유해야 하는 데이터의 양을 모르는 경우가 많기 때문에 중요합니다. 기존 데이터 스토리지 시스템은 이러한 방식으로 확장할 수 없습니다.

이 아키텍처는 데이터 과학자들이 엔터프라이즈 데이터를 마이닝 및 탐색하고 데이터(서로 다른 도메인의 이기종 데이터 포함)를 공유 및 상호 참조하여 질문하고 새로운 분석을 찾을 수 있도록 하므로 데이터 과학자를 크게 촉진할 수 있습니다. 또한 빅 데이터 분석 및 기계 학습을 사용하여 데이터 레이크의 데이터를 분석할 수 있습니다.

데이터는 데이터 레이크에 저장되기 전에 고정된 패턴이 없지만 데이터 거버넌스를 사용하면 여전히 데이터 늪을 효과적으로 피할 수 있습니다. 후속 액세스를 보장하기 위해 데이터 레이크에 데이터를 저장할 때 데이터를 메타데이터로 표시해야 합니다.

3. 클라우드 기반 데이터 레이크 프레임워크

데이터 레이크의 기둥에는 확장 가능하고 내구성 있는 데이터 스토리지, 데이터를 수집 및 구성하는 메커니즘, 데이터를 처리 및 분석하고 결과를 공유하는 도구가 포함됩니다. 따라서 우리는 빅 데이터가 의미하는 모든 유형의 데이터를 지원하기 위해 모든 최신 데이터 레이크에 포함되어야 하는 핵심 기술에 중점을 둡니다.

클라우드에는 무제한 리소스가 있습니다. 클라우드 기반 서비스는 무제한 리소스를 제공하기 때문에 데이터 레이크에 특히 적합합니다. 즉, 클라우드 인프라는 아무 걱정 없이 몇 분 또는 몇 초 만에 요청 시 거의 무제한 리소스를 제공할 수 있습니다. 조직은 사용한 만큼만 비용을 지불하므로 성능 저하 없이 모든 규모의 사용자와 워크로드를 동적으로 지원할 수 있습니다.

비용을 절감하고 데이터용 클라우드 기술에 집중하십시오. 클라우드 기반 서비스는 고가의 하드웨어, 소프트웨어 및 기타 인프라, 선행 투자, 온프레미스 시스템 유지 관리, 업데이트 및 보안 비용을 피하는 클라우드 기반 솔루션을 모든 조직에 제공합니다.

클라우드 기술은 자연스러운 통합 지점과 함께 제공됩니다. 분석하려는 데이터의 최대 80%가 비즈니스 애플리케이션 데이터, 운영 데이터 저장소, 클릭스트림 데이터, 소셜 미디어 플랫폼, IoT 사물 및 실시간 스트리밍 데이터에서 오는 것으로 추정됩니다. 이 데이터를 클라우드에 통합하는 것은 온프레미스 데이터 센터를 구축하는 것보다 훨씬 쉽고 저렴합니다.

noSQL을 사용하여 내장. 조직의 데이터 분석을 강화하고 확장하기 위해 컴퓨터 및 소셜 미디어에서 생성된 것과 같은 업데이트된 형식으로 데이터를 저장 및 분석할 수 있는 기술을 설명합니다. 전통적인 데이터 웨어하우스는 이러한 데이터 유형을 잘 수용할 수 없다는 것은 잘 알려져 있습니다. 그 결과 JSON, Avro 및 XML과 같은 반정형 및 비정형 데이터 형식을 처리하기 위해 최근 몇 년 동안 새로운 시스템이 등장했습니다.

기존 기술과 전문성을 지원합니다. Data Lake는 SQL 데이터 웨어하우스와 쉽게 통신할 수 있는 모든 유형의 데이터, 데이터 관리, 데이터 변환, 통합, 시각화, 비즈니스 인텔리전스 및 분석 도구를 효율적으로 저장하고 처리하는 데 필요한 기능을 지원합니다. 표준 SQL의 확고한 역할은 또한 많은 사람들이 SQL 기술을 보유하고 있음을 의미합니다. 다른 프로그래밍 언어가 데이터를 추출하고 분석할 수 있도록 합니다.

비용, 규모, 성능, 사용 용이성 및 보안 면에서 클라우드의 고유한 이점은 전체 데이터 레이크 계획 및 결과에 미치는 영향으로 인해 명확하게 인식되어야 합니다.

클라우드와 데이터 레이크의 공존 방식에 대해 더 알고 싶다면 "2022 Alibaba Cloud 글로벌 온라인 데이터 레이크 정상 회담"에 참석하여 최신 트렌드에 대해 알아보세요!

관련 문서

더 많은 특별 제안 살펴보기

  1. Short Message Service(SMS) & Mail Service

    최저 USD 1.99부터 시작하는 10,000개의 이메일 패키지

wave
phone 문의하기