E-MapReduce(EMR)는 클라우드 네이티브 오픈 소스 빅 데이터 플랫폼으로, Hadoop, Hive, Spark, StarRocks, Flink, Presto, ClickHouse 등과 같은 오픈 소스 빅 데이터 컴퓨팅 및 스토리지 엔진을 손쉽게 통합하여 사용할 수 있도록 지원합니다. EMR 컴퓨팅 리소스는 유연하게 확장할 수 있습니다. EMR 클러스터는 Alibaba Cloud Elastic Compute Service(ECS), Container Service for Kubernetes(ACK) 또는 서버리스 아키텍처를 기반으로 배포할 수 있습니다.
혜택

-
오픈소스 구성 요소와의 완벽한 호환성
EMR은 100% 오픈 소스 구성 요소로 구축되었으며, 오픈 소스 구성 요소의 버전 업데이트에 따라 함께 발전합니다.

-
높은 보안 및 안정성
EMR을 사용하면 몇 분 내로 빅 데이터 컴퓨팅 환경을 만들 수 있습니다. 지능형 진단 및 분석, Kerberos 인증 및 데이터 암호화와 같은 기능이 지원됩니다.

-
비용 효율성
컴퓨팅 리소스는 필요에 따라 사용되고 핫데이터와 콜드 데이터는 서로 다른 레이어에 저장되며 선점형 Alibaba Cloud 인스턴스가 지원됩니다.

-
탄력적 리소스
클러스터 리소스는 클러스터 워크로드에 의해 또는 지정된 기간에 동적으로 조정될 수 있습니다. 클러스터에 대한 오토스케일링은 몇 분 내로 완료될 수 있으며 여러 탄력적 리소스 유형이 지원됩니다.
특징
사용의 용이성
환경 건물
EMR을 사용하면 EMR 콘솔에 EMR 클러스터를 만들거나 몇 분 내에 API 작업을 호출하여 EMR 클러스터를 만들 수 있습니다. 하드웨어 및 소프트웨어의 기본 배포에 집중할 필요 없이 오픈 소스 빅 데이터 프레임워크를 쉽게 배포할 수 있습니다.
리소스 스케일링
EMR을 사용하면 EMR 콘솔의 EMR 클러스터에서 또는 API 작업을 호출하여 노드 수를 늘리거나 줄일 수 있습니다. EMR이 컴퓨팅 리소스를 자동으로 관리하여 사용량과 성능 요구 사항을 충족할 수 있도록, 관리형 오토스케일링 규칙을 간편하게 설정할 수 있습니다. 이를 통해 클러스터 활용도를 개선하고 비용을 절감할 수 있습니다.
서비스 구성
EMR을 사용하면 EMR에서 제공하는 서비스를 신속하게 추가하고 서비스 상태를 모니터링하고 서비스를 구성하며 서비스 및 구성 요소에 대한 O&M 작업을 수행할 수 있습니다. EMR 클러스터에서 실행 중인 Apache Hadoop, Apache Spark, Apache Hive, Hue 등의 서비스 구성은 클러스터를 재시작하거나 종료 후 새로 생성하지 않고도 수정할 수 있습니다. 이러한 방식으로, EMR은 새로운 구성을 적용하고 예상대로 다시 구성된 서비스를 재시작할 수 있습니다다.
편리한 통합
EMR을 사용하면 EMR 콘솔에서 또는 SDK 또는 CLI를 사용하여 특정 구성을 적용할 수 있습니다.
개발 및 일정
EMR 워크플로우는 대화형 데이터 분석 및 탐색을 위한 서버리스 플랫폼입니다. 빅 데이터 및 AI의 데이터 처리 요구 사항을 충족하며 데이터 엔지니어, 데이터 분석가 및 데이터 과학자에게 시각화된 개발 환경을 제공합니다. EMR 노트북을 사용하면 SQL, Python, Markdown과 같은 여러 언어를 사용하여 코드를 작성하고, 디버깅하며, 실행할 수 있습니다. EMR 노트북은 오픈 소스 Apache DolphinScheduler와 완벽하게 호환되는 완전 관리형 서비스이며 워크플로우 및 작업을 예약하는 데 사용할 수 있습니다. EMR 워크플로우는 사용하기 쉬운 스케줄링 서비스를 제공합니다. 시각화된 운영 인터페이스를 기반으로 워크플로와 작업을 쉽게 관리하고 데이터 웨어하우스를 효율적으로 구축할 수 있습니다. 이를 통해 생산 작업을 안정적으로 운영할 수 있습니다. EMR은 DataWorks에 연결할 수 있습니다. DataWorks에서는 EMR 컴퓨팅 엔진을 기반으로 Hive, Spark SQL, Presto, MapReduce 노드와 같은 노드를 만들 수 있습니다. 워크플로우를 구성하고, 워크플로우의 노드를 정사이즈 기준으로 예약하고, 메타데이터를 관리하고, 모니터링 규칙을 구성하여 데이터 품질을 모니터링할 수도 있습니다. 이렇게 하면 중앙 집중식 방식으로 데이터레이크를 개발하고 관리할 수 있습니다.
확장성과 탄력성
서버리스
서버리스 아키텍처는 극도의 리소스 탄력성 및 안정성을 제공하며 비즈니스 부하 및 2단계 청구를 기반으로 리소스의 오토스케일링을 지원합니다. EMR 서버리스 인스턴스는 고정 사양을 사용하지 않습니다. 인스턴스의 컴퓨팅 리소스는 워크로드에 따라 지정한 범위 내에서 자동으로 확장됩니다. 이를 통해 리소스 낭비를 방지하고 O&M 비용을 줄일 수 있습니다.
오토스케일링
ECS의 EMR은 여러 유형의 자동 스케일링 규칙을 지원합니다. EMR은 시간이나 부하에 따라 클러스터 컴퓨팅 리소스를 몇 분 내에 자동으로 확장하거나 축소할 수 있습니다.
비용 최적화
더 많은 청구 방법
EMR은 구독, 종량제 및 선점 인스턴스를 포함한 여러 청구 방법을 제공합니다. 단기 사용의 경우 종량제 청구 방법을 사용하는 것이 권장됩니다. 장기 사용의 경우 구독 청구 방법을 사용하는 것이 권장됩니다. Alibaba Cloud는 더 긴 구독 기간 동안 더 낮은 가격을 제공합니다.
YiTian ARM 아키텍처
ECS의 EMR은 YiTian ARM 아키텍처를 지원합니다. 자체 개발 된 YiTian 710 칩은 소프트웨어와 하드웨어 간의 협업을 구현하고 비용 효율성을 40% 넘게 향상시키는 데 도움이 됩니다.
모니터링 및 진단
클러스터 모니터링
EMR은 다양한 서비스 및 호스트 모니터링 지표를 제공하여 시각화된 방식으로 서비스 및 호스트 예외 사항을 신속하게 찾습니다.
이벤트 센터
EMR은 서비스 이벤트, 콘솔 관련 이벤트 및 호스트 이벤트와 같은 다양한 유형의 이벤트를 제공합니다. 이를 통해 클러스터 문제를 빠르고 구체적으로 식별하고 문제의 원인을 추적할 수 있습니다.
진단 분석
EMR은 서비스 성능을 최적화하기 위해 HDFS 콜드 데이터와 핫 데이터 그리고 작은 파일의 분석을 지원합니다.