왜 PAI-Lingjun Intelligent Computing Service인가
PAI-Lingjun Intelligent Computing Service는 대규모 딥러닝 및 통합 인텔리전트 컴퓨팅을 위한 PaaS 서비스입니다. PAI-Lingjun Intelligent Computing Service는 Alibaba Cloud 퍼블릭 클라우드의 서버리스 에디션과 익스클루시브 에디션을 모두 제공합니다. 소프트웨어와 하드웨어의 통합 최적화 기술을 기반으로 PAI-Lingjun Intelligent Computing Service는 프로세스 엔지니어링을 위한 고성능 이기종 컴퓨팅 기반과 AI 기능을 구축합니다. PAI-Lingjun Intelligent Computing Service의 핵심 장점은 기초 모델 학습, 자율주행, 과학 연구, 금융 등을 위한 고성능 컴퓨팅 요구 사항을 충족하는 고성능, 효율성 및 활용도입니다.
-
서버리스
Lingjun Serverless Edition은 AI 컴퓨팅 작업을 빠르게 설정하고 실행할 수 있도록 도와줍니다. 자동 운영 및 유지 관리(O&M)를 기반으로 복잡한 이기종 시스템을 관리하며, Alibaba Cloud 컴퓨팅, 스토리지 및 네트워크 서비스와 원활하게 통합됩니다.
-
고성능 RDMA 네트워크
Alibaba Cloud의 고성능 RDMA(Remote Direct Memory Access) 네트워크는 800Gbit/s의 고속, 저지연 전송과 전송 안정성과 보안을 개선하는 GPU 직접 연결 기술을 통해 AI 학습을 크게 가속화합니다.
-
효율적인 CPFS 스토리지 시스템
CPFS(Cloud Paralleled File System)은 완전 병렬 스토리지 아키텍처를 사용하며 POSIX/MPI-IO 및 NFS(Network File System) 프로토콜을 지원합니다. 단일 클러스터는 최대 2TB/s의 데이터 처리량과 3,000만 IOPS를 지원하여 AI 학습을 위한 효율적이고 안정적인 스토리지 서비스를 제공합니다.
-
포괄적인 AI 가속화
분산 트레이닝 가속 엔진은 데이터 세트 가속, 컴퓨팅 가속, 알고리즘 최적화, 스케줄링 알고리즘, 리소스 최적화 기능을 제공합니다. 이를 통해 컴퓨팅 성능을 최대한 활용하여 AI 학습 및 추론의 속도와 효율성을 종합적으로 개선할 수 있습니다.
에디션
-
-
PAI-Lingjun Intelligent Computing Service Serverless Edition
서버리스 에디션은 유연하고 비용 효율적인 옵션을 제공합니다. 비즈니스 요구 사항에 따라 네트워크 및 스토리지 서비스를 구매하고 클릭 몇 번으로 서비스를 확장할 수 있습니다. 컴퓨팅 노드를 구매한 후에는 CPU 관리 노드를 계획할 필요 없이 제로 비용의 O&M을 달성할 수 있습니다.
-
핵심 구성 요소:
-
GPUs for PAI-Lingjun Intelligent Computing Service
-
CPFS 스토리지 시스템
-
-
PAI-Lingjun Intelligent Computing Service Exclusive Edition
익스클루시브 에디션을 사용하면 Alibaba Cloud에서 전용 클러스터를 생성하여 비즈니스 전용 AI 플랫폼과 O&M 서비스를 제공하고, Alibaba Cloud의 표준 및 상호 연결된 컴퓨팅, 스토리지, 네트워크 서비스를 기반으로 편리한 운영 관리를 할 수 있습니다.
-
핵심 구성 요소:
-
GPUs for PAI-Lingjun Intelligent Computing Service
-
Lingjun Cloud Connection
-
CPFS 스토리지 시스템
-
Container Service for Kubernetes (ACK) for Lingjun
-
Elastic Compute Service(ECS) 인스턴스
-
ApsaraDB RDS
특징
대규모 AI 컴퓨팅 성능을 제공하는 차세대 AI 컴퓨팅 플랫폼
엔터프라이즈급 AI 개발 플랫폼
AI 역할 관리 및 컴퓨팅 리소스 관리 지원과 함께 AI 개발 및 AI 교육과 같은 전체 프로세스 AI 엔지니어링 기능 제공
원스톱 AI 컴퓨팅 서비스
클릭 몇 번으로 컴퓨팅 클러스터, 고성능 스토리지 시스템, 컨테이너 서비스, AI 개발 플랫폼을 활성화 및 관리하고, 수명 주기 관리를 수행할 수 있으며, 완전 자동화된 O&M으로 AI 컴퓨팅 작업을 빠르게 실행할 수 있습니다.
사용하기 쉬운 분산 컴퓨팅
간단한 설정만으로 파운데이션 모델 훈련 작업을 분산하여 자동으로 동시에 실행할 수 있습니다. 최적화된 컴퓨팅, 네트워크, 통신, 스토리지 아키텍처를 통해 리소스 활용도를 높이고 모델 학습을 가속화하여 비용과 시간을 크게 절감할 수 있습니다.
클러스터 관리
콘솔에서 또는 API 작업을 호출하여 클러스터를 빠르게 생성하고, 클러스터를 모니터링하고, 다양한 모니터링 메트릭, 이벤트, 통계를 통해 시각화된 방식으로 호스트 및 서비스의 오류를 해결할 수 있습니다. 또한 호스트, 네트워크 및 작업에 대한 관련 진단 및 분석 툴을 사용하여 근본 원인 분석 및 성능 조정을 수행할 수도 있습니다.
RDMA 네트워크
고성능 RDMA 컴퓨팅, 스토리지 및 제어 네트워크는 강력한 보안 격리, 분 단위 배포, 지속적인 가속, 높은 안정성 등의 기능을 통해 고성능 및 고가용성 Alibaba Cloud 서비스에 대한 액세스를 지원합니다.
고성능 스토리지
병렬 I/O 아키텍처는 스토리지 성능을 향상시킵니다. 단일 클러스터는 최대 2TB/s의 데이터 처리량과 3,000만 IOPS를 지원하며 클라우드 및 온프레미스 스토리지 시스템과 통신할 수 있습니다.
작동 방식
개요
PAI-Lingjun Intelligent Computing Service는 서버리스 컴퓨팅으로 AI 개발과 Stable Diffusion, Llama 2, OPT(Open Pre-trained Transformer)와 같은 파운데이션 모델의 학습 작업을 지원합니다. 이미지 처리(생성형 AI 기반 이미지 생성 등), 자연어 처리(생성형 AI 기반 텍스트 생성 등), 오디오 처리, 비디오 처리 등에 최적화된 인텔리전트 컴퓨팅 서비스를 제공하여 AI 학습 성능과 효율성을 향상시킵니다.
효율성 향상을 위한 포괄적인 최적화
-
매우 높은 처리량 및 IOPS
AI 학습 작업의 경우 데이터를 영구 저장소에 미리 로드하여 데이터 로딩 및 쓰기를 위한 높은 대역폭을 확보하여 학습 효율성을 향상시킵니다.
-
높은 리소스 활용도
고도로 세분화되고 매우 효율적인 GPU 리소스 스케줄링으로 협업 개발이 용이합니다. 이 기술은 광군제 글로벌 쇼핑 페스티벌 기간 동안 대규모 애플리케이션에서 리소스 활용도를 3배 증가시키며 검증되었습니다.
개요
초대형 통합 컴퓨팅 성능은 딥러닝 및 고성능 컴퓨팅 작업의 통합 배포와 스케줄링을 지원합니다. 또한 과학 연구, 의료 R&D, 엔지니어링 시뮬레이션 등을 위한 통합된 표준 컴퓨팅 서비스를 제공하여 혁신을 촉진하고 효율성을 개선하며 AI와 HPC 에코시스템의 통합을 촉진합니다.
혁신을 위한 통합 개발
-
새로운 과학 연구 지원
Lingjun은 클라우드 네이티브 AI 및 HPC 애플리케이션 개발을 지원하며 과학 연구, 의료 R&D, 엔지니어링 시뮬레이션을 위한 통합 컴퓨팅 서비스를 제공합니다. 이를 통해 지역 간 협업, 리소스 활용, 기술 생태계의 통합을 개선합니다.
-
과학 연구를 위한 종합 플랫폼
Lingjun은 RDMA 네트워크와 Alibaba Cloud의 고성능 통신 라이브러리를 기반으로 AI 및 HPC 애플리케이션의 지점 간 레이턴시를 2마이크로초로 단축하고 최대 수만 개의 컴퓨팅 노드를 병렬로 실행하여 대규모 과학 컴퓨팅의 효율성을 크게 향상시킵니다.
Lingjun, Alibaba Cloud 생성형 AI 가속화
사용자 가이드
- 비즈니스 요구 사항에 따라 필요한 유형의 컴퓨팅 노드를 구매할 수 있습니다.
- 1. Lingjun Intelligent Computing Service 콘솔에 로그온합니다.
- 2. 왼쪽 탐색 창에서 클러스터 및 노드 > 노드 관리를 선택합니다.
- 3. 새 노드 구매하기(Buy a new node)를 클릭하여 구매 페이지로 이동한 다음 제품 사양을 선택합니다.
- Lingjun의 노드 클러스터는 하나의 Lingjun Cloud Connection 인스턴스를 통해서만 퍼블릭 클라우드에 연결할 수 있습니다.
- 1. Lingjun Intelligent Computing Service 콘솔에 로그인하고 Lingjun Cloud Connection의 구매 페이지로 이동합니다.
- 2. 사양을 선택한 다음 구매하기(Buy Now)를 클릭하고 메시지가 표시되면 결제를 완료합니다.
- 구매 후 기술 전문가가 네트워크 구성을 완료할 수 있도록 도와드립니다.
- 1. CPFS 스토리지 시스템 구매 페이지로 이동합니다.
- 2. 사양을 선택한 다음 구매하기(Buy Now)를 클릭하고 메시지가 표시되면 결제를 완료합니다.
- 참고: CPFS 스토리지 시스템은 Lingjun Intelligent Computing Service와 같은 지역에 있어야 합니다. CPFS 스토리지는 별도로 청구됩니다.