개요
AI 서비스를 위한 머신러닝 기술의 개발은 데이터, 알고리즘 및 컴퓨팅 성능에 의존합니다. Alibaba Cloud AI Acceleration 솔루션은 주요 데이터 세트 및 GPU 가속기를 활용하여 데이터 집약적 애플리케이션을 조정하고 GPU 인스턴스 활용을 최적화하며 AI 모델 훈련 및 추론 작업의 속도를 높입니다. 또한 Alibaba Cloud의 사용자 지정 가능한 클라우드 네이티브 AI 훈련 플랫폼을 사용하여 비즈니스 요구 사항에 맞게 조정하고 AI 인프라 및 일일 O&M의 효율성을 개선할 수 있습니다.
백서 다운로드솔루션의 주요 특징
-
비용 효율적인 원자 가속
Stanford DAWN Deep Learning Benchmark에 따르면 가장 빠른 GPU Accelerator인 AIACC로 AI 모델 훈련 및 추론 속도를 높여 AI 훈련 모델을 70%, 추론을 2~3배 가속화하고 비용을 절감합니다
-
고효율 GPU 사용
동일한 GPU의 리소스를 공유하는 GPU 클러스터 스케줄링을 통해 클러스터에 있는 모든 GPU의 사용률을 높이고 GPU 격리 메커니즘을 통해 애플리케이션 간의 간섭을 제거합니다
-
CNCF 인증 데이터 세트 가속기
데이터 집약적인 애플리케이션을 위한 Fluid, Distributed Dataset Orchestrator 및 Accelerator를 사용하여 AI 훈련 중에 높은 접속 레이턴시, 여러 데이터 소스의 복잡한 병렬 접속 및 취약한 데이터 격리 문제를 해결합니다
-
사용자 지정 가능한 AI 훈련 플랫폼
Alibaba Cloud-Native AI Suite를 사용하여 개발 및 O&M용 콘솔로 클라우드 네이티브 AI 훈련 플랫폼을 구축하고 사용자 지정하여 딥러닝의 모든 단계에서 AI 엔지니어링 효율성을 높이십시오
작동 방식
Alibaba AI Acceleration 솔루션에는 Cloud-Native AI Suite 계층, AI Job Scheduling 계층, AI Data Acceleration 계층, AI Computing Acceleration Engine 계층, Resource Scheduling 계층 및 Computing Resource 계층이 포함됩니다. 각 계층은 다양한 시나리오에서 AI 애플리케이션 특성을 기반으로 특정 가속 솔루션을 제공합니다.
클라우드 네이티브 AI 제품군: 기본 서비스 및 구성 요소로 작업을 단순화하고 GPU 리소스 사용률을 모니터링하고 AI 작업의 로그를 수집 및 분석합니다. 명령줄을 사용하여 AI 작업을 제출하고 모델 훈련 일정을 확인할 수 있습니다.
AI 작업 스케쥴링: AI 작업을 예약하여 모델 훈련을 가속화하고 GPU 사용률을 높이며 비용을 절약할 수 있습니다.
AIACC: Tensoflow, PyTorch, MXNet, Caffe와 같은 딥러닝 프레임워크를 활용하여 이미지를 분류하고 이미지 인식, 클릭률 예측, 신경 언어 프로그래밍, 음성 인식, 얼굴 인식 등을 아카이브합니다.
데이터 가속화: Alibaba Cloud에서 실행되는 온프레미스 및 모델 훈련의 데이터가 서로 다른 디바이스에 저장된 별도의 스토리지 및 컴퓨팅 리소스 아키텍처를 채택합니다. 데이터는 작은 파일에 저장되고 모델 훈련 전에 워밍업되어 전송 및 훈련 효율성이 향상됩니다.
리소스 스케쥴링: 분산 모델 훈련을 위해 여러 AI 작업과 GPU 리소스를 공유하고 여러 GPU에서 단일 AI 작업을 실행하여 GPU 사용률을 높이고 비용을 절감합니다.
컴퓨팅 리소스-GPU: cGPU를 사용하여 컨테이너로 GPU 메모리와 컴퓨팅 성능을 관리하고 스케줄링하여 AI 학습 및 추론을 가속화해보세요.
사용 사례

이미지 인식
MXNet + SyncBN 배포 훈련. 성능이 50% 증가했습니다.

NLP
자연어 처리 배포 훈련. 성능이 6배 증가했습니다.

음성 인식
음성은 단어로 변환됩니다. 학생에게 발송된 문자로, 학생이 말할 때 화면에 표시됩니다.

CTR(클릭률)
배포 훈련. 성능이 6.6배 증가했습니다.
특별 혜택
File Storage NAS
ECS 인스턴스, HPC 및 Container Service와 함께 사용하기 위한 간단하고 확장 가능하며 안정적인 온디맨드 네트워크 연결 스토리지입니다.
25% 할인
• 종량제
• 용량 NAS 파일 시스템
• 성능 NAS 파일 시스템
Container Registry
컨테이너 이미지의 안전한 관리와 효율적인 배포를 제공하는 엔터프라이즈급 플랫폼
• ACR EE Advanced Edition
• 기업 수준 보안
• 가속화된 글로벌 배포
Platform for AI
데이터 마이닝 및 분석을 위한 엔드 투 엔드 플랫폼
• 시각화된 인터페이스
• 100개 이상의 알고리즘 구성 요소
• 강력한 컴퓨팅 기능
보안 및 규정 준수
-
CSA STAR -
ISO 27001 -
SOC2 Type II Report -
C5 -
MLPS 2.0 -
MTCS
관련 자료
모범 사례
AI 가속 데모 - AIACC + ACK(Tensorflow)
이 데모는 AI 훈련 속도를 높이기 위해 ACK(K8s)에서 실행되는 AI 가속 엔진인 AIACC를 활용하여 Tensorflow 2.4로 ImageNet 데이터를 훈련하는 데 도움이 됩니다.
자세히 알아보기 >모범 사례
AI 가속 데모 - AIACC(TensorFlow)
이 솔루션은 AI 가속 엔진인 AIACC를 활용하여 TensorFlow 2.4로 ImageNet을 훈련하여 AI 훈련 속도를 높이는 데 도움이 됩니다.
자세히 알아보기 >모범 사례
AI 가속 데모 - AIACC + ACK(Pytorch)
이 솔루션은 ACK(K8s)에서 실행되는 AI 가속 엔진인 AIACC를 활용하여 Pytorch 1.9로 ImageNet 데이터를 훈련하여 AI 훈련 속도를 높이는 데 도움이 됩니다.
자세히 알아보기 >온라인 과정
AIACC로 딥 러닝 작업 가속화
이 데모에서는 기존 TensorFlow 코드를 변경하지 않고 18%~74%를 달성할 수 있는 방법을 보여줍니다. 표준 MNIST 수기 숫자 데이터 세트와 샘플 코로나19 흉부 엑스레이를 모두 사용하여 AIACC의 힘을 입증합니다.
자세히 알아보기 >