Arsitektur Platform For AI - Platform For AI

Topik ini menjelaskan arsitektur dari Platform for AI (PAI).

Arsitektur PAI terdiri dari empat lapisan:

Lapisan Sumber Daya Dasar (Sumber Daya Komputasi & Infrastruktur):
- Infrastruktur: Menyediakan CPU, GPU, jaringan Remote Direct Memory Access (RDMA) berkecepatan tinggi, dan Container Service for Kubernetes (ACK).
- Sumber Daya Komputasi: Termasuk sumber daya komputasi cloud-native (Sumber Daya Lingjun dan sumber daya komputasi umum) serta sumber daya mesin data besar (MaxCompute dan Flink).
Lapisan Platform dan Alat (Layanan Komputasi AI Lingjun dan Kerangka AI):
- Kerangka AI: Mendukung kerangka utama seperti Alink, TensorFlow, PyTorch, Megatron, DeepSpeed, dan Reinforcement Learning from Human Feedback (RLHF).
- Optimisasi dan Akselerasi: Menyediakan Akselerasi Dataset (DatasetAcc), Akselerasi Pelatihan (TorchAcc), Pelatihan Paralel (EPL), Akselerasi Inferensi (BladeLLM), Pelatihan Toleransi Otomatis (AIMaster), dan Snapshot Pelatihan (EasyCkpt).
- Alat Pembelajaran Mesin Ujung ke Ujung:
  1. Persiapan Data: Menyediakan layanan anotasi data iTAG dan fitur manajemen dataset.
  2. Pengembangan dan Pelatihan Model: Menyediakan alat seperti Machine Learning Designer, Data Science Workshop (DSW), Deep Learning Containers (DLC), dan FeatureStore.
  3. Penerapan Model: Elastic Algorithm Service (EAS) menerapkan model sebagai layanan.
Lapisan Aplikasi (Layanan Model): PAI terintegrasi dengan layanan model dan platform aplikasi seperti komunitas ModelScope, PAI-DashScope, platform MaaS pihak ketiga, dan Alibaba Cloud Model Studio.
Lapisan Bisnis (Solusi Berbasis Skenario): PAI menyediakan solusi berbasis skenario di bidang seperti mengemudi otomatis, AI untuk Sains, pengendalian risiko keuangan, dan Rekomendasi Cerdas. Sebagai contoh, sistem internal Grup Alibaba untuk pencarian, rekomendasi, dan layanan keuangan menggunakan PAI untuk penambangan data.