×
Community Blog Dari Brute Force menjadi Finesse: Evolusi dan Masa Depan Infrastruktur Pelatihan AI

Dari Brute Force menjadi Finesse: Evolusi dan Masa Depan Infrastruktur Pelatihan AI

Artikel ini mengeksplorasi sejarah dramatis pelatihan AI, memecahkan hambatan penting yang mengancam untuk menghambat kemajuan, dan membidik masa depa...

Oleh Farruh Kushnazarov

Dunia telah menyaksikan bahwa kecerdasan buatan berkembang dari pencarian akademis ceruk menjadi gaya transformatif yang membentuk ulang industri. Di jantung revolusi ini terdapat model dasar–jaringan neural kolosal yang telah menunjukkan kemampuan menakjubkan dalam bahasa, penalaran, dan kreativitas. Namun, kisah sukses mereka terkait erat dengan kisah infrastruktur yang mendukung mereka. Ini adalah kisah pertumbuhan eksponensial dari menghadapi batas fisik, dan dari inovasi tanpa henti yang diperlukan untuk membangun landasan komputasional yang kuat bagi generasi kecerdasan berikutnya.

Artikel ini mengeksplorasi sejarah dramatis pelatihan AI, memecahkan hambatan penting yang mengancam untuk menghambat kemajuan, dan membidik masa depan infrastruktur yang direkayasa untuk mengatasi tantangan monumental ini.

Bagian 1: Perkembangan Skala yang Terus Berlangsung: Sebuah Sejarah Pelatihan AI

Perjalanan menuju model triliun parameter saat ini bukanlah serangkaian garis lurus dari kesetimbangan terpatah-patah, di mana terobosan konseptual dibuka oleh tingkat kekuatan komputasi baru. Selama beberapa dekade, harapan terhadap jaringan neural terhambat oleh kemampuan pemrosesan dan data yang terbatas. Semuanya berubah pada 2012.

Momen AlexNet: Dentuman Besar Pembelajaran Mendalam

Tantangan Pengenalan Visual Skala Besar ImageNet (ILSVRC) 2012 secara luas dianggap sebagai "Dentuman Besar" era AI modern. Sebuah jaringan neural konvolusional (CNN) bernama AlexNet, yang dikembangkan oleh Alex Krizhevsky, Ilya Sutskever, dan Geoffrey Hinton, mencapai kemenangan yang menakjubkan [1]. AlexNet tidak hanya menang; ia memecahkan rekor dengan tingkat kesalahan 15,3%, lompatan besar dari 26,2% entri terbaik berikutnya.

Kesuksesan AlexNet bukan hanya karena arsitektur barunya. Yang terpenting, ini adalah salah satu model pertama yang akan dilatih pada Unit Pemrosesan Grafis (GPU). Dengan memanfaatkan kekuatan pemrosesan paralel dua GPU NVIDIA GTX 580, para peneliti dapat melatih model dengan 60 juta parameter pada 1,2 juta himpunan data gambar—Skala sebelumnya tidak dapat dibayangkan. Momen ini membuktikan bahwa dengan data dan komputasi yang cukup, pembelajaran yang mendalam tidak hanya layak tetapi lebih unggul daripada metode tradisional, memicu ledakan Kambriah dalam penelitian AI.

alexnet_architecture
Arsitektur AlexNet, yang menggabungkan lapisan konvolusional mendalam dengan pemrosesan GPU untuk mencapai performa terobosannya. Sumber: Krizhevsky et al., 2012.

A sample of the ImageNet Dataset
Sampel kecil jutaan gambar berlabel dalam himpunan data ImageNet yang menjadi bahan bakar revolusi pembelajaran mendalam. Sumber: ImageNet

Revolusi Transformer: Arsitektur Baru untuk Penskalaan

Lima tahun kemudian, terjadi pergeseran seismik lainnya. Pada 2017, sebuah makalah dari Google berjudul "Attention is All You Need" memperkenalkan arsitektur Transformer [2]. Desain baru ini sepenuhnya meniadakan struktur berulang dan konvolusional yang mendominasi bidang ini. Sebaliknya, arsitektur ini mengandalkan sebuah mekanisme yang disebut "perhatian mandiri", yang memungkinkan model untuk menimbang pentingnya berbagai kata dalam urutan input secara bersamaan.

Inovasi utamanya adalah paralelisasi. Tidak seperti Jaringan Neural Berulang (RNN) yang memproses data secara berurutan, Transformer dapat memproses semua bagian input sekaligus. Perubahan arsitektur ini merupakan pasangan sempurna untuk sifat paralel GPU yang masif, membuka kemampuan untuk melatih model yang jauh lebih besar dan lebih kompleks dengan kecepatan yang belum pernah ada sebelumnya. Transformer menjadi cetak biru mendasar bagi hampir semua model bahasa besar (LLM) selanjutnya, termasuk seri GPT.

transformer_architecture
Arsitektur Transformer asli saat diperkenalkan dalam makalah "Attention Is All You Need". Sumber: Vaswani et al., 2017.

self_attention
Visualisasi mekanisme perhatian mandiri, yang memungkinkan model untuk menimbang pentingnya berbagai kata dalam sebuah kalimat. Sumber: Jay Alammar

Era Model Dasar: Perlombaan Eksponensial

Pengenalan Transformer mengawali perlombaan komputasional global. Ukuran, biaya, dan kompleksitas model AI mulai tumbuh dengan laju eksponensial. Tren ini dicontohkan bukan hanya oleh satu perusahaan, tetapi oleh pengembangan paralel di seluruh dunia, terutama dengan seri GPT OpenAI di Barat dan seri Qwen (通义千问) Alibaba di Timur. Keduanya telah mendorong batasan skala, tetapi dengan filosofi yang berbeda—GPT yang berfokus pada kemampuan terobosan dan Qwen yang menekankan pada sumber terbuka yang kuat dan pendekatan multibahasa.

Evolusi jalur ganda ini menyoroti kemajuan cepat di seluruh dunia menuju AI yang lebih canggih dan efisien, dengan setiap rilis model baru menetapkan standar yang lebih tinggi untuk yang berikutnya.

Model Tanggal Rilis Parameter Inovasi/Fokus Utama
GPT-1 2018 117 Juta Pra-Pelatihan Tanpa Pengawasan (OpenAI)
GPT-2 2019 1,5 Miliar Performa Tugas Zero-shot (OpenAI)
GPT-3 2020 175 Miliar Pembelajaran dalam Konteks Beberapa Shot (OpenAI)
Qwen-7B Agu 2023 7 Miliar Basis multibahasa sumber terbuka yang kuat (Alibaba)
GPT-4 Sep 2023 ~1,76 Triliun (MoE) Penalaran Tingkat Lanjut, Multimodalitas (OpenAI)
Qwen-72B Nov 2023 05-72 Miliar 32K panjang konteks, sumber terbuka (Alibaba)
Qwen2.5 Sep 2024 Hingga 72 Miliar Terlatih dengan 18T token, pengodean yang disempurnakan/matematika (Alibaba)
Qwen3-Max Sep 2025 ~ 1 Triliun Model terbesar dan paling mahir dari Qwen (Alibaba) saat ini

Pertumbuhan yang eksplosif ini, di mana tuntutan komputasi meningkat dua kali lipat setiap lima hingga enam bulan, telah mendorong pengembangan AI garis depan ke dalam domain yang dapat diakses hanya oleh beberapa perusahaan hyperscale dengan modal untuk membangun dan mengoperasikan supercomputer skala planet [5].

timeline_fm_size
Garis waktu yang menunjukkan evolusi paralel seri GPT OpenAI dan seri Qwen Alibaba, menyoroti perlombaan global dalam pengembangan model dasar.

Bagian 2: Celah dalam Dasar Tersebut: Kemacetan Infrastruktur AI Modern

Pencarian skala tanpa henti ini telah mendorong infrastruktur yang mendasari menuju titik pecah. Melatih model triliun parameter bukan sekadar menambahkan lebih banyak GPU; ini adalah tantangan rekayasa yang kompleks penuh dengan kemacetan fisik dan sistemik. Tujuan utamanya adalah menjaga setiap prosesor mahal dimanfaatkan sepenuhnya, tapi sejumlah masalah menghadang.

ai_datacenter
Pabrik AI modern adalah pusat data besar yang berisi ribuan GPU yang saling terhubung. Sumber: NVIDIA

bottlenecks_schematic

Biaya Umum Komunikasi

Dalam pelatihan terdistribusi, model tersebar di ribuan GPU, masing-masing menangani satu potongan teka-teki. Langkah paling penting dan memakan waktu adalah sinkronisasi gradien, di mana semua GPU harus mengomunikasikan hasilnya untuk sepakat pada pembaruan bobot model berikutnya. Ini menciptakan hambatan komunikasi yang masif.

  • Komunikasi Intra-Node: Dalam satu server, GPU terhubung dengan interkoneksi berkecepatan tinggi seperti NVLink dari NVIDIA, yang dapat menawarkan bandwidth hingga 1.800 GB/dtk [6]. Ini memungkinkan komunikasi yang efisien antara sekelompok kecil GPU (biasanya 8 atau 16).
  • Komunikasi Antar-Node: Tantangan sebenarnya timbul saat menskalakan hingga ribuan GPU di berbagai server. Node-node ini berkomunikasi melalui struktur jaringan, biasanya menggunakan InfiniBand atau Ethernet berkecepatan tinggi. Bahkan dengan kecepatan 400 Gbps, ini beberapa tingkat besar yang lebih lambat daripada komunikasi on-chip dan menjadi faktor pembatas utama. Desain jaringan tradisional juga dapat terganggu karena "polarisasi hash", yang menyebabkan kemacetan lalu lintas dan melemahkan performa [7].

nvlink_architecture
Diagram teknologi NVLink NVIDIA, yang menyediakan komunikasi langsung berkecepatan tinggi antara GPU dalam server. Sumber: NVIDIA

gpu_comm_schematic
Skema yang menunjukkan kemacetan komunikasi dalam penyiapan pelatihan terdistribusi, tempat GPU berkomunikasi satu sama lain dan dengan struktur jaringan.

Dinding Memori

Model AI Modern adalah pemakai memori yang rakus. Parameter, status pengoptimal, dan aktivasi perantara untuk model triliun parameter dapat memerlukan terabyte penyimpanan, jauh melebihi memori yang tersedia dalam satu GPU (biasanya 80-120 GB). Ini menimbulkan masalah "dinding memori".

Data harus selalu diacak antara memori bandwidth tinggi (HBM) GPU dan RAM sistem yang lebih lambat atau bahkan penyimpanan jaringan. Gerakan data ini tidak hanya lambat tetapi juga sangat padat energi. Menurut NVIDIA, hingga 70% energi dalam beban kerja GPU biasa dikonsumsi hanya untuk memindahkan data [8].

hbm_memory
Memori Bandwidth Tinggi (HBM) menumpuk memori secara vertikal untuk menyediakan bandwidth masif yang dibutuhkan oleh GPU modern, tetapi masih merupakan sumber daya terbatas dan mahal. Sumber: Semiconductor Engineering

Kemacetan I/O

Bahkan sebelum dapat memulai kalkulasi, GPU memerlukan data. Dalam banyak skenario pelatihan skala besar, proses memuat data pelatihan dari penyimpanan ke GPU dapat menjadi kemacetan besar. Sistem file paralel performa tinggi diperlukan untuk mengirimkan data dengan kecepatan terabyte per detik untuk menjaga asupan puluhan ribu GPU. Jika jalur data tidak dioptimalkan dengan sempurna, GPU dapat menganggur, membuang-buang jutaan dolar untuk potensi komputasi. Dalam beberapa kasus, memuat data dapat menghabiskan lebih dari 60% dari total waktu pelatihan, secara efektif mengurangi setengah dari efisiensi seluruh kluster [9].

Daya dan Pendinginan

Energi yang diperlukan untuk mendukung pabrik AI ini sangat besar. Satu proses pelatihan skala besar dapat menghabiskan listrik layaknya kota kecil. International Energy Agency memperkirakan bahwa penggunaan listrik pusat data dapat meningkat dua kali lipat hingga 1.000 terawatt-jam pada 2026, yang sebagian besarnya digerakkan oleh AI [10]. Konsumsi daya yang luar biasa ini menghasilkan panas yang sangat besar, menciptakan tantangan paralel dalam pendinginan. Pendinginan udara tradisional menjadi tidak memadai, sehingga mendorong industri menuju solusi yang lebih eksotis seperti cairan dan pendinginan celup untuk mengelola densitas termal yang ekstrem dari perangkat keras AI modern.

gpu_servers
Tumpukan padat server GPU menghasilkan panas yang besar, sehingga pendinginan menjadi tantangan infrastruktur yang sangat penting. Sumber: AMAX

Bagian 3: Membentuk Masa Depan: Mengatasi Kendala Infrastruktur

Industri ini menangani kendala ini dengan pendekatan dari banyak sudut, berinovasi di seluruh perangkat keras, perangkat lunak, dan arsitektur sistem. Masa depan infrastruktur AI bukan hanya tentang chip yang lebih kuat, tetapi tentang sistem holistik yang dirancang bersama, di mana setiap komponen dioptimalkan untuk efisiensi dan skala.

solutions_schematic
Skema solusi yang diusulkan untuk mengatasi kendala infrastruktur.

Revolusi Perangkat Keras: Cahaya, Kustomisasi, dan Integrasi

Interkoneksi Optik: Pergeseran paling jelas terlihat adalah perpindahan dari interkoneksi listrik (tembaga) ke optik (berbasis cahaya). Fotonik silikon menjanjikan transmisi data pada kecepatan terabit per detik dengan latensi dan konsumsi daya yang sangat rendah. Optik yang dipaketkan bersama, yang mengintegrasikan I/O optik langsung ke paket prosesor, akan meniadakan kebutuhan akan koneksi listrik yang lambat dan menghabiskan daya, secara langsung mengatasi kendala komunikasi dan energi [11].

silicon_photonics_jpeg
Fotonik silikon menggunakan cahaya untuk transmisi data, menawarkan jalan menuju bandwidth yang jauh lebih tinggi dan konsumsi daya yang lebih rendah dibandingkan dengan kawat tembaga tradisional. Sumber: FindLight

copackaged_optics
Optik yang dipaketkan bersama (CPO) mengintegrasikan transceiver optik langsung dengan chip prosesor, meminimalkan jarak perjalanan data dan memaksimalkan efisiensi. Sumber: Anritsu

Akselerator Generasi Berikutnya: Walaupun GPU tetap dominan, lanskapnya menjadi beragam. ASIC (Application Specific Integrated Circuit), seperti TPU dari Google dan MTIA dari Meta dirancang untuk beban kerja AI spesifik, yang menawarkan performa dan efisiensi yang lebih unggul untuk tugas targetnya. Tren menuju akselerator khusus domain ini akan memungkinkan infrastruktur yang lebih dioptimalkan melampaui GPU satu ukuran untuk semua.

Arsitektur Memori Terpadu: Untuk menghancurkan dinding memori, berbagai perusahaan mengembangkan chipset yang sangat terintegrasi. Grace Hopper Superchip dari NVIDIA, misalnya, menggabungkan CPU dan GPU dalam satu modul dengan interkoneksi koheren berkecepatan tinggi. Ini memungkinkan kedua prosesor berbagi satu kumpulan memori, yang secara drastis mengurangi gerakan data yang mahal antara domain memori CPU dan GPU.

Terobosan Perangkat Lunak dan Algoritma

Penyesuaian Efisien Parameter (PEFT): Tidak setiap tugas memerlukan pelatihan ulang model multi-miliar dolar dari awal. Berbagai teknik, seperti LoRA (Low Rank Adaptation) dan QLoRA memungkinkan penyesuaian efisien hanya dengan memperbarui bagian kecil parameter model [12]. Ini secara dramatis mengurangi kebutuhan komputasional dan memori, membuat adaptasi model dapat diakses oleh berbagai pengguna dan organisasi yang lebih luas.

Pengoptimal dan Algoritma Modern: Inovasi perangkat lunak memainkan peran penting dalam meningkatkan efisiensi. ZeRO (Zero Redundancy Optimizer) dari Microsoft mempartisi keadaan model di seluruh GPU yang tersedia, memungkinkan pelatihan model masif dengan jauh lebih sedikit memori per perangkat [13]. Algoritma seperti FlashAttention merekayasa ulang mekanisme perhatian untuk mengurangi pembacaan/penulisan memori, memberikan peningkatan kecepatan yang signifikan dan berkurangnya jejak memori.

Inovasi Arsitektur: Kebangkitan Supernode

Superkomputer AI yang dibangun dengan tujuan tertentu mengintegrasikan solusi perangkat keras dan perangkat lunak ini menjadi satu kesatuan yang kohesif. Tren utama di area ini adalah pengembangan arsitektur supernode, yang bertujuan menciptakan unit komputasi yang lebih besar, lebih canggih, dan lebih efisien. Arsitektur ini mempertimbangkan kembali rak server tradisional untuk mengoptimalkan beban kerja spesifik AI.

Satu contoh terkemuka adalah platform Lingjun Alibaba Cloud, yang memanfaatkan desain supernode Panjiu AL128. Arsitektur ini merepresentasikan pergeseran menuju sistem yang lebih modular dan terpisah. Fitur utama meliputi:

  • Interkoneksi Ortogonal: Alih-alih perkabelan yang kompleks, node GPU dan node sakelar kecepatan tinggi diatur dalam tata letak ortogonal. Desain ini meminimalkan kehilangan sinyal untuk koneksi kecepatan tinggi (hingga 224 Gbit/dtk SerDes) serta secara dramatis meningkatkan keandalan dan kemampuan menyediakan layanan [14].
  • Desain Terpisah: Node CPU, node GPU, dan sistem daya dipisahkan, memungkinkan konfigurasi fleksibel (misalnya, rasio CPU ke GPU yang berbeda) dan peningkatan independen. Modularitas ini sangat penting untuk beradaptasi dengan lanskap perangkat keras yang berubah cepat.
  • Pendinginan Cairan dan Daya Densitas Tinggi: Rak Panjiu AL128 dirancang untuk menangani daya ekstrem dan beban termal, dengan kapasitas hingga 350 kW untuk daya dan 500 kW untuk pembuangan panas, menggunakan pendinginan cairan untuk mengelola output panas 2 kW per GPU [14].

Alibaba Cloud Panjiu AL128 Supernode Rack
Arsitektur supernode Panjiu AL128, yang memiliki desain interkoneksi ortogonal dan modul terpisah untuk CPU, GPU, dan daya. Sumber: Alibaba Cloud

Walaupun terintegrasi erat, sistem densitas tinggi menawarkan penguatan performa yang signifikan (Alibaba mengklaim peningkatan 50% dalam performa inferensi untuk daya komputasi yang sama), sistem ini juga memiliki berbagai tantangan. Kelebihannya mencakup efisiensi yang lebih tinggi, latensi komunikasi yang lebih rendah, dan skalabilitas yang lebih besar di dalam supernode. Namun, kekurangannya termasuk meningkatnya kompleksitas, ketergantungan pada perangkat keras dan interkoneksi kustom (seperti UALink), serta kebutuhan akan pendinginan cairan dan infrastruktur daya yang canggih, yang dapat meningkatkan modal dan biaya operasional.

Inovasi arsitektur ini, dikombinasikan dengan teknik lainnya, akan menciptakan blueprint baru bagi pabrik AI:

  • Topologi Jaringan Tingkat Lanjut: Arsitektur seperti jaringan tanpa hambatan bidang ganda yang digunakan dalam beberapa kluster modern dirancang untuk menghilangkan kemacetan lalu lintas dan telah menunjukkan peningkatan hingga 15% dalam performa pelatihan menyeluruh [7].
  • Prapemuatan Data Cerdas: Sistem sedang dikembangkan yang menggunakan RDMA (Remote Direct Memory Access) untuk mengambil terlebih dahulu pelatihan data ke dalam memori secara proaktif sebelum diperlukan, hampir menghilangkan hambatan I/O dan meningkatkan pemanfaatan GPU yang efektif dua kali lipat [9].
  • Desain Sistem Holistik: Masa depan terletak di rancangan bersama, di mana seluruh tumpukan–dari aplikasi dan kerangka kerja AI hingga jaringan, penyimpanan, dan silikon–direkayasa bersama untuk berfungsi sebagai satu mesin yang sangat efisien.

Untuk mendalami teknis lebih jauh tentang arsitektur Panjiu AL128, lihat analisis terperinci ini dan video gambaran umum dari Alibaba Cloud di sini and di sini.

Kesimpulan: Era Baru Infrastruktur Cerdas

Era pertama revolusi AI ditentukan oleh penskalaan brute force–model yang lebih besar, data lebih banyak, komputasi lebih banyak. Walaupun skala selalu penting, era selanjutnya akan ditentukan oleh efisiensi dan finesse. Masa Depan AI bukan hanya tentang membangun model yang lebih besar, tetapi juga tentang membangun infrastruktur yang lebih cerdas, lebih berkelanjutan, dan lebih dapat diakses untuk melatih dan menjalankannya.

Perjalanan dari penggunaan pertama GPU AlexNet menuju pabrik AI optik, yang dirancang bersama di masa depan merupakan pembuktian kecepatan inovasi tanpa henti. Mengatasi hambatan komunikasi, memori, dan daya adalah tantangan besar saat ini, dan solusi yang dikembangkan hari ini akan menjadi landasan bagi gelombang kecerdasan buatan berikutnya.


Referensi

[1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25.

[2] Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30.

[3] Visual Capitalist. (2023). Charted: The Skyrocketing Cost of Training AI Models Over Time.

[4] Forbes. (2024). The Extreme Cost of Training AI Models.

[5] R&D World. (2024). AI’s great compression: 20 charts show vanishing gaps but still soaring costs.

[6] NVIDIA. (2024). NVIDIA GB200 NVL72.

[7] Zhai, E., et al. (2024). HPN: A Non-blocking, Dual-plane, Application-layer-agnostic High-performance Network for Large-scale AI Training. SIGCOMM 2024.

[8] Szasz, D. (2024). Understanding Bottlenecks in Multi-GPU AI Training. Medium.

[9] Alibaba Cloud. (2024). PAI-Lingjun Intelligent Computing Service Features.

[10] Forbes. (2025). Why Optical Infrastructure Is Becoming Core To The Future Of AI.

[11] Yole Group. (2023). Co-Packaged Optics for Datacenters 2023.

[12] Dettmers, T., et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. Advances in Neural Information Processing Systems 36.

[13] Microsoft Research. (2020). ZeRO & DeepSpeed: New system optimizations enable training models with over 100 billion parameters.

[14] Alibaba Cloud. (2025). In-depth Analysis of Alibaba Cloud Panjiu AL128 Supernode AI Servers and Their Interconnect Architecture. Alibaba Cloud Blog.

[15] Alibaba Cloud. (2025). Panjiu AL128 Supernode AI Server Video Overview. YouTube.


Artikel ini adalah terjemahan dari versi bahasa Inggris asli. Untuk konten sumbernya, kunjungi: https://www.alibabacloud.com/blog/from-brute-force-to-finesse-the-evolution-and-future-of-ai-training-infrastructure_602718

0 0 0
Share on

Regional Content Hub

123 posts | 4 followers

You may also like

Comments