1. Kebutuhan HPC dan Tantangan Komputasi

High-Performance Computing (HPC) merupakan lingkungan komputasi berskala besar yang dirancang untuk menjalankan pekerjaan komputasi intensif seperti simulasi fisika, analitik data berskala petabyte, bioinformatika, atau pelatihan model AI besar. HPC membutuhkan sumber daya yang sangat besar, termasuk banyak CPU core, GPU berkinerja tinggi, memori besar, dan interkoneksi jaringan yang sangat cepat.

Kebutuhan Utama Lingkungan HPC

  1. Performa CPU/GPU Maksimal
    HPC mengeksekusi aplikasi lintas node dengan kebutuhan komputasi tinggi, seperti CFD, climate modeling, genomik, training deep neural networks, hingga simulasi kuantum.

  2. Bandwidth dan Latency Jaringan Rendah
    HPC tradisional menggunakan jaringan berkecepatan tinggi seperti Infiniband, OmniPath, atau NVLink untuk memastikan komunikasi antar-node sangat cepat.

  3. Konsistensi I/O yang tinggi
    Banyak workload HPC memerlukan I/O paralel besar ke parallel filesystem seperti Lustre, GPFS, atau BeeGFS.

  4. Skalabilitas Horizontal
    Cluster HPC harus mampu tumbuh sampai ribuan node untuk mendukung simulasi besar.

Tantangan Besar Dalam HPC

  • Overhead Virtualization
    Pada awalnya virtualisasi dianggap tidak cocok untuk HPC karena menambah latensi dan mengurangi akses langsung ke hardware.

  • Hypervisor Interference
    Layer virtualisasi dapat menyebabkan jitter waktu eksekusi, yang sangat merugikan aplikasi paralel HPC.

  • Dukungan Hardware Accelerator
    Menjalankan GPU, TPU, atau FPGA di lingkungan VM membutuhkan teknologi tambahan seperti pass-through atau virtual GPU.

  • I/O Bottleneck
    Virtual machine layer dapat menghambat throughput storage dan komunikasi antar-node.

Meskipun demikian, kemajuan teknologi membuat virtualisasi semakin layak digunakan dalam konteks HPC modern, terutama untuk AI dan analitik data.

2. VM dan GPU Virtualization untuk AI/ML

Virtualisasi dalam konteks HPC lebih banyak dipakai dalam workload AI/ML, data analytics, dan containerized HPC. Teknologi yang paling relevan untuk riset modern melibatkan:

1. GPU Virtualization

Teknologi GPU virtualization memungkinkan satu GPU fisik digunakan secara bersama oleh beberapa VM melalui:

  • NVIDIA vGPU

  • AMD MxGPU

  • Intel GVT-g

Dengan vGPU, peneliti dapat menjalankan:

  • Pelatihan model AI berskala besar

  • Eksperimen ML paralel dengan resource sharing

  • Pengujian multi-user pada GPU cluster

2. GPU Passthrough

Untuk performa mendekati bare-metal, VM dapat diberikan akses langsung ke GPU fisik menggunakan:

  • IOMMU

  • VFIO passthrough

  • SR-IOV

Teknik ini memberikan akses nyaris 100% performa GPU tanpa overhead signifikan.

3. CPU Virtualization untuk HPC

Dengan kemajuan hypervisor seperti:

  • KVM

  • Xen

  • VMware ESXi

  • Microsoft Hyper-V

VM mampu menjalankan workload intensif seperti:

  • HPC molecular dynamics (LAMMPS)

  • Finite-element analysis (ANSYS)

  • Monte Carlo simulation

Dengan performa 95–98% dari bare-metal.

4. Virtualization + Kubernetes

Banyak laboratorium riset modern menjalankan HPC AI melalui:

  • KubeVirt

  • Kata Containers

  • Singularity/Apptainer
    yang memungkinkan container berjalan bersama hypervisor untuk isolasi tinggi.

3. Latency & Performance Tuning

Agar virtualisasi dapat dipakai dalam HPC tanpa mengorbankan performa, diperlukan berbagai teknik optimasi.

1. CPU Pinning

Menetapkan vCPU ke physical CPU core tertentu untuk menghindari jitter dan context switching yang berlebihan.

2. HugePages

Menggunakan memory pages besar (2MB/1GB) untuk mengurangi overhead TLB dan meningkatkan throughput aplikasi HPC.

3. Passthrough NIC (SR-IOV)

Memberi VM akses langsung ke NIC berkecepatan tinggi, cocok untuk cluster HPC menggunakan:

  • Infiniband

  • RDMA

  • RoCE

4. NUMA Optimization

Menyesuaikan topology VM dengan physical NUMA node:

  • Memastikan VM tidak melintasi node memory

  • Mengurangi latency akses memori

5. Direct Storage Access

Teknik seperti:

  • NVMe passthrough

  • Virtio-blk/virtio-scsi optimized
    digunakan untuk workload analitik besar.

6. Hypervisor Tuning

Melakukan optimasi seperti:

  • Menghapus emulated devices

  • Mengaktifkan paravirtualized drivers (VirtIO)

  • Menggunakan paravirtualized clock for HPC jobs

Dengan tuning ini, performa VM dapat mencapai 95–99% dari bare-metal.

4. Contoh Penerapan Universitas & Laboratorium

Banyak institusi riset global telah menerapkan virtualisasi dalam HPC untuk fleksibilitas dan efisiensi.

1. CERN

CERN menggunakan OpenStack + KVM untuk menjalankan ribuan VM untuk analitik partikel dan simulasi fisika, terutama untuk workload data processing.

2. NASA

NASA memanfaatkan VM dengan GPU passthrough untuk simulasi aeronotika dan pelatihan model deep learning terkait navigasi pesawat.

3. Stanford University

Menjalankan cluster AI berbasis Kubernetes + GPU passthrough untuk riset NLP, visi komputer, dan biologi komputasi.

4. MIT Lincoln Laboratory

Menggunakan HPC virtualization untuk:

  • Analisis radar

  • Simulasi elektromagnetik

  • Pembelajaran mesin tingkat lanjut

5. Universitas Indonesia (UI) dan ITB

Dalam konteks Indonesia, beberapa kampus besar mulai menggunakan virtualized GPU cluster untuk:

  • Data science

  • Pemrosesan citra

  • Penelitian AI

Virtualisasi memberikan fleksibilitas bagi peneliti dalam mengatur lingkungan eksperimen tanpa mengganggu node lain.

5. Perbandingan HPC Bare-Metal vs Virtualized

Aspek HPC Bare-Metal HPC Virtualized
Performa CPU Sangat optimal 95–99% dari bare-metal
Performa GPU Optimal 90–100% (passthrough)
Latency jaringan Terendah Lebih tinggi kecuali dengan SR-IOV
Isolasi Rendah Sangat baik
Pengelolaan cluster Kompleks Lebih mudah
Elastisitas Rendah Tinggi
Multi-tenant Sulit Sangat mendukung
Keamanan & sandboxing Minim Sangat terisolasi
Deployment riset ML Kurang fleksibel Sangat fleksibel
Sharing resource Sulit Mudah (vGPU)

Kesimpulan Perbandingan

  • Untuk simulasi numerik sangat sensitif latensi → bare-metal lebih unggul.

  • Untuk AI/ML, data science, eksperimen cepat, VDI riset → virtualisasi lebih efisien.

  • Untuk laboratorium multi-user → virtualisasi memberikan fleksibilitas jauh lebih tinggi.