Pengantar

Seiring meningkatnya penggunaan Artificial Intelligence (AI) berbasis Large Language Model (LLM), sistem AI kini banyak diintegrasikan ke aplikasi bisnis, chatbot, sistem pencarian, hingga otomatisasi proses internal. AI tidak hanya menjawab pertanyaan, tetapi juga menjalankan perintah, memproses data sensitif, dan mengambil keputusan.

Namun, di balik kecanggihannya, muncul ancaman keamanan baru yang unik: Prompt Injection. Serangan ini tidak menargetkan kode sumber atau infrastruktur, melainkan logika berpikir AI itu sendiri, dengan memanipulasi input agar model bertindak di luar batas yang seharusnya.


Apa Itu Prompt Injection?

Definisi Prompt Injection

Prompt Injection adalah teknik serangan di mana penyerang menyisipkan instruksi tersembunyi atau manipulatif ke dalam input dengan tujuan mengubah perilaku, keputusan, atau respons AI.

Berbeda dengan serangan tradisional, prompt injection:

  • Tidak mengeksploitasi bug kode

  • Tidak membutuhkan akses sistem

  • Mengandalkan cara AI memahami dan memprioritaskan instruksi

OWASP mengklasifikasikan Prompt Injection sebagai salah satu ancaman utama dalam LLM Top 10 Security Risks. (dikutip dari OWASP)

baca juga : dnscat2: Menyusup Lewat DNS, Teknik Cerdas Command & Control


Bagaimana Prompt Injection Bekerja

Manipulasi Instruksi

Mengelabui Prioritas AI

AI bekerja berdasarkan konteks dan instruksi. Jika sistem tidak membatasi atau memfilter input dengan baik, penyerang dapat menambahkan perintah seperti:

  • Mengabaikan aturan sebelumnya

  • Menampilkan informasi rahasia

  • Mengubah peran atau tujuan model

Instruksi ini sering disamarkan sebagai bagian dari teks biasa sehingga tampak tidak berbahaya.


Direct vs Indirect Prompt Injection

Dua Pola Serangan Umum
  • Direct Prompt Injection
    Penyerang langsung memasukkan perintah berbahaya melalui input pengguna.

  • Indirect Prompt Injection
    Instruksi berbahaya disisipkan dalam data eksternal seperti email, dokumen, atau halaman web yang kemudian diproses oleh AI.

Jenis indirect lebih berbahaya karena sering terjadi tanpa interaksi langsung pengguna.


Contoh Dampak Prompt Injection

1. Kebocoran Data Sensitif

Informasi Internal Terbuka

AI dapat dipaksa membocorkan:

  • Prompt sistem

  • Data konfigurasi

  • Informasi pengguna lain


2. Penyalahgunaan Fungsi AI

AI Melakukan Aksi yang Tidak Diizinkan

Pada sistem AI yang terhubung ke API atau tools internal, prompt injection dapat menyebabkan:

  • Pengiriman data ke pihak tidak sah

  • Eksekusi perintah yang tidak seharusnya

  • Manipulasi hasil analisis


3. Bypass Kebijakan Keamanan

Mengabaikan Guardrails

Penyerang dapat menyuruh AI untuk mengabaikan batasan etika, filter konten, atau aturan keamanan yang telah ditetapkan.

baca juga : AI Poisoning: Cara Peretas Memanipulasi Model Machine Learning


Mengapa Prompt Injection Sulit Dicegah

1. AI Tidak Benar-Benar “Mengerti” Niat

AI memproses teks berdasarkan pola, bukan niat manusia. Instruksi berbahaya bisa terlihat sah secara linguistik.


2. Input Sangat Fleksibel

Tidak seperti parameter API, input AI bersifat bebas (free-form), sehingga sulit divalidasi dengan aturan statis.


3. Integrasi AI yang Terlalu Dalam

AI yang terhubung langsung ke database, API, atau sistem internal memperbesar dampak jika terjadi prompt injection.


Strategi Mitigasi Prompt Injection

1. Pisahkan Prompt Sistem dan Input Pengguna

Boundary yang Jelas

Pastikan instruksi sistem tidak bisa diubah atau ditimpa oleh input pengguna.


2. Batasi Akses AI ke Sistem Sensitif

Least Privilege untuk AI

AI hanya boleh mengakses data dan fungsi yang benar-benar dibutuhkan.


3. Validasi dan Filter Output

Jangan Percaya 100% pada AI

Output AI harus divalidasi sebelum digunakan, terutama jika berdampak langsung ke sistem atau pengguna.


4. Monitoring dan Logging

Deteksi Pola Mencurigakan

Pantau input dan output AI untuk mendeteksi pola prompt injection secara dini.

baca juga : Secret Management: Cara Aman Menyimpan API Key di Pipeline CI/CD


Kesimpulan

Prompt Injection membuktikan bahwa ancaman keamanan AI tidak selalu datang dari sisi teknis tradisional, melainkan dari cara AI memahami instruksi. Dengan memanipulasi prompt, peretas dapat membajak logika AI dan memaksanya bertindak di luar batas yang diizinkan.

Seiring semakin luasnya adopsi AI, organisasi perlu menyadari bahwa keamanan AI bukan hanya soal model dan data, tetapi juga bagaimana AI menerima dan memproses perintah. Tanpa mitigasi yang tepat, prompt injection dapat menjadi celah serius yang merusak kepercayaan dan keamanan sistem berbasis AI.