Selama bertahun-tahun, cetak biru pembuatan Model Bahasa Besar (LLM) berfokus pada satu tujuan: mengoptimalkan biaya pelatihan. Namun, seiring dengan peralihan AI dari laboratorium penelitian ke aplikasi dunia nyata, masalah baru pun muncul. Biaya untuk menggunakan model ini—tahap inferensi—sering diabaikan selama tahap desain, sehingga menyebabkan inefisiensi besar-besaran ketika model diterapkan dalam skala besar.
Para peneliti dari Universitas Wisconsin-Madison dan Universitas Stanford menantang status quo ini. Mereka telah memperkenalkan kerangka kerja baru yang disebut Undang-undang penskalaan Train-to-Test (T2), yang menyarankan bahwa untuk membangun AI yang paling efektif, kita harus berhenti memandang pelatihan dan inferensi sebagai anggaran terpisah dan mulai memperlakukan keduanya sebagai satu kesatuan.
Konflik: Pelatihan vs. Inferensi
Untuk memahami mengapa hal ini penting, kita harus melihat dua cara kerja “penskalaan” yang berbeda saat ini:
- Penskalaan Pra-Pelatihan (Aturan Chinchilla): Secara tradisional, developer mengikuti “aturan Chinchilla”, yang menyarankan rasio spesifik data pelatihan terhadap ukuran model (kira-kira 20 token per parameter). Ini mengoptimalkan biaya untuk membuat model.
- Penskalaan Waktu Pengujian (Penalaran Waktu Inferensi): Ini adalah praktik membiarkan model “berpikir lebih lama” selama penerapan. Alih-alih mengambil jawaban pertama yang diberikan model, pengembang menghasilkan beberapa sampel alasan (pengambilan sampel $k$ kali) untuk menemukan hasil yang paling akurat. Hal ini biasa terjadi dalam tugas-tugas kompleks seperti coding atau matematika.
Masalahnya: Kedua proses ini sedang terputus. Jika Anda membuat model besar yang “Optimal Chinchilla”, setiap kueri menjadi sangat mahal. Jika Anda kemudian mencoba menggunakan “penskalaan waktu pengujian” (meminta model mencoba beberapa kali untuk memastikan keakuratan), biaya operasional Anda akan meroket.
Solusi T2: Model Lebih Kecil, Lebih Banyak Data, Lebih Banyak Sampel
Kerangka kerja T2 menyediakan rumus matematika yang secara bersama-sama mengoptimalkan tiga variabel:
* $N$ : Ukuran model (parameter)
* $D$ : Volume data pelatihan (token)
* $k$ : Jumlah sampel penalaran pada inferensi
Penelitian ini membuktikan strategi yang berlawanan dengan intuisi: Untuk memaksimalkan kinerja dengan anggaran tetap, lebih baik melatih model yang jauh lebih kecil pada data dalam jumlah besar daripada melatih model besar dengan mengikuti aturan tradisional.
Dengan “melatih secara berlebihan” model kompak, pengembang menghemat overhead komputasi yang cukup untuk menjalankan model yang sama beberapa kali selama inferensi. Pada dasarnya, Anda menukar model “berat” yang berbiaya tinggi dengan model “ringan” yang berfrekuensi tinggi.
Kinerja dan Kompromi di Dunia Nyata
Untuk memvalidasi hal ini, para peneliti menguji lebih dari 100 model dan melatih 21 model baru dari awal. Hasilnya jelas: model kecil yang dilatih secara berlebihan secara konsisten mengungguli model besar yang dioptimalkan secara tradisional dalam berbagai tugas yang melibatkan aritmatika, penalaran spasial, dan ingatan pengetahuan.
Namun, strategi ini bukanlah “peluru perak” universal. Para peneliti mencatat beberapa pertimbangan utama:
- Kekhususan Tugas: T2 dibuat khusus untuk aplikasi yang banyak berpikir (seperti coding atau logika). Ini menawarkan lebih sedikit manfaat untuk tugas-tugas yang “berat terhadap pengetahuan”, seperti model obrolan sederhana yang tujuannya hanya untuk mengambil informasi.
- Dinding Data: Ada batasan fisik mengenai seberapa banyak Anda dapat melatih model secara berlebihan. Jika Anda memaksakan strategi ini terlalu jauh, Anda mungkin kehabisan data pelatihan berkualitas tinggi yang tersedia di internet.
- Rintangan Penyempurnaan: Model yang terlalu terlatih terkadang bisa menjadi “keras kepala” dan lebih sulit untuk disesuaikan untuk tugas tertentu, meskipun para peneliti menemukan bahwa hal ini tidak meniadakan peningkatan efisiensi secara keseluruhan.
Mengapa Hal Ini Penting bagi Industri AI
Pergeseran ini merupakan peluang besar bagi pengembang perusahaan. Saat ini, tingginya biaya “model frontier” (model besar dan mahal seperti GPT-4) menjadi penghalang untuk menskalakan alur kerja “agentik”—agen AI yang perlu memikirkan, mengulang, dan memeriksa pekerjaan mereka sendiri.
Kerangka kerja T2 memberikan cetak biru untuk mendemokratisasikan pemikiran tingkat tinggi. Hal ini menunjukkan bahwa Anda tidak memerlukan model terbesar di dunia untuk mencapai kinerja elit; Anda hanya memerlukan alokasi yang lebih cerdas dari total anggaran komputasi Anda.
Kesimpulan: Dengan mengalihkan fokus dari “seberapa besar kita bisa membangunnya?” hingga “seberapa efisien kita dapat menggunakannya?”, undang-undang penskalaan T2 memungkinkan pengembang mencapai kemampuan penalaran yang unggul dengan menggunakan model yang lebih kecil dan lebih hemat biaya.
