27 Jul 2025·8 menit membaca

RAG vs fine-tuning untuk chatbot domain-spesifik: bagaimana memilih

Q: Should I choose RAG or fine-tuning for a chatbot that answers from company documents?

Gunakan **RAG** ketika jawaban harus sesuai dengan apa yang dokumen Anda katakan *saat ini*, terutama jika kebijakan, harga, atau SOP sering berubah. Gunakan **fine-tuning** ketika Anda terutama membutuhkan perilaku yang konsisten seperti nada bicara, template, atau aturan penolakan, dan fakta dasar relatif stabil.

Q: How can we evaluate quality without guessing?

Mulailah dengan **30–100 pertanyaan nyata** dari tiket dan chat, pertahankan redaksi asli, dan tulis jawaban singkat yang diharapkan beserta bagian dokumen pendukung. Nilai hasil berdasarkan kebenaran, kelengkapan, dukungan sitasi, dan kejelasan, lalu jalankan kembali set yang sama setelah setiap perubahan.

RAG vs fine-tuning untuk chatbot domain-spesifik: cara memilih agar dokumen bisnis yang berubah tetap ter-reflect, mengukur kualitas, dan mengurangi jawaban salah yang yakin.

Masalah apa yang kita selesaikan dengan chatbot domain-spesifik?

Chatbot domain-spesifik menjawab pertanyaan menggunakan pengetahuan organisasi Anda sendiri, bukan fakta bergaya internet umum. Pikirkan kebijakan HR, manual produk, aturan harga, playbook dukungan, SOP, dan panduan internal cara kerja.

Kebanyakan tim tidak mencoba “mengajarkan model segalanya.” Mereka ingin jawaban yang lebih cepat dan konsisten untuk pertanyaan sehari-hari seperti “Apa aturan pengembalian dana untuk paket tahunan?” atau “Formulir mana yang saya pakai untuk permintaan vendor?” tanpa harus mencari di folder dan PDF.

Bagian tersulit adalah kepercayaan. Model umum bisa terdengar yakin meskipun salah. Jika kebijakan Anda mengatakan “7 hari kerja” dan model menjawab “10 hari kalender,” jawabannya mungkin terdengar masuk akal namun tetap menyebabkan kerugian nyata: persetujuan salah, balasan pelanggan yang keliru, atau masalah kepatuhan.

Seberapa sering dokumen Anda berubah sama pentingnya dengan akurasi. Jika dokumen diperbarui mingguan, chatbot harus mencerminkan teks baru dengan cepat dan andal, atau ia menjadi sumber panduan usang. Jika dokumen berubah setiap tahun, Anda bisa menerima siklus pembaruan yang lebih lambat, tapi chatbot tetap harus benar karena orang akan mempercayai apa yang dikatakannya.

Saat membandingkan RAG vs fine-tuning untuk chatbot domain-spesifik, tujuannya praktis: jawaban yang membantu dan berlandaskan dokumen Anda, dengan sumber atau sitasi yang jelas, serta respons aman ketika chatbot tidak yakin.

Pernyataan masalah yang solid mencakup lima hal: dokumen mana yang boleh digunakan bot (dan mana yang harus dihindari), jenis pertanyaan yang paling umum, seperti apa jawaban “baik” (benar, singkat, menyertakan sumber), seperti apa jawaban “buruk” (tebakan yang yakin, aturan usang), dan apa yang harus dilakukan ketika bukti tidak ada (ajukan pertanyaan lanjutan atau katakan tidak tahu).

RAG dan fine-tuning dengan bahasa sederhana

RAG dan fine-tuning adalah dua cara berbeda untuk membuat chatbot berperilaku baik di tempat kerja.

Retrieval augmented generation (RAG) seperti memberi chatbot tes terbuka. Saat pengguna bertanya, sistem mencari dokumen Anda (kebijakan, manual, tiket, FAQ). Lalu sistem mengirim potongan relevan ke model dan memintanya menjawab menggunakan materi itu. Model tidak menghafal dokumen Anda—ia membaca bagian yang dipilih saat menjawab.

Fine-tuning seperti melatih model dengan contoh sampai ia mempelajari perilaku yang Anda inginkan. Anda memberi banyak pasangan input-output (pertanyaan dan jawaban ideal, nada, format, aturan yang tidak boleh dikatakan). Bobot model berubah, sehingga ia merespons lebih konsisten bahkan ketika tidak ada dokumen yang diberikan.

Model mental sederhana:

RAG menjaga pengetahuan tetap segar dengan menarik dari dokumen Anda saat ini.
Fine-tuning membuat perilaku konsisten: gaya, aturan, dan pola keputusan.

Kedua pendekatan bisa gagal, hanya saja caranya berbeda.

Pada RAG, titik lemah adalah retrieval. Jika langkah pencarian mengambil halaman yang salah, teks yang usang, atau konteks yang terlalu sedikit, model masih bisa menghasilkan jawaban yang yakin, tetapi berdasarkan bukti yang buruk.

Pada fine-tuning, titik lemah adalah overgeneralisasi. Model bisa mempelajari pola dari contoh pelatihan dan menerapkannya ketika ia seharusnya mengajukan pertanyaan klarifikasi atau mengatakan “saya tidak tahu.” Fine-tuning juga tidak mengikuti perubahan dokumen yang sering kecuali Anda terus melatih ulang.

Contoh konkret: jika kebijakan perjalanan Anda berubah dari “persetujuan manajer untuk di atas $500” menjadi “di atas $300,” RAG bisa menjawab benar pada hari yang sama jika ia mengambil kebijakan yang diperbarui. Model yang telah di-fine-tune mungkin terus mengulang angka lama kecuali Anda melatih ulang dan memverifikasi perilaku baru.

Mana yang cocok untuk dokumen bisnis yang sering berubah?

Jika dokumen Anda berubah mingguan (atau harian), retrieval biasanya lebih mencerminkan realitas dibandingkan pelatihan. Dengan retrieval augmented generation untuk dokumen bisnis, Anda mempertahankan model sebagian besar sama dan memperbarui basis pengetahuan sebagai gantinya. Itu memungkinkan chatbot mencerminkan kebijakan, harga, atau catatan produk baru segera setelah konten sumber berubah, tanpa menunggu siklus pelatihan baru.

Fine-tuning bisa bekerja ketika “kebenaran” stabil: nada yang konsisten, seperangkat aturan produk yang tetap, atau tugas yang sempit. Tapi jika Anda melakukan fine-tuning pada konten yang terus bergerak, Anda berisiko mengajarkan jawaban kemarin. Melatih ulang cukup sering untuk mengikuti perubahan menjadi mahal dan mudah keliru.

Tata kelola: pembaruan dan kepemilikan

Pertanyaan praktis adalah siapa yang bertanggung jawab atas pembaruan konten.

Dengan RAG, tim non-teknis dapat menerbitkan atau mengganti dokumen, dan bot dapat mengambilnya setelah re-indeks. Banyak tim menambahkan langkah persetujuan sehingga hanya peran tertentu yang bisa mendorong perubahan.

Dengan fine-tuning, pembaruan biasanya memerlukan alur kerja ML. Itu sering berarti tiket, menunggu, dan pembaruan yang kurang sering.

Kepatuhan dan audit

Saat orang bertanya “mengapa bot mengatakan itu?”, RAG memiliki keuntungan jelas: ia bisa mengutip bagian tepat yang dipakai. Ini membantu audit internal, review dukungan pelanggan, dan topik yang diatur.

Fine-tuning menyimpan informasi di bobot, jadi lebih sulit menunjukkan sumber spesifik untuk kalimat tertentu.

Biaya dan usaha juga berbeda:

RAG perlu pekerjaan awal untuk mengumpulkan dokumen, memecahnya, mengindeks, dan menjaga agar ingest tetap andal.
Fine-tuning perlu pekerjaan awal untuk menyiapkan data pelatihan dan mengevaluasinya, plus pelatihan berulang saat pengetahuan berubah.
Ketika pembaruan konten sering, RAG biasanya memiliki biaya berkelanjutan yang lebih rendah.

Contoh: chatbot HR yang menjawab dari kebijakan yang berubah setiap kuartal. Dengan RAG, HR bisa mengganti PDF kebijakan dan bot mulai menggunakan teks baru dengan cepat, sambil masih menunjukkan paragraf yang dijadikannya dasar. AppMaster dapat membantu Anda membangun portal admin untuk mengunggah dokumen yang disetujui dan mencatat sumber yang digunakan, tanpa menulis seluruh aplikasi dari nol.

Kapan menggunakan RAG, kapan fine-tuning, dan kapan menggabungkan

Jika tujuan Anda adalah jawaban yang dapat dipercaya dan sesuai dengan dokumen perusahaan hari ini, mulailah dengan retrieval augmented generation untuk dokumen bisnis. Ia menarik potongan relevan saat menjawab, sehingga bot bisa menunjuk kebijakan, spesifikasi, atau SOP yang mendukung jawabannya.

RAG adalah pilihan default yang lebih baik ketika konten sering berubah, ketika Anda harus menunjukkan dari mana jawaban berasal, atau ketika tim berbeda memiliki dokumen berbeda. Jika HR memperbarui kebijakan cuti bulanan, Anda ingin chatbot menggunakan versi terbaru secara otomatis, bukan apa yang dipelajarinya beberapa minggu lalu.

Fine-tuning pada data perusahaan masuk akal ketika dokumen bukan masalah utama. Fine-tuning terbaik untuk perilaku stabil: suara yang konsisten, format yang ketat (misalnya selalu menjawab dalam template), routing intent yang lebih baik, atau aturan penolakan yang andal. Anggap itu sebagai mengajarkan asisten bagaimana berperilaku, bukan apa isi buku pedoman terbaru Anda.

Menggabungkan keduanya umum: RAG menyediakan fakta, dan fine-tuning kecil (atau instruksi sistem yang kuat) menjaga agar asisten konsisten dan berhati-hati. Ini juga cocok untuk tim produk yang memasukkan chatbot ke dalam aplikasi, di mana UX dan nada harus tetap sama meskipun pengetahuan berubah.

Sinyal cepat untuk memilih:

Pilih RAG ketika jawaban harus tetap mutakhir, mengutip kata-kata tepat, atau menyertakan sumber dari dokumen terbaru.
Pilih fine-tuning ketika Anda membutuhkan gaya tetap, format keluaran berulang, atau aturan yang lebih ketat.
Gabungkan ketika Anda menginginkan jawaban berlandaskan dokumen plus nada yang konsisten dan perilaku penolakan yang lebih aman.
Pertimbangkan ulang rencana Anda jika Anda terus-menerus melakukan fine-tune untuk mengikuti dokumen baru, atau jika retrieval sering gagal karena konten berantakan atau pemecahan potongan yang buruk.

Cara sederhana untuk mendeteksi pendekatan yang salah adalah sakit perawatan. Jika setiap pembaruan kebijakan memicu permintaan latih ulang model, Anda menggunakan fine-tuning untuk menyelesaikan masalah kesegaran dokumen. Jika RAG mengembalikan halaman yang benar tetapi bot masih menjawab dengan cara yang berisiko, Anda mungkin membutuhkan pengaman yang lebih baik (kadang-kadang fine-tuning membantu).

Jika Anda membangun ini menjadi alat nyata (misalnya di AppMaster), pendekatan praktisnya adalah RAG dulu, lalu tambahkan fine-tuning hanya untuk perilaku yang bisa Anda uji dan ukur dengan jelas.

Langkah demi langkah: menyiapkan baseline andal (sebelum memilih model)

Buat jawaban yang dapat ditelusuri

Tangkap pertanyaan, potongan yang diambil, dan balasan akhir agar audit dan review lebih mudah.

Buat Log

Sebagian besar kegagalan chatbot berasal dari dokumen yang berantakan dan tujuan yang tidak jelas, bukan dari model.

Mulailah dengan inventaris dokumen: apa yang Anda miliki, di mana disimpan, dan siapa yang bisa menyetujui perubahan. Catat tipe dan format (PDF, wiki, tiket, spreadsheet), pemilik dan sumber kebenaran, frekuensi pembaruan, aturan akses, dan tempat terjadinya duplikat.

Selanjutnya, definisikan tugas chatbot secara sederhana. Pilih 20 sampai 50 pertanyaan nyata yang harus dijawab dengan baik (misalnya, “Bagaimana cara meminta pengembalian dana?” atau “Apa eskalasi on-call?”). Juga tentukan apa yang harus ditolak, seperti nasihat hukum, keputusan HR, atau apa pun di luar dokumen yang disetujui. Penolakan adalah keberhasilan jika mencegah jawaban yang salah.

Kemudian bersihkan dan bentuk dokumen sehingga jawaban mudah di-grounding. Hapus duplikat, pertahankan satu versi terkini, dan beri label versi lama dengan jelas. Tambahkan judul yang jelas, tanggal, dan heading bagian sehingga chatbot bisa menunjuk bagian tepat yang mendukung jawabannya. Jika kebijakan sering berubah, pertahankan satu halaman yang diperbarui alih-alih banyak salinan.

Akhirnya, tetapkan kontrak keluaran. Minta jawaban singkat, sitasi ke bagian sumber yang digunakan, dan tindakan selanjutnya bila perlu (misalnya, “Buka tiket ke Finance”). Jika Anda membangun ini ke alat internal dengan AppMaster, juga membantu menjaga UI konsisten: jawaban dulu, lalu sitasi, lalu tombol tindakan. Struktur itu membuat masalah terlihat selama pengujian dan mengurangi jawaban salah yang percaya diri nanti.

Cara mengevaluasi kualitas tanpa menebak

Mulailah dengan set uji kecil offline. Kumpulkan 30 sampai 100 pertanyaan nyata yang sudah sering diajukan di tiket, email, dan thread chat. Pertahankan redaksi asli, sertakan beberapa pertanyaan samar, dan beberapa yang mudah disalahpahami. Ini memberi cara stabil untuk membandingkan RAG vs fine-tuning untuk chatbot domain-spesifik.

Untuk setiap pertanyaan, tulis jawaban singkat yang diharapkan dalam bahasa sederhana, plus bagian dokumen sumber yang mendukungnya. Jika chatbot boleh mengatakan “Saya tidak tahu,” sertakan kasus di mana itu perilaku yang benar.

Nilai jawaban pada beberapa dimensi sederhana

Buatlah kartu skor kecil agar Anda benar-benar menggunakannya. Empat pemeriksaan ini menutupi sebagian besar kegagalan chatbot bisnis:

Kebenaran: apakah faktanya benar, tanpa detail dibuat-buat?
Kelengkapan: apakah mencakup poin kunci yang dibutuhkan pengguna untuk bertindak?
Kualitas sitasi: apakah kutipan atau referensi benar-benar mendukung klaim?
Kejelasan: apakah terbaca dan spesifik, atau samar dan bertele-tele?

Jika Anda menggunakan retrieval, tambahkan satu pemeriksaan lagi: apakah ia mengambil potongan yang benar, dan apakah jawaban benar-benar menggunakan potongan itu alih-alih mengabaikannya?

Lacak perubahan dari waktu ke waktu, bukan kesan satu kali

Jadikan kualitas sebagai rutinitas:

Jalankan set uji yang sama setelah setiap perubahan prompt, retrieval, atau model.
Simpan satu kartu skor dan catat total per tanggal.
Tandai kegagalan (detail kebijakan hilang, angka salah, dokumen usang, kata-kata tidak jelas).
Tinjau 5 pertanyaan terburuk terlebih dulu dan perbaiki akar masalah.

Contoh: jika chatbot HR menjawab pertanyaan tunjangan dengan benar tetapi mengutip PDF yang usang, skor Anda harus turun. Itu menunjukkan apa yang perlu diperbaiki: kesegaran dokumen, pemecahan potongan, atau filter retrieval, bukan gaya menulis model.

Jika Anda memasukkan chatbot ke aplikasi (misalnya di AppMaster), simpan pertanyaan uji dan hasilnya bersamaan dengan rilis sehingga Anda bisa mendeteksi regresi lebih awal.

Mencegah jawaban salah yang percaya diri (halusinasi) dalam praktik

Tambahkan jalur penyerahan yang aman

Tambahkan alur eskalasi sehingga topik sensitif diarahkan ke manusia atau tiket daripada menebak.

Mulai Membangun

Jawaban salah yang yakin biasanya berasal dari salah satu dari tiga hal: model tidak mendapat konteks yang tepat, mendapat konteks yang salah, atau Anda mendorongnya untuk menebak. Risiko ini ada di RAG dan fine-tuning, tetapi muncul berbeda. RAG gagal ketika retrieval lemah; fine-tuning gagal ketika model belajar pola dan mengisi celah dengan teks yang terdengar masuk akal.

Perbaikan paling efektif adalah mengharuskan adanya bukti. Perlakukan setiap jawaban seperti laporan kecil: jika teks pendukung tidak ada di sumber yang diberikan, bot tidak boleh mengklaimnya. Dalam praktik, itu berarti aplikasi Anda harus memasukkan snippet yang diambil ke prompt dan mengharuskan model menggunakan hanya snippet tersebut.

Tambahkan aturan penolakan dan eskalasi yang jelas sehingga bot punya fallback aman. Chatbot yang baik bukan yang menjawab segalanya; melainkan yang tahu ketika tidak bisa.

Jika sumber tidak menyebutkan topik, katakan “Saya tidak punya cukup info di dokumen untuk menjawab.”
Jika pertanyaan tidak jelas, ajukan satu pertanyaan klarifikasi.
Jika jawaban memengaruhi uang, akses, atau kepatuhan, arahkan ke manusia atau tiket.
Jika dokumen bertentangan, tunjukkan konflik dan tanyakan kebijakan atau versi mana yang berlaku.

Pembatasan juga mengurangi tebakan dan membuat kesalahan lebih mudah terlihat. Untuk jawaban bergaya kebijakan, minta nama dokumen dan tanggal, serta kutip 1–2 baris kunci yang membenarkan jawaban.

Contoh: seorang karyawan bertanya, “Berapa batas penggantian perjalanan terbaru?” Jika snippet kebijakan yang diambil berasal dari tahun lalu, bot harus menampilkan tanggal itu dan menolak menyatakan “terbaru” tanpa sumber yang lebih baru.

Jika Anda membangun ini di AppMaster, jadikan aturan bagian dari alur Business Process: langkah retrieval, pemeriksaan bukti, lalu jawab dengan sitasi atau eskalasi. Dengan begitu perilaku keselamatan konsisten, bukan opsional.

Kesalahan umum dan jebakan yang harus dihindari

Ubah RAG menjadi aplikasi nyata

Bangun aplikasi chatbot berbasis dokumen dengan peran, sitasi, dan jalur aman “Saya tidak tahu”.

Coba AppMaster

Sebagian besar kegagalan chatbot bukan masalah model. Mereka berasal dari dokumen berantakan, retrieval yang lemah, atau pilihan pelatihan yang mendorong sistem terdengar yakin saat seharusnya berhenti. Keandalan biasanya masalah data dan proses terlebih dahulu.

Masalah RAG umum adalah chunking yang mengabaikan makna. Jika potongan terlalu kecil, Anda kehilangan konteks (siapa, kapan, pengecualian). Jika terlalu besar, retrieval menarik teks tak terkait dan jawaban menjadi campuran detail setengah benar. Tes sederhana: saat Anda membaca satu potongan sendiri, apakah masih masuk akal dan mengandung aturan lengkap?

Perangkap lain adalah pencampuran versi. Tim mengindeks kebijakan dari bulan berbeda, lalu bot mengambil potongan yang saling bertentangan dan memilih salah satunya secara acak. Perlakukan kesegaran dokumen seperti fitur: beri label sumber dengan tanggal, pemilik, dan status (draf vs disetujui), dan hapus atau turunkan prioritas konten usang.

Kesalahan paling merusak adalah memaksa jawaban ketika tidak ada yang relevan diambil. Jika retrieval kosong atau confidence rendah, bot harus mengatakan tidak menemukan dukungan dan mengajukan pertanyaan klarifikasi atau meneruskan ke manusia. Kalau tidak, Anda menciptakan omong kosong yang yakin.

Fine-tuning punya jebakan sendiri: over-tuning pada set Q&A yang sempit. Bot mulai meniru redaksi pelatihan Anda, menjadi rapuh, dan bisa kehilangan kemampuan penalaran dasar atau keterampilan bahasa umum.

Tanda peringatan saat pengujian:

Jawaban tidak mengutip teks sumber atau mengutip bagian yang salah.
Pertanyaan yang sama mendapat jawaban berbeda tergantung redaksi.
Pertanyaan kebijakan mendapat jawaban tegas padahal dokumen diam saja.
Setelah fine-tuning, bot kesulitan dengan pertanyaan sederhana sehari-hari.

Contoh: jika kebijakan perjalanan berubah minggu lalu, tapi kedua versi tetap diindeks, bot mungkin dengan yakin menyetujui biaya yang kini tidak lagi diizinkan. Itu bukan masalah model; itu masalah kontrol konten.

Daftar periksa cepat sebelum diluncurkan

Sebelum Anda menggulirkan chatbot domain ke pengguna nyata, perlakukan seperti alat bisnis lain: harus dapat diprediksi, dapat diuji, dan aman saat tidak yakin.

Gunakan daftar periksa ini sebagai gerbang akhir:

Setiap jawaban bergaya kebijakan berbasis bukti. Untuk klaim seperti “Anda bisa mengganti biaya ini” atau “SLA adalah 99,9%,” bot harus menunjukkan dari mana ia mengambilnya (nama dokumen + heading bagian, atau kutipan). Jika tidak bisa menunjuk sumber, ia tidak boleh menyajikan klaim itu sebagai fakta.
Ia bertanya saat pertanyaan tidak jelas. Jika permintaan pengguna bisa berarti dua hal, bot menanyakan satu pertanyaan klarifikasi singkat alih-alih menebak.
Ia bisa mengatakan “Saya tidak tahu” dengan baik. Saat retrieval mengembalikan teks pendukung lemah atau tidak ada, ia menolak dengan sopan, menjelaskan apa yang hilang, dan menyarankan apa yang harus disediakan (dokumen, nama kebijakan, tanggal, tim).
Pembaruan dokumen mengubah jawaban dengan cepat. Edit satu kalimat di dokumen kunci dan konfirmasi respons bot berubah setelah re-indeks. Jika ia terus mengulang jawaban lama, pipeline pembaruan Anda tidak andal.
Anda bisa meninjau kegagalan. Log pertanyaan pengguna, potongan yang diambil, jawaban akhir, dan apakah pengguna mengklik “berguna/tidak berguna.” Ini membuat pekerjaan kualitas mungkin tanpa menebak.

Tes konkret: pilih 20 pertanyaan nyata dari tiket dukungan atau chat internal, termasuk yang rumit dengan pengecualian. Jalankan sebelum peluncuran, lalu jalankan lagi setelah Anda memperbarui satu dokumen kebijakan. Jika bot tidak bisa secara andal men-ground jawaban, menanyakan klarifikasi, dan menolak saat sumber hilang, ia belum siap produksi.

Jika Anda mengubah bot menjadi aplikasi nyata (misalnya, portal internal), buat sumber mudah dilihat dan simpan tombol “laporkan masalah” di samping setiap jawaban.

Contoh skenario: chatbot untuk dokumen internal yang sering diperbarui

Dari pilot ke produksi

Deploy ke cloud atau ekspor kode sumber saat Anda siap menjalankannya dengan caramu.

Deploy

Tim HR Anda punya dokumen kebijakan dan orientasi yang berubah setiap bulan: aturan PTO, batas penggantian perjalanan, tanggal pendaftaran manfaat, dan langkah orientasi karyawan baru. Orang masih menanyakan pertanyaan yang sama di chat, dan jawaban harus sesuai dengan versi dokumen terbaru, bukan yang berlaku kuartal lalu.

Opsi A: Hanya RAG, dioptimalkan untuk kesegaran

Dengan setup RAG, bot mencari basis pengetahuan HR saat ini dulu, lalu menjawab hanya menggunakan apa yang diambil. Kuncinya adalah membuat “tunjukkan pekerjaan Anda” sebagai default.

Alur sederhana yang biasanya berhasil:

Indeks dokumen HR sesuai jadwal (atau setiap pembaruan yang disetujui) dan simpan judul dokumen, bagian, dan tanggal terakhir diperbarui.
Jawab dengan sitasi singkat (dokumen + bagian) dan catatan “terakhir diperbarui” bila relevan.
Tambahkan aturan penolakan: jika tidak ada yang relevan diambil, bot bilang tidak tahu dan menyarankan siapa yang bisa ditanya.
Rute topik sensitif (pemecatan, sengketa hukum) ke manusia secara default.

Ini tetap akurat saat dokumen berubah karena Anda tidak memasukkan teks lama ke dalam model.

Opsi B: Fine-tuning ringan untuk format, tetap berlandaskan RAG

Jika Anda ingin nada yang konsisten dan jawaban terstruktur (misalnya: “Kelayakan,” “Langkah,” “Pengecualian,” “Eskalasi ke HR”), Anda bisa melakukan fine-tuning ringan pada kumpulan contoh jawaban yang disetujui. Bot tetap memakai RAG untuk fakta.

Aturannya ketat: fine-tuning mengajarkan cara menjawab, bukan apa isi kebijakan.

Setelah 2–4 minggu, keberhasilan terlihat dari berkurangnya eskalasi HR untuk pertanyaan dasar, akurasi lebih tinggi dalam pemeriksaan acak, dan lebih sedikit jawaban salah yang percaya diri. Ukur dengan melacak cakupan sitasi (jawaban yang menyertakan sumber), tingkat penolakan saat info hilang, dan audit sampel mingguan oleh HR.

Tim sering membangun ini sebagai alat internal sehingga HR bisa memperbarui konten, meninjau jawaban, dan mengubah aturan tanpa menunggu tim engineering. AppMaster adalah salah satu cara untuk membangun aplikasi penuh itu (backend, web app, dan mobile app) dengan peran dan alur admin.

Langkah berikutnya: pilot dan membangun chatbot ke produk nyata

Perlakukan chatbot seperti produk kecil. Mulailah dengan satu tim (misalnya dukungan pelanggan), satu set dokumen (playbook dukungan dan kebijakan terbaru), dan satu loop umpan balik yang jelas. Itu menjaga cakupan tetap sempit dan membuat masalah kualitas terlihat.

Rencana pilot yang terukur:

Pilih 30–50 pertanyaan nyata dari log chat atau tiket tim tersebut.
Definisikan “baik”: jawaban benar, mengutip dokumen yang tepat, dan mengatakan “Saya tidak tahu” bila perlu.
Jalankan pilot 2–3 minggu dengan grup kecil dan kumpulkan thumbs up/down plus komentar singkat.
Tinjau kegagalan dua kali seminggu dan perbaiki penyebabnya (dokumen hilang, chunking buruk, kebijakan tidak jelas, prompt lemah).
Perluas hanya setelah Anda mencapai ambang kualitas yang dapat dipercaya.

Untuk berpindah dari pilot ke “nyata,” Anda butuh fitur aplikasi dasar di sekitar model. Orang akan menanyakan hal sensitif, dan Anda harus bisa menelusuri apa yang terjadi saat bot salah.

Bangun hal esensial sejak awal: otentikasi dan peran (siapa bisa mengakses set dokumen mana), pencatatan dan jejak audit (pertanyaan, potongan yang diambil, jawaban, umpan balik pengguna), UI admin sederhana untuk mengelola sumber dokumen dan melihat pola kegagalan, serta jalur fallback yang aman (serah ke manusia atau tiket saat confidence rendah).

Ini juga tempat platform no-code seperti AppMaster (appmaster.io) bisa membantu: Anda bisa mengirim aplikasi pendukung, termasuk backend, panel admin, dan peran pengguna, sambil menjaga logika chatbot modular. Itu memudahkan mengganti pendekatan nanti, apakah Anda tetap memakai retrieval augmented generation untuk dokumen bisnis atau menambahkan fine-tuning untuk tugas khusus.

Setelah pilot, tambahkan satu set dokumen baru pada satu waktu. Pertahankan set evaluasi yang sama, ukur lagi, dan baru kemudian buka akses ke lebih banyak tim. Perluasan lambat lebih baik daripada kebingungan cepat dan mengurangi jawaban salah yang percaya diri sebelum menjadi masalah kepercayaan.

FAQ

Gunakan RAG ketika jawaban harus sesuai dengan apa yang dokumen Anda katakan saat ini, terutama jika kebijakan, harga, atau SOP sering berubah. Gunakan fine-tuning ketika Anda terutama membutuhkan perilaku yang konsisten seperti nada bicara, template, atau aturan penolakan, dan fakta dasar relatif stabil.

RAG biasanya lebih cocok karena Anda bisa memperbarui basis pengetahuan dan re-indeks tanpa melatih ulang model. Artinya bot bisa mencerminkan perubahan kata-kata pada hari yang sama, asalkan retrieval mengambil potongan yang diperbarui.

RAG bisa dipercaya jika secara konsisten mengambil potongan yang benar dan terkini dan bot dipaksa menjawab hanya dari bukti tersebut. Tambahkan sitasi (nama dokumen, bagian, tanggal) dan jalur fallback “Saya tidak tahu” yang jelas ketika sumber hilang atau sudah usang.

Fine-tuning mengubah perilaku model sehingga menjawab dengan gaya yang Anda inginkan, mengikuti aturan do/don’t, dan menggunakan format yang konsisten. Fine-tuning tidak otomatis tetap terbaru dengan kebijakan yang berubah kecuali Anda melatih ulang secara berkala, yang berisiko jika fakta bergerak cepat.

Gabungkan ketika Anda ingin fakta yang berlandaskan dokumen dan pengalaman pengguna yang konsisten. Biarkan RAG menyediakan potongan yang mutakhir, dan gunakan fine-tuning ringan (atau instruksi sistem yang kuat) untuk menegakkan struktur, nada, dan perilaku penolakan yang aman.

Mulailah dengan 30–100 pertanyaan nyata dari tiket dan chat, pertahankan redaksi asli, dan tulis jawaban singkat yang diharapkan beserta bagian dokumen pendukung. Nilai hasil berdasarkan kebenaran, kelengkapan, dukungan sitasi, dan kejelasan, lalu jalankan kembali set yang sama setelah setiap perubahan.

Versi bercampur terjadi ketika beberapa versi kebijakan diindeks dan retrieval mengambil potongan yang saling bertentangan. Perbaiki dengan menetapkan satu sumber kebenaran, memberi label dokumen dengan tanggal/status, dan menghapus atau menurunkan prioritas konten usang sehingga bot tidak “memilih satu secara acak.”

Gunakan aturan sederhana: jika sumber yang diambil tidak mengandung klaim itu, bot tidak boleh menyatakannya sebagai fakta. Dalam kasus itu, bot harus menanyakan satu pertanyaan klarifikasi, mengatakan tidak menemukan dukungan di dokumen, atau meneruskan ke manusia untuk hal-hal sensitif.

Potong dokumen sehingga setiap bagian berdiri sendiri sebagai aturan atau langkah yang lengkap, termasuk pengecualian dan konteks “siapa/kapan”. Jika potongan terlalu kecil, arti hilang; jika terlalu besar, retrieval menarik teks tak relevan dan jawaban jadi campuran yang berantakan.

Bangun fitur di sekitar model: kontrol akses (siapa melihat set dokumen apa), UI admin untuk mengelola sumber yang disetujui, dan log yang menyimpan pertanyaan, potongan yang diambil, jawaban akhir, dan umpan balik pengguna. Di AppMaster, Anda bisa membuat portal dan alur kerja itu dengan cepat tanpa menulis semuanya dari awal.