27. Juli 2025·8 Min. Lesezeit

RAG vs Feinabstimmung für domänenspezifische Chatbots: Wie entscheiden

Q: Sollte ich für einen Chatbot, der aus Unternehmensdokumenten antwortet, RAG oder Feinabstimmung wählen?

Verwende **RAG**, wenn deine Antworten dem entsprechen müssen, was in deinen Dokumenten *jetzt* steht — besonders wenn Richtlinien, Preise oder SOPs sich häufig ändern. Verwende **Feinabstimmung**, wenn es vor allem um konsistentes Verhalten geht, wie Ton, Vorlagen oder Ablehnungsregeln, und die Fakten selbst stabil sind.

Q: Was ist am besten, wenn unsere Richtlinien jede Woche geändert werden?

In der Regel ist **RAG** die bessere Wahl, weil du die Wissensbasis aktualisieren und re-indexieren kannst, ohne das Modell neu zu trainieren. So kann der Bot am gleichen Tag die neue Formulierung wiedergeben, solange die Retrieval-Komponente den aktualisierten Abschnitt findet.

Q: Wann macht es Sinn, RAG und Feinabstimmung zu kombinieren?

Kombiniere sie, wenn du datenbasierte Fakten **und** konsistente UX willst. Lass RAG die aktuellen Passagen liefern und nutze leichte Feinabstimmung (oder starke Systemanweisungen), um Struktur, Ton und sichere Ablehnungsregeln durchzusetzen.

Q: Wie können wir Qualität bewerten, ohne zu raten?

Beginne mit **30–100 realen Fragen** aus Tickets und Chats, behalte die Originalformulierung bei und schreibe eine kurze erwartete Antwort plus den unterstützenden Dokumentabschnitt. Bewerte Ergebnisse nach Korrektheit, Vollständigkeit, Zitierunterstützung und Klarheit, und führe dieselben Tests nach jeder Änderung erneut aus.

RAG vs Feinabstimmung für domänenspezifische Chatbots: Wie du dich entscheidest, wenn Geschäftsdokumente sich ändern, wie du Qualität misst und selbstsichere Fehlantworten reduzierst.

Welches Problem lösen wir mit einem domänenspezifischen Chatbot?

Ein domänenspezifischer Chatbot beantwortet Fragen mithilfe des internen Wissens deiner Organisation, nicht allgemeiner Internetfakten. Denk an HR-Richtlinien, Produktanleitungen, Preisregeln, Support-Playbooks, SOPs und interne How-to-Guides.

Die meisten Teams versuchen nicht, "dem Modell alles beizubringen". Sie wollen schnellere, konsistente Antworten auf Alltagsfragen wie „Was ist unsere Rückerstattungsregel für Jahrespläne?“ oder „Welches Formular nutze ich für eine Lieferantenanfrage?“, ohne in Ordnern und PDFs zu suchen.

Die Herausforderung ist Vertrauen. Ein allgemeines Modell kann selbstbewusst klingen, auch wenn es falsch liegt. Wenn deine Richtlinie „7 Werktage" sagt und das Modell antwortet „10 Kalendertage“, sieht die Antwort vielleicht gut aus — kann aber echten Schaden anrichten: falsche Genehmigungen, inkorrekte Kundenantworten oder Compliance-Probleme.

Wie oft sich deine Dokumente ändern, ist genauso wichtig wie Genauigkeit. Wenn Dokumente wöchentlich aktualisiert werden, muss der Chatbot neue Inhalte schnell und zuverlässig abbilden, sonst wird er zur Quelle veralteter Anweisungen. Wenn Dokumente jährlich geändert werden, kannst du dir langsamere Aktualisierungszyklen leisten, aber der Bot muss trotzdem richtig sein, weil Menschen ihm vertrauen.

Beim Vergleich von RAG und Feinabstimmung für domänenspezifische Chatbots geht es praktisch darum: hilfreiche Antworten, die in deinen Dokumenten verankert sind, mit klaren Quellen oder Zitaten, und einem sicheren Verhalten, wenn der Chatbot unsicher ist.

Eine solide Problemformulierung umfasst fünf Punkte: welche Dokumente der Bot nutzen darf (und welche nicht), die häufigsten Fragetypen, wie eine „gute" Antwort aussieht (korrekt, kurz, enthält Quelle), wie eine „schlechte" Antwort aussieht (selbstsichere Vermutungen, veraltete Regeln) und was zu tun ist, wenn Belege fehlen (eine Rückfrage stellen oder sagen, dass es nicht bekannt ist).

RAG und Feinabstimmung in einfachen Worten

RAG und Feinabstimmung sind zwei verschiedene Wege, damit ein Chatbot bei der Arbeit gut reagiert.

Retrieval-augmented generation (RAG) ist wie eine offene Buchprüfung. Wenn ein Nutzer eine Frage stellt, durchsucht das System deine Dokumente (Richtlinien, Handbücher, Tickets, FAQs). Es übergibt dann die relevantesten Ausschnitte an das Modell und sagt ihm, mit diesem Material zu antworten. Das Modell speichert deine Dokumente nicht dauerhaft — es liest ausgewählte Passagen im Moment der Antwort.

Feinabstimmung ist wie Coaching: du gibst viele Input-Output-Beispiele (Fragen und ideale Antworten, Ton, Format, No-Go-Regeln). Die Modellgewichte ändern sich, sodass es konsistenter reagiert, auch wenn kein Dokument direkt geliefert wird.

Ein einfaches Gedankenmodell:

RAG hält Wissen aktuell, indem es aus deinen aktuellen Dokumenten zieht.
Feinabstimmung macht Verhalten konsistent: Stil, Regeln und Entscheidungsabläufe.

Beide Ansätze können scheitern, aber auf unterschiedliche Weise.

Bei RAG ist die Schwachstelle Retrieval. Wenn der Suchschritt die falsche Seite, veralteten Text oder zu wenig Kontext findet, kann das Modell immer noch selbstsicher antworten — aber auf Basis schlechter Belege.

Bei Feinabstimmung ist die Schwachstelle Überverallgemeinerung. Das Modell kann Muster aus Trainingsbeispielen lernen und sie anwenden, obwohl es besser wäre, eine Rückfrage zu stellen oder „Ich weiß es nicht" zu sagen. Feinabstimmung bleibt außerdem hinter häufigen Dokumentänderungen zurück, wenn du nicht ständig neu trainierst.

Ein konkretes Beispiel: Ändert sich deine Reiserichtlinie von „Genehmigung durch Manager über 500 $“ zu „über 300 $“, kann RAG am selben Tag korrekt antworten, wenn es die aktualisierte Richtlinie abruft. Ein feinabgestimmtes Modell könnte weiter die alte Zahl nennen, bis du neu trainierst und das Verhalten verifizierst.

Was passt am besten zu sich ändernden Geschäftsdokumenten?

Wenn sich deine Dokumente wöchentlich (oder täglich) ändern, ist Retrieval in der Regel näher an der Realität als ein Training. Bei RAG lässt du das Modell größtenteils gleich und aktualisierst stattdessen die Wissensdatenbank. So spiegelt der Chatbot neue Richtlinien, Preise oder Produktnotizen sofort wider, ohne auf einen neuen Trainingszyklus warten zu müssen.

Feinabstimmung kann funktionieren, wenn die „Wahrheit" stabil ist: ein konstanter Ton, ein festes Regelset oder eine enge Aufgabe. Wenn du jedoch auf Inhalte trainierst, die sich oft ändern, riskierst du, dem Modell gestrige Antworten beizubringen. Häufiges Nachtrainieren wird teuer und ist fehleranfällig.

Governance: Updates und Verantwortlichkeiten

Eine praktische Frage ist: Wer ist für Inhaltsupdates verantwortlich?

Bei RAG können nicht-technische Teams ein Dokument veröffentlichen oder ersetzen, und der Bot nutzt es nach dem Re-Indexing. Viele Teams fügen einen Genehmigungsschritt hinzu, sodass nur bestimmte Rollen Änderungen vornehmen dürfen.

Bei Feinabstimmung erfordern Updates meist einen ML-Workflow. Das bedeutet oft Tickets, Wartezeiten und selteneres Aktualisieren.

Compliance und Audit

Wenn Leute fragen „Warum hat der Bot das gesagt?", hat RAG einen klaren Vorteil: es kann die genauen Passagen nennen, die es verwendet hat. Das hilft bei internen Audits, Support-Reviews und regulierten Themen.

Feinabstimmung schreibt Informationen in Gewichte — es ist schwieriger, für einen bestimmten Satz eine spezifische Quelle zu zeigen.

Kosten und Aufwand unterscheiden sich ebenfalls:

RAG braucht anfänglich Arbeit, um Dokumente zu sammeln, in Stücke zu teilen, zu indexieren und die Ingestion zuverlässig zu halten.
Feinabstimmung braucht anfänglich Arbeit, um Trainingsdaten vorzubereiten und zu bewerten, plus wiederholtes Training bei Wissensänderungen.
Bei häufigen Inhaltsupdates hat RAG meist geringere laufende Kosten.

Beispiel: Ein HR-Chatbot, der aus Richtlinien antwortet, die vierteljährlich wechseln. Mit RAG kann HR die PDF ersetzen und der Bot nutzt den neuen Text schnell, während er weiterhin den Absatz zeigt, auf den er sich stützt. AppMaster kann helfen, ein Admin-Portal zum Hochladen genehmigter Dokumente und zum Protokollieren der genutzten Quellen zu bauen, ohne die ganze App selbst zu entwickeln.

Wann RAG, wann Feinabstimmung, und wann beides

Wenn dein Ziel vertrauenswürdige Antworten ist, die dem entsprechen, was deine Unternehmensdokumente heute sagen, beginne mit Retrieval-augmented generation für Unternehmensdokumente. Es holt relevante Passagen zur Fragezeit, sodass der Bot die genaue Richtlinie, Spezifikation oder SOP nennen kann, die seine Antwort stützt.

RAG ist der bessere Default, wenn sich Inhalte häufig ändern, wenn du zeigen musst, woher eine Antwort stammt, oder wenn verschiedene Teams unterschiedliche Dokumente verwalten. Wenn HR die Urlaubsregel monatlich aktualisiert, soll der Chatbot automatisch die neueste Version verwenden — nicht das, was er vor Wochen gelernt hat.

Feinabstimmung auf Unternehmensdaten macht Sinn, wenn die Dokumente nicht das Hauptproblem sind. Feinabstimmung ist ideal für stabiles Verhalten: ein einheitlicher Ton, striktes Format (z. B. immer in einer Vorlage antworten), bessere Intent-Routing oder verlässliche Ablehnungsregeln. Sie lehrt den Assistenten, wie er sich verhalten soll, nicht, was die aktuelle Handlungsanweisung ist.

Beides zu kombinieren ist üblich: RAG liefert die Fakten, und eine leichte Feinabstimmung (oder starke Systemanweisungen) sorgt für Konsistenz und zurückhaltendes Ablehnen. Das passt auch zu Produktteams, die den Chatbot in eine App einbauen, wo UX und Ton stabil bleiben müssen, auch wenn sich das Wissen ändert.

Kurze Signale zur Auswahl:

Wähle RAG, wenn Antworten aktuell bleiben müssen, exakte Formulierungen zitieren oder Quellen aus den neuesten Dokumenten liefern sollen.
Wähle Feinabstimmung, wenn du einen festen Stil, wiederholte Ausgabeformate oder strengere Do-/Don’t-Regeln brauchst.
Kombiniere beides, wenn du dokumentgestützte Antworten plus konsistenten Ton und sicheres Ablehnen willst.
Überdenke den Plan, wenn du ständig neu abstimmen musst, um mit neuen Dokumenten Schritt zu halten, oder wenn Retrieval oft versagt, weil Inhalte unordentlich oder schlecht gechunked sind.

Ein einfacher Weg, den falschen Ansatz zu erkennen, ist Wartungsschmerz. Wenn jedes Policy-Update eine Modell-Trainingsanfrage auslöst, nutzt du Feinabstimmung, um ein Problem der Dokumentaktualität zu lösen. Wenn RAG die richtige Seite zurückliefert, der Bot aber trotzdem riskant antwortet, brauchst du wahrscheinlich bessere Schutzmaßnahmen (manchmal hilft Feinabstimmung).

Wenn du das in ein echtes Tool einbaust (zum Beispiel mit AppMaster), ist ein praktischer Ansatz: zuerst RAG, dann Feinabstimmung nur für Verhaltensweisen, die du klar testen und messen kannst.

Schritt-für-Schritt: eine verlässliche Basis einrichten (vor der Modellwahl)

Make answers traceable

Capture questions, retrieved snippets, and final replies to make audits and reviews easier.

Build Logs

Die meisten Chatbot-Ausfälle stammen von unordentlichen Dokumenten und unklaren Zielen, nicht vom Modell.

Beginne mit einem Dokumenten-Inventar: was du hast, wo es liegt und wer Änderungen genehmigen kann. Erfasse Typ und Format (PDFs, Wikis, Tickets, Tabellen), Eigentümer und Quelle der Wahrheit, Aktualisierungsfrequenz, Zugriffsregeln und wo Duplikate auftauchen.

Definiere als Nächstes die Aufgabe des Chatbots in einfachen Worten. Wähle 20–50 reale Fragen, die er gut beantworten muss (z. B. „Wie beantrage ich eine Rückerstattung?“ oder „Wie ist die Eskalation auf Bereitschaftsdienst?“). Definiere auch, was er ablehnen muss, z. B. Rechtsberatung, HR-Entscheidungen oder alles außerhalb genehmigter Dokumente. Eine Ablehnung ist ein Erfolg, wenn sie eine falsche Antwort verhindert.

Bereinige und strukturiere die Dokumente so, dass Antworten leicht belegbar sind. Entferne Duplikate, behalte eine aktuelle Version und kennzeichne ältere Versionen klar. Füge klare Titel, Daten und Abschnittsüberschriften hinzu, damit der Chatbot genau die Stelle nennen kann, die seine Antwort stützt. Wenn sich eine Richtlinie oft ändert, pflege eine einzelne Seite statt vieler Kopien.

Lege schließlich einen Output-Vertrag fest. Fordere eine kurze Antwort, ein Zitat auf die genutzte Stelle und eine nächste Aktion, wenn nötig (z. B. „Ein Ticket bei Finance eröffnen"). Wenn du das in ein internes Tool mit AppMaster baust, hilft eine konsistente UI: zuerst die Antwort, dann das Zitat, dann die Aktion. Diese Struktur macht Probleme beim Testen offensichtlich und reduziert später selbstsichere falsche Antworten.

Qualität bewerten, ohne zu raten

Beginne mit einem kleinen Offline-Testset. Sammle 30–100 reale Fragen, die schon in Tickets, E-Mails und Chats gestellt wurden. Behalte die Originalformulierung, nimm ein paar vage Fragen und einige, die leicht missverstanden werden. So hast du eine stabile Vergleichsbasis für RAG vs Feinabstimmung.

Für jede Frage schreibe eine kurze erwartete Antwort in einfacher Sprache sowie den genauen Dokumentabschnitt, der sie stützt. Wenn der Chatbot „Ich weiß es nicht" sagen darf, nimm auch solche Fälle auf.

Antworte auf wenigen einfachen Dimensionen

Halte die Bewertungsbogen klein genug, dass du ihn wirklich nutzt. Diese vier Checks decken die meisten Fehler ab:

Korrektheit: Ist es sachlich richtig, ohne erfundene Details?
Vollständigkeit: Deckt es die Schlüsselpunkte ab, die Nutzer brauchen?
Zitierqualität: Unterstützen die Zitate oder Referenzen die Aussage wirklich?
Klarheit: Ist es lesbar und spezifisch oder vage und wortreich?

Wenn du Retrieval nutzt, füge einen weiteren Check hinzu: Wurde der richtige Chunk geholt, und hat die Antwort diesen Chunk tatsächlich verwendet statt ihn zu ignorieren?

Veränderungen über die Zeit verfolgen, nicht nur Einzelexperimente

Mach Qualität zur Routine:

Führe dasselbe Testset nach jeder Prompt-, Retrieval- oder Modelländerung aus.
Behalte eine zentrale Scorecard und protokolliere Gesamtscores nach Datum.
Markiere Fehler (fehlende Policy-Details, falsche Zahlen, veraltetes Dokument, unklare Formulierungen).
Überprüfe die schlimmsten 5 Fragen zuerst und behebe die Ursache.

Beispiel: Wenn ein HR-Chatbot eine Frage korrekt beantwortet, aber ein veraltetes PDF zitiert, sollte der Score sinken. Das zeigt dir, was zu reparieren ist: Dokumentenaktualität, Chunking oder Retrieval-Filter, nicht der Schreibstil des Modells.

Wenn du den Chatbot in eine App baust (z. B. mit AppMaster), speichere Testfragen und Ergebnisse zusammen mit Releases, damit du Regressionen früh entdeckst.

Konkrete Maßnahmen gegen selbstsichere falsche Antworten (Halluzinationen)

Integrate AI without rebuilding everything

Connect your app to AI services while keeping the surrounding workflows under your control.

Build an MVP

Selbstsichere falsche Antworten entstehen meist aus drei Gründen: Das Modell bekam nicht den richtigen Kontext, es bekam den falschen Kontext, oder du hast es indirekt zum Raten ermutigt. Dieses Risiko gibt es bei RAG und Feinabstimmung, aber es zeigt sich anders. RAG scheitert, wenn Retrieval schwach ist; Feinabstimmung, wenn das Modell Lücken mit plausibel klingendem Text füllt.

Die effektivste Gegenmaßnahme ist Nachweis-Pflicht. Behandle jede Antwort wie einen kurzen Bericht: Wenn der unterstützende Text nicht in den bereitgestellten Quellen steht, darf der Bot es nicht behaupten. Praktisch heißt das: Deine App muss abgerufene Ausschnitte in den Prompt geben und das Modell verpflichten, nur diese zu verwenden.

Füge klare Ablehnungs- und Eskalationsregeln hinzu, damit der Bot einen sicheren Ausweg hat. Ein guter Chatbot beantwortet nicht alles — er weiß, wann er nicht kann.

Wenn Quellen das Thema nicht erwähnen, sage: „Ich habe in den Dokumenten nicht genug Informationen, um das zu beantworten."
Wenn die Frage unklar ist, stelle eine Klärungsfrage.
Wenn die Antwort Geld, Zugang oder Compliance betrifft, leite an einen Menschen oder ein Ticket weiter.
Wenn Dokumente widersprüchlich sind, weise auf den Konflikt hin und frage, welche Version gilt.

Beschränkungen reduzieren auch das Raten und machen Fehler leichter erkennbar. Bei policy-artigen Antworten fordere Dokumentname und Datum sowie 1–2 Schlüsselsätze als Zitat.

Beispiel: Ein Mitarbeiter fragt: „Wie hoch ist das aktuelle Reisekostenlimit?" Wenn der abgerufene Richtlinienausschnitt vom letzten Jahr stammt, sollte der Bot dieses Datum anzeigen und sich weigern, ein „aktuelles" Limit anzugeben, ohne eine neuere Quelle.

Baust du das in AppMaster ein, mache die Regeln Teil des Business-Process-Flows: Retrieval-Schritt, Evidenzprüfung, dann entweder Antwort mit Zitaten oder Eskalation. So ist das Sicherheitsverhalten konsistent, nicht optional.

Häufige Fehler und Fallen, die du vermeiden solltest

Standardize the chatbot UX

Build a simple UI that shows the answer first, then the citation, then next steps.

Get Started

Die meisten Chatbot-Fehler betreffen nicht das Modell. Sie entstehen durch unordentliche Dokumente, schwaches Retrieval oder Trainingsentscheidungen, die das System dazu bringen, sicher zu klingen, wenn es langsamer agieren sollte. Zuverlässigkeit ist meist zuerst ein Daten- und Prozessproblem.

Ein typisches RAG-Problem ist Chunking, das Bedeutung ignoriert. Sind Chunks zu klein, geht Kontext verloren (wer, wann, Ausnahmen). Sind Chunks zu groß, zieht Retrieval irrelevanten Text und die Antwort mischt halbrichtige Details. Ein einfacher Test: Ergibt ein einzelner Chunk für sich gelesen noch Sinn und enthält eine vollständige Regel?

Eine weitere Falle ist Versionsmischung. Teams indexieren Richtlinien aus verschiedenen Monaten, dann ruft der Bot widersprüchliche Passagen ab und wählt eine davon zufällig. Behandle Dokumentenaktualität wie ein Feature: versehe Quellen mit Datum, Eigentümer und Status (Entwurf vs. genehmigt) und entferne oder demote veraltete Inhalte.

Der schlimmste Fehler ist, eine Antwort zu erzwingen, wenn nichts Relevantes abgerufen wurde. Wenn Retrieval leer oder unsicher ist, sollte der Bot sagen, er findet keine Unterstützung, und eine Klärungsfrage stellen oder an einen Menschen eskalieren. Ansonsten erzeugst du selbstsichere Unsinnsantworten.

Feinabstimmung hat ihren eigenen Stolperstein: Überanpassung an ein enges Q&A-Set. Der Bot beginnt, deine Trainingsformulierungen zu spiegeln, wird brüchig und kann grundlegende Schlüsse oder Alltagssprache verlieren.

Warnsignale im Test:

Antworten nennen keinen Quelltext oder das falsche Segment.
Dieselbe Frage erhält je nach Wortwahl unterschiedliche Antworten.
Policy-Fragen bekommen definitive Antworten, obwohl die Dokumente schweigen.
Nach Feinabstimmung hat der Bot Probleme mit einfachen Alltagsfragen.

Beispiel: Wenn sich deine Reiserichtlinie letzte Woche geändert hat, aber beide Versionen indexiert sind, kann der Bot weiterhin eine Ausgabe genehmigen, die inzwischen nicht mehr erlaubt ist. Das ist kein Modellproblem — es ist ein Content-Control-Problem.

Schnell-Checkliste vor dem Rollout

Bevor du einen domänenspezifischen Chatbot für echte Nutzer einsetzt, behandle ihn wie jedes andere Geschäftstool: er muss vorhersehbar, testbar und sicher bei Unsicherheit sein.

Nutze diese Checkliste als finales Tor:

Jede policy-artige Antwort ist begründet. Bei Aussagen wie „Das kannst du abrechnen" oder „Das SLA ist 99,9 %" sollte der Bot zeigen, woher das stammt (Dokumentname + Abschnittsüberschrift oder ein Auszug). Kann er keine Quelle nennen, darf er die Behauptung nicht als Fakt darstellen.
Er stellt Rückfragen, wenn die Frage unklar ist. Kann die Nutzeranfrage zwei Dinge bedeuten, stellt er eine kurze klärende Frage statt zu raten.
Er kann sauber „Ich weiß es nicht" sagen. Liefert Retrieval schwache oder keine Belege, lehnt er höflich ab, erklärt, was fehlt, und schlägt vor, was zu liefern ist (Dokumentname, Datum, Team).
Dokumentenupdates ändern Antworten schnell. Ändere einen Satz in einem Kerndokument und überprüfe, ob sich die Bot-Antwort nach dem Re-Indexing ändert. Falls er weiter die alte Antwort nennt, ist deine Update-Pipeline nicht zuverlässig.
Du kannst Fehler überprüfen. Logge die Nutzerfrage, die abgerufenen Ausschnitte, die finale Antwort und ob Nutzer „hilfreich/unhilfreich" geklickt haben. So wird Qualitätsarbeit möglich, ohne zu raten.

Ein konkreter Test: Nimm 20 reale Fragen aus Support-Tickets oder internem Chat, einschließlich kniffliger Fälle mit Ausnahmen. Führe sie vor dem Launch aus, dann erneut, nachdem du ein Policy-Dokument aktualisiert hast. Wenn der Bot Antworten nicht zuverlässig belegt, Rückfragen stellt und bei fehlenden Quellen ablehnt, ist er nicht produktionsreif.

Wenn du den Bot in ein internes Portal packst, mache Quellen sichtbar und halte neben jeder Antwort einen „Problem melden"-Button bereit.

Beispiel-Szenario: Chatbot für häufig aktualisierte interne Dokumente

Add safe handoff paths

Add escalation flows so sensitive topics route to a human or a ticket instead of guessing.

Start Building

Dein HR-Team hat Richtlinien und Onboarding-Dokumente, die sich jeden Monat ändern: PTO-Regeln, Reisekostenlimits, Termine für Leistungsanmeldung und Onboarding-Schritte für neue Mitarbeitende. Leute stellen immer noch dieselben Fragen im Chat, und Antworten müssen der neuesten Dokumentenversion entsprechen, nicht dem, was im letzten Quartal galt.

Option A: Nur RAG, optimiert für Aktualität

Mit einem RAG-Setup durchsucht der Bot zuerst die aktuelle HR-Wissensbasis und antwortet nur mit dem, was er abgerufen hat. Wichtig ist, „Arbeitsnachweis" als Default festzulegen.

Ein einfacher Ablauf, der meist funktioniert:

Indexiere HR-Dokumente nach Zeitplan (oder bei jedem genehmigten Update) und speichere Dokumenttitel, Abschnitt und zuletzt aktualisiert.
Antworte mit kurzen Zitaten (Dokument + Abschnitt) und einer „zuletzt aktualisiert"-Hinweis, wenn relevant.
Füge Ablehnungsregeln hinzu: Wenn nichts Relevantes gefunden wird, sagt der Bot, dass er es nicht weiß und schlägt vor, wen man fragen kann.
Leite sensible Themen (Kündigung, rechtliche Streitigkeiten) standardmäßig an einen Menschen.

Das bleibt akkurat, weil du alten Text nicht ins Modell backst.

Option B: Leichte Feinabstimmung für Format, weiterhin durch RAG begründet

Willst du konsistenten Ton und strukturierte Antworten (z. B. „Berechtigung", „Schritte", „Ausnahmen", „An HR eskalieren"), kannst du das Modell leicht mit einer kleinen Menge genehmigter Beispielantworten feinabstimmen. Der Bot bezieht die Fakten weiterhin aus RAG.

Die Regel bleibt streng: Feinabstimmung lehrt, wie zu antworten ist, nicht, was die Richtlinie sagt.

Nach 2–4 Wochen sieht Erfolg so aus: weniger HR-Eskalationen bei Basisfragen, höhere Genauigkeit bei Spot-Checks und weniger selbstsichere falsche Antworten. Messe das über Zitierabdeckung (Antworten mit Quellen), Ablehnungsrate bei fehlenden Infos und wöchentliche Stichprobenprüfungen durch HR.

Teams bauen das oft als internes Tool, damit HR Inhalte aktualisieren, Antworten prüfen und Regeln anpassen kann, ohne auf Engineering zu warten. AppMaster ist eine Möglichkeit, die komplette Anwendung (Backend, Web-App und Mobile-App) mit Rollen und Admin-Workflows zu erstellen.

Nächste Schritte: Pilotierung und das Produkt bauen

Behandle den Chatbot wie ein kleines Produkt. Beginne mit einem Team (z. B. Customer Support), einem Dokumentensatz (das aktuelle Support-Playbook und Policies) und einer klaren Feedback-Schleife. So bleibt der Umfang überschaubar und Qualitätsprobleme werden sichtbar.

Ein pilotierbarer Plan mit Messbarkeit:

Wähle 30–50 reale Fragen aus den Chatlogs oder Tickets dieses Teams.
Definiere „gut": korrekte Antwort, zitiert das richtige Dokument und sagt „Ich weiß es nicht", wenn nötig.
Führe einen 2–3-wöchigen Pilot mit einer kleinen Gruppe durch und sammle Daumen hoch/runter plus kurze Kommentare.
Überprüfe Fehler zweimal pro Woche und behebe die Ursache (fehlende Docs, schlechtes Chunking, unklare Richtlinie, schwache Prompts).
Erweitere nur, wenn du eine Qualitätsgrenze erreichst, der du vertraust.

Um vom Pilot zum Produkt zu kommen, brauchst du grundlegende App-Funktionen rund ums Modell. Leute fragen sensible Dinge, und du musst nachvollziehen können, was passiert ist, wenn der Bot falsch lag.

Baue die Essentials früh: Authentifizierung und Rollen (wer welche Dokumentensätze sehen darf), Protokollierung und Audit-Trails (Frage, abgerufene Quellen, Antwort, Nutzerfeedback), ein einfaches Admin-UI zur Verwaltung von Dokumentquellen und Erkennung von Fehlerbildern sowie sichere Fallback-Pfade (Übergabe an einen Menschen oder ein Ticket bei niedriger Zuverlässigkeit).

Hier kann eine No-Code-Plattform wie AppMaster (appmaster.io) helfen: Du bringst die umgebende Anwendung, Admin-Panels und Nutzerrollen schneller an den Start, während die Chatbot-Logik modular bleibt. So kannst du später leichter die Herangehensweise ändern — ob du bei Retrieval-augmented generation für Unternehmensdokumente bleibst oder Feinabstimmung für spezielle Aufgaben ergänzst.

Nach dem Pilot füge jeweils einen neuen Dokumentensatz hinzu. Behalte dasselbe Evaluationsset, messe erneut und öffne erst dann den Zugriff für weitere Teams. Langsames Wachstum ist besser als schnelle Verwirrung und reduziert selbstsichere falsche Antworten, bevor sie das Vertrauen zerstören.

FAQ

Verwende RAG, wenn deine Antworten dem entsprechen müssen, was in deinen Dokumenten jetzt steht — besonders wenn Richtlinien, Preise oder SOPs sich häufig ändern. Verwende Feinabstimmung, wenn es vor allem um konsistentes Verhalten geht, wie Ton, Vorlagen oder Ablehnungsregeln, und die Fakten selbst stabil sind.

In der Regel ist RAG die bessere Wahl, weil du die Wissensbasis aktualisieren und re-indexieren kannst, ohne das Modell neu zu trainieren. So kann der Bot am gleichen Tag die neue Formulierung wiedergeben, solange die Retrieval-Komponente den aktualisierten Abschnitt findet.

RAG wird vertrauenswürdig, wenn es konsequent die richtigen, aktuellen Textausschnitte abruft und der Bot gezwungen wird, nur aus diesen Belegen zu antworten. Ergänze Zitate (Dokumentname, Abschnitt, Datum) und eine klare "Ich weiß es nicht"-Fallback-Strategie, wenn Quellen fehlen oder veraltet sind.

Feinabstimmung ändert das Verhalten des Modells, sodass es in deinem gewünschten Stil antwortet, deine Do-/Don’t-Regeln befolgt und eine konsistente Formatierung nutzt. Sie hält nicht automatisch mit sich ändernden Richtlinien Schritt, es sei denn, du trainierst regelmäßig nach — das ist riskant, wenn Fakten sich schnell bewegen.

Kombiniere sie, wenn du datenbasierte Fakten und konsistente UX willst. Lass RAG die aktuellen Passagen liefern und nutze leichte Feinabstimmung (oder starke Systemanweisungen), um Struktur, Ton und sichere Ablehnungsregeln durchzusetzen.

Beginne mit 30–100 realen Fragen aus Tickets und Chats, behalte die Originalformulierung bei und schreibe eine kurze erwartete Antwort plus den unterstützenden Dokumentabschnitt. Bewerte Ergebnisse nach Korrektheit, Vollständigkeit, Zitierunterstützung und Klarheit, und führe dieselben Tests nach jeder Änderung erneut aus.

Versionen werden gemischt, wenn mehrere Dokumentversionen indexiert sind und das Retrieval widersprüchliche Passagen zurückliefert. Behebe das, indem du eine einzige Quelle der Wahrheit definierst, Dokumente mit Datum/Status versiehst und veraltete Inhalte entfernst oder herabstufst, damit der Bot nicht zufällig eine auswählt.

Regel: Wenn die abgerufenen Quellen eine Behauptung nicht enthalten, darf der Bot sie nicht als Fakt darstellen. In diesem Fall sollte er eine kurze klärende Frage stellen, sagen, dass er in den Dokumenten keinen Beleg findet, oder bei sensiblen Themen an einen Menschen verweisen.

Erzeuge so viele eigenständige Stücke, dass jedes für sich eine vollständige Regel oder einen vollständigen Schritt enthält, inklusive Ausnahmen und Kontext (wer, wann). Sind Chunks zu klein, geht Bedeutung verloren; sind sie zu groß, zieht Retrieval irrelevanten Text und Antworten werden vermischt.

Baue die begleitenden Funktionen früh: Zugriffskontrolle (wer welche Dokumente sehen darf), ein Admin-UI zum Verwalten genehmigter Quellen und Logs, die Frage, abgerufene Ausschnitte, Antwort und Nutzerfeedback speichern. In AppMaster kannst du dieses Portal und die Workflows schnell aufbauen, ohne alles neu zu entwickeln.