Warum interne Wissens-KI oft schlechte Antworten gibt

Symptom

Die KI klingt souverän, beantwortet aber konkrete interne Fragen ungenau oder mit alten Informationen.

Ursache

Dokumentqualität, Berechtigungen, Chunking, Retrieval und fehlende Testfragen sind meist wichtiger als das Modell.

Lösung

Quelleninventar, Dokumentbereinigung, Retrieval-Tuning, Testdatensatz und Qualitätsmonitor.

Das Demo-Problem: Im Pilot gut, im Alltag schwach

Viele RAG-Systeme starten überzeugend. Man verbindet SharePoint, ein Wiki oder einen Ordner mit PDFs, stellt ein paar Testfragen und bekommt brauchbare Antworten. Im echten Alltag wird es schwieriger: Mitarbeitende fragen spezifischer, Dokumente widersprechen sich, alte Versionen bleiben im Index und wichtige Informationen stecken in Tabellen, Bildern oder Anhängen.

Das Ergebnis ist frustrierend. Die KI antwortet zwar flüssig, aber nicht belastbar. Nutzer verlieren Vertrauen und fragen wieder Kolleginnen und Kollegen. Damit ist das eigentliche Ziel verfehlt: Wissen schneller, konsistenter und nachvollziehbarer verfügbar zu machen.

Praxisbeispiel:

Ein Unternehmen bindet seine internen Prozessdokumente an eine Wissens-KI an. Die Frage nach der aktuellen Reklamationsfrist wird falsch beantwortet, weil drei alte PDFs mit höherer Trefferwahrscheinlichkeit im Index liegen als die neue Prozessseite. Das Problem ist nicht das Sprachmodell, sondern die Quellen- und Retrieval-Logik.

Die häufigsten Ursachen schlechter RAG-Antworten

Veraltete Quellen

Alte PDFs, doppelte Dateien und überholte Prozessstände konkurrieren mit aktuellen Informationen.

Schlechtes Chunking

Dokumente werden technisch zerteilt, aber semantisch auseinandergerissen. Tabellen, Überschriften und Gültigkeit gehen verloren.

Fehlende Metadaten

Abteilung, Version, Gültigkeit, Dokumenttyp oder Zielgruppe fehlen. Die Suche kann Relevanz nicht sauber gewichten.

Unklare Berechtigungen

Die KI findet zu viel, zu wenig oder falsche Dokumente, weil Rechte und Datenräume nicht sauber modelliert sind.

Keine Testfragen

Ohne Golden Set aus echten Nutzerfragen bleibt Qualität subjektiv. Man merkt Fehler erst im Betrieb.

Kein Feedbackprozess

Schlechte Antworten werden gesehen, aber nicht systematisch ausgewertet und verbessert.

Welche Kennzahlen eine Wissens-KI braucht

Retrieval-TrefferquoteFindet das System die relevanten Dokumente zur Frage?Testfragen mit erwarteten Quellen vergleichen.

QuellenqualitätSind Quellen aktuell, eindeutig und fachlich belastbar?Versionen, Gültigkeit und Dokumenttyp einbeziehen.

AntworttreueBleibt die Antwort bei den Quellen oder ergänzt sie unbelegte Aussagen?Quellenpflicht und Antwortregeln testen.

Abbruch- und EskalationsquoteErkennt die KI, wenn sie keine sichere Antwort geben kann?Unanswered Questions gezielt sammeln.

So wird RAG verlässlicher

RAG-Optimierung ist halb Inhaltsarbeit, halb Technik. Zuerst braucht es ein Quelleninventar: Welche Dokumente sind relevant, aktuell, berechtigt und wirklich nutzbar? Danach werden Dokumente bereinigt, sinnvoll segmentiert und mit Metadaten versehen. Erst dann lohnt sich Retrieval-Tuning.

Für KMU ist besonders wichtig, nicht sofort eine neue Plattform zu bauen. Oft reicht ein Qualitäts-Sprint für das bestehende System: 30 bis 80 typische Fragen sammeln, erwartete Quellen definieren, Antwortqualität messen, Fehlercluster identifizieren und dann gezielt verbessern.

Wann ein Neustart sinnvoll ist

Nicht jedes RAG-System sollte repariert werden. Wenn die Datenbasis völlig ungeordnet ist, Berechtigungen nicht stimmen oder das System keine Quellen und Logs liefern kann, ist ein technischer Neustart manchmal wirtschaftlicher. In vielen Fällen ist aber keine neue KI nötig, sondern bessere Informationsarchitektur.

Ihre Wissens-KI antwortet zu ungenau?

Der RAG-Qualitäts-Sprint prüft Quellen, Retrieval, Testfragen und Antwortqualität. Ziel ist keine neue Demo, sondern ein verlässlicher Arbeitsassistent.

RAG-Use-Case ansehen