Was ist RAG (Retrieval-Augmented Generation)?

RAG steht für Retrieval-Augmented Generation. Ein KI-Sprachmodell wird dabei mit Ihren internen Dokumenten verbunden. Bei einer Frage durchsucht das System zuerst Ihre Daten, findet die passenden Stellen und übergibt sie dem Modell. Die Antwort basiert also auf Ihrem echten Wissen, nicht auf generischem Trainingswissen, und nennt ihre Quellen.

Was ist der Unterschied zwischen RAG und ChatGPT?

Ein generisches Modell wie ChatGPT kennt Ihr Unternehmen nicht. Fragen Sie nach Ihrer Rückgabe-Policy, bekommen Sie eine plausibel klingende Erfindung. RAG bindet die Antworten an Ihre realen Dokumente. Das Modell stützt sich vorrangig auf das, was tatsächlich in Ihrer Wissensbasis steht, was Erfindungen deutlich seltener macht.

Was kostet ein RAG-System im Betrieb?

Der Aufbau eines maßgeschneiderten RAG-Systems liegt je nach Datenmenge bei rund 25.000 bis 60.000 Euro. Im laufenden Betrieb kommen Vektordatenbank, LLM-Aufrufe und Wartung zusammen, für eine mittelgroße Installation grob 1.500 bis 3.000 Euro pro Monat. Standardprodukte rechnen 10 bis 30 Euro pro Nutzer und Monat ab.

RAG erklärt: Retrieval-Augmented Generation für Ihr…

Ihr Firmenwissen ist eingesperrt

Wissensarbeiter verbringen 1,8 Stunden pro Tag mit der Suche nach Informationen. Nicht mit ihrer eigentlichen Arbeit. Mit der Suche danach, womit sie arbeiten sollen.

Bei einem Team von 20 Personen sind das vier Vollzeitgehälter, die in “Wo liegt nochmal das Dokument?” verbrennen. Jede Woche aufs Neue.

Nur 27 Prozent der Unternehmen haben brauchbare Suchwerkzeuge im Einsatz. Der Rest verlässt sich auf Netzlaufwerke, Slack-Verläufe und “frag die Kollegin, die am längsten dabei ist”. Das funktioniert, bis diese Kollegin in den Urlaub fährt. Oder kündigt.

Was RAG tatsächlich ist

RAG (Retrieval-Augmented Generation) ist eine Technik, die ein KI-Sprachmodell mit Ihren eigenen Dokumenten verbindet, damit seine Antworten auf Ihren echten Daten fußen statt auf generischem Trainingswissen. Das System ruft die passenden Passagen aus Ihrer Wissensbasis ab und lässt das Modell daraus eine Antwort formulieren, mit Quellenangabe.

Klingt akademisch. Das Konzept ist aber simpel.

Sie nehmen ein KI-Sprachmodell (ein Spitzenmodell wie GPT oder Claude, oder eine quelloffene Alternative) und verbinden es mit Ihren internen Dokumenten. Arbeitsanweisungen, Wikis, Projektdateien, E-Mail-Archive, Slack-Historie, CRM-Notizen.

Welches Modell sich für welchen Zweck eignet, vergleichen wir im Detail unter ChatGPT und Claude für Unternehmen. Fürs Retrieval ist die Wahl ohnehin zweitrangig.

Stellt jemand eine Frage, durchsucht das System zuerst Ihre Dokumente, findet die relevanten Passagen und übergibt diese zusammen mit der Frage an das Modell. Das Modell formuliert eine Antwort, die auf Ihren echten Daten fußt.

Deutlich weniger erfundene Fakten, kein generisches Internetwissen. Stattdessen die spezifischen Informationen Ihres Unternehmens, mit Quellenangabe.

Warum nicht einfach ChatGPT?

Generische KI-Modelle wissen nichts über Ihr Geschäft. Fragen Sie ChatGPT nach Ihrer Rückgabe-Policy, bekommen Sie eine erfundene Antwort, die selbstbewusst klingt.

RAG entschärft das, indem es die Antworten des Modells an Ihre realen Dokumente bindet. Das Modell soll sich vorrangig auf das stützen, was tatsächlich in Ihrer Wissensbasis steht. Fehler sind damit seltener, aber nicht ausgeschlossen: Ein schlecht abgerufener Abschnitt oder eine ungenaue Zusammenfassung kann weiterhin daneben liegen.

Genau diese Erdung macht die Sache fürs Geschäft brauchbar. Fragt eine Mitarbeiterin “Welches SLA gilt für unsere Enterprise-Kunden?”, kommt die Antwort aus Ihren tatsächlichen Vertragsvorlagen. Nicht aus den Trainingsdaten des Modells.

Wie es funktioniert (Architektur)

Ein RAG-System hat drei Kernkomponenten. Jede davon ist eine Designentscheidung, die Qualität und Kosten beeinflusst.

Die Dokument-Pipeline liest Ihre Dateien ein, zerlegt sie in Abschnitte und wandelt jeden Abschnitt in ein Vektor-Embedding um. Ein Embedding ist eine numerische Repräsentation, die Bedeutung erfasst. Diese Vektoren landen in einer Vektordatenbank.

Die Retrieval-Schicht nimmt die Frage eines Nutzers, wandelt sie ebenfalls in ein Embedding um und findet die ähnlichsten Dokumentabschnitte. Das ist semantische Suche: Sie gleicht nach Bedeutung ab, nicht nur nach Stichwörtern.

Die Generierungs-Schicht füttert das LLM mit den gefundenen Abschnitten plus der Frage. Das Modell synthetisiert daraus eine Antwort und nennt seine Quellen.

Der gesamte Durchlauf dauert für die meisten Anfragen 2 bis 5 Sekunden. Schnell genug für den Echtzeit-Einsatz.

Ein neuerer Baustein passt daneben. Das Model Context Protocol (MCP), ein offener Standard, um Modelle mit Live-Werkzeugen und Datenquellen zu verbinden, ist Anfang 2026 in den Unternehmenseinsatz gereift.

RAG übernimmt die eine Hälfte: “durchsuche deine Dokumente”. MCP übernimmt die andere: “lass das Modell auch dein CRM, dein Ticketsystem oder eine Datenbank direkt abfragen”.

Beides ergänzt sich, statt zu konkurrieren. Das Retrieval erdet die Antwort, MCP lässt das Modell über einen statischen Index hinausgreifen, wenn eine Frage eine aktuelle Abfrage braucht.

Wofür es gut ist

Die interne Wissenssuche ist der naheliegende Anwendungsfall. “Wie haben wir die Authentifizierung bei Projekt X gelöst?” “Wo liegt der Q3-Bericht zum Münchner Kunden?” “Was ist unsere Regelung für Remote-Arbeit in Portugal?”

Kein Wühlen mehr durch verschachtelte Ordnerstrukturen. Kein Anpingen von Kolleginnen.

Der Kundenservice profitiert enorm. Verbinden Sie RAG mit Ihren Hilfe-Artikeln und Ihrer Produkt-Wissensbasis. Support-Mitarbeiter bekommen sofort Antworten mit Quellenangabe, statt sich manuell durch 50 Hilfeseiten zu klicken.

Das Kundenservice-Team von LinkedIn hat RAG mit Knowledge Graphs kombiniert und damit die Treffergenauigkeit beim Retrieval um 77,6 Prozent verbessert, bei 28,6 Prozent kürzeren Bearbeitungszeiten. Beachtliche Zahlen.

Beim Onboarding multipliziert sich der Effekt. Neue Mitarbeiter, die sonst wochenlang eine mentale Landkarte von “Wer weiß was?” aufbauen, sind in Tagen produktiv.

Ein Beispiel aus der Praxis. Ein mittelständischer Maschinenbauer hatte seine Serviceanleitungen über zwanzig Jahre in PDFs, E-Mails und Köpfen verteilt. Ein neuer Servicetechniker brauchte früher einen erfahrenen Kollegen am Telefon, um eine ältere Anlage zu reparieren.

Nach dem RAG-Rollout tippt er die Maschinennummer und das Fehlerbild ein und bekommt die richtige Passage aus dem passenden Handbuch, mit Quellenangabe.

Wir haben RAG für Teams von 15 bis 200 Personen aufgesetzt. Die Reaktion in der ersten Woche ist immer dieselbe: ehrliches Erstaunen, dass es tatsächlich funktioniert.

Das Problem mit der Datenqualität

RAG-Systeme haben eine unbequeme Wahrheit. Schlechte Dokumentation rein, schlechte Antworten raus. Die KI kann nur abrufen, was existiert.

Wenn Ihre Arbeitsanweisungen seit 2019 nicht aktualisiert wurden, serviert das System selbstbewusst veraltete Informationen. Ist Ihr Wiki ein Friedhof halbfertiger Seiten, leidet die Retrieval-Qualität.

Das ist kein Grund zu warten. Es ist ein Grund anzufangen.

Die meisten Unternehmen ahnen nicht, wie schlecht ihre Dokumentation ist, bis sie versuchen, sie durchsuchbar zu machen.

Schon der Aufräumprozess hat einen Wert. Sie entdecken doppelte Abläufe, widersprüchliche Regelungen und kritisches Wissen, das nur in einem einzigen Kopf existiert.

Selbst bauen oder einkaufen?

Fertige RAG-Produkte gibt es. Glean, Guru, Notion AI und andere bieten Wissenssuche zum Anstöpseln. Für generische Anwendungsfälle mit gängigen Dokumenttypen funktionieren sie.

Maßgeschneidertes RAG lohnt sich, wenn Ihre Dokumente spezialisiert sind, Ihre Sicherheitsanforderungen streng sind oder Sie eine tiefe Integration in bestehende Systeme brauchen.

Denken Sie an eine Klinik, die Patientendaten DSGVO-konform halten muss, an eine Kanzlei mit Verschwiegenheitspflicht oder an einen Maschinenbauer mit geschützter technischer Dokumentation. Diese Organisationen brauchen eine Kontrolle, die Standardwerkzeuge nicht bieten können.

Im deutschen Markt kommt ein Punkt dazu, den US-Produkte oft stiefmütterlich behandeln: der Speicherort der Daten. Wer Embeddings und Indizes auf einem Server außerhalb der EU ablegt, handelt sich eine Frage zum Drittlandtransfer ein, die die Rechtsabteilung garantiert stellt.

Eine Eigenentwicklung lässt sich von Anfang an so aufsetzen, dass Dokumente und Vektordatenbank in einer europäischen Cloud oder im eigenen Rechenzentrum bleiben.

Der Aufbau eines maßgeschneiderten RAG-Systems kostet je nach Datenvolumen und Integrationskomplexität zwischen 25.000 und 60.000 Euro. Standardwerkzeuge schlagen mit 10 bis 30 Euro pro Nutzer und Monat zu Buche.

Für Unternehmen unter 50 Personen gewinnt die fertige Lösung meist über den Preis. Darüber, oder bei komplexen Daten, fängt die Eigenentwicklung an, Sinn zu ergeben. Wenn Sie diese Rechnung genauer durchspielen wollen, hilft unser Überblick dazu, was eine KI-Integration wirklich kostet.

Häufige Stolperfallen

Die Chunking-Strategie zählt mehr als die Modellauswahl. Wie Sie Dokumente in durchsuchbare Stücke zerlegen, entscheidet über die Retrieval-Qualität.

Zu klein, und der Kontext geht verloren. Zu groß, und die Relevanz verwässert.

Die meisten Systeme arbeiten mit Abschnitten von 500 bis 1.000 Token und 100 bis 200 Token Überlappung. Die optimale Größe hängt aber von Ihren Dokumenttypen ab.

Metadaten zu ignorieren ist der zweite Fehler. Ein Abschnitt mit “Umsatz um 15 Prozent gestiegen” ist nutzlos, wenn man nicht weiß, welches Quartal und welche Produktlinie. Hängen Sie an jeden Abschnitt Metadaten: Dokumenttitel, Datum, Autor, Abschnittsüberschrift.

Die Retrieval-Qualität nicht zu messen ist der dritte. Verfolgen Sie, wie oft Nutzer beim ersten Versuch finden, was sie suchen. Fällt dieser Wert unter 70 Prozent, muss Ihre Retrieval-Schicht nachjustiert werden.

Was der Betrieb kostet

Vektordatenbanken (Pinecone, Weaviate, Qdrant) kosten je nach Datenmenge 50 bis 500 Euro pro Monat. Die LLM-Kosten hängen am Anfragevolumen: Stand Mitte 2026 grob 0,01 bis 0,05 Euro pro Anfrage für ein Modell der Spitzenklasse.

Und diese Obergrenze sinkt weiter. Die Preise pro Token sind seit 2024 stark gefallen, die Anfragekosten liegen also deutlich unter den Werten aus der GPT-4-Ära, die viele RAG-Kostenrechnungen noch ansetzen.

Ein Team von 50 Personen mit 20 Anfragen pro Tag erzeugt rund 1.000 Anfragen täglich. Bei 0,03 Euro pro Anfrage sind das 30 Euro am Tag oder etwa 900 Euro im Monat. Am günstigen Ende dieser Spanne landet dasselbe Volumen näher bei 200 Euro im Monat.

Rechnen Sie Hosting, Monitoring und Wartung dazu: Die laufenden Gesamtkosten für eine mittelgroße Installation liegen bei 1.500 bis 3.000 Euro pro Monat. Stellen Sie das den 1,8 Stunden täglicher Suche pro Mitarbeiter gegenüber.

Der weltweite Markt für Enterprise Search lag 2025 bei 6,83 Milliarden US-Dollar und soll bis 2030 auf 11,15 Milliarden steigen. Unternehmen investieren, weil der ROI klar ist.

Ein RAG-System ist selten der erste KI-Schritt. Oft wird die durchsuchbare Wissensbasis zur Grundlage für KI-Agenten, die mehrstufige Prozesse automatisieren und dabei auf genau dieses abrufbare Wissen zugreifen. Wo RAG im größeren Bild hineinpasst, zeigt unser praktischer Leitfaden zur KI-Workflow-Integration für KMU.

Bevor Sie loslegen, lohnt ein ehrlicher Blick auf Daten- und Prozessreife: Dabei hilft unsere KI-Readiness-Checkliste. Und wenn Sie einen breiteren Überblick suchen, welche KI-Anwendungsfälle dem Mittelstand wirklich Geld sparen, liefert unser Überblick die Vergleichszahlen.

Wollen Sie das Wissen Ihres Unternehmens endlich durchsuchbar machen? Lassen Sie uns ein RAG-System für Ihr Team skizzieren. Wir schauen uns Ihre Daten an, schätzen die Kosten und sagen Ihnen ehrlich, ob Eigenbau oder Einkauf mehr Sinn ergibt.

RAG erklärt: Retrieval-Augmented Generation für Ihr Firmenwissen

Ihr Firmenwissen ist eingesperrt

Was RAG tatsächlich ist

Warum nicht einfach ChatGPT?

Wie es funktioniert (Architektur)

Wofür es gut ist

Das Problem mit der Datenqualität

Selbst bauen oder einkaufen?

Häufige Stolperfallen

Was der Betrieb kostet

FAQ

Verwandte Artikel

Enterprise Search: Intelligente KI-Wissensdatenbanken aufbauen

KI Dokumentenverarbeitung: eine Pipeline aufbauen, die wirklich trägt

KI im Kundenservice: Architektur einer Ticket-Triage, die funktioniert

Brauchen Sie Hilfe beim Bauen?