KI Dokumentenverarbeitung: eine Pipeline aufbauen, die wirklich trägt

Ihr Team ist eine sehr teure OCR-Maschine

Irgendwo in Ihrem Unternehmen öffnet gerade jemand ein PDF, liest es und tippt den Inhalt in ein anderes System ab. Dann das nächste. Hunderte Male pro Woche.

Die manuelle Verarbeitung eines Belegs kostet 10 bis 25 Euro. Mit KI-Extraktion sinkt das auf unter 4 Euro.

Das ist keine marginale Verbesserung. Das ist eine andere Kostenstruktur.

Menschliche Dateneingabe liegt an einem guten Tag bei 2 bis 3 Prozent Fehlerquote. Moderne KI-Extraktion drückt das bei sauberen, standardisierten Belegen auf rund 1 Prozent.

Weniger Korrekturschleifen. Weniger verärgerte Lieferanten-Mails. Weniger Ärger bei der Prüfung. Das ist keine Spielerei mehr, sondern Infrastruktur, die in tausenden Unternehmen produktiv läuft.

Die vierstufige Pipeline

Jedes System zur Dokumentenverarbeitung folgt derselben Architektur: erfassen, extrahieren, validieren, integrieren. Die Komplexität steckt in den Details jeder einzelnen Stufe.

Stufe 1: Dokumentenerfassung

Dokumente kommen von überall. E-Mail-Anhänge. Gescannte Uploads. API-Feeds. Geteilte Laufwerke.

Ihre Erfassungsschicht bringt all das in ein einheitliches Format. PDFs, Bilder und Scans laufen zuerst durch die OCR. Digital erzeugte PDFs überspringen diesen Schritt.

Cloud-OCR-APIs verlangen für die Basiserkennung grob 1,50 Euro pro 1.000 Seiten. Selbst gehostete Open-Source-OCR auf GPU-Infrastruktur kostet rund 0,09 Euro pro 1.000 Seiten.

Sechzehnmal günstiger. Bei 10 Millionen Seiten im Monat kosten Cloud-APIs 15.000 Euro, die selbst gehostete Variante bleibt unter 1.000 Euro.

Diese Spanne klingt nach einer reinen Kostenfrage, ist aber vor allem eine Volumenfrage. Unter ein paar tausend Seiten im Monat amortisiert sich kein eigener GPU-Server.

Da zahlen Sie für die Cloud-API ein paar Euro und sparen sich Betrieb und Wartung. Erst wenn das Volumen wächst oder die Datensensibilität es erzwingt, kippt die Rechnung Richtung Eigenbetrieb.

Stufe 2: Feldextraktion

Hier leistet die KI die eigentliche Arbeit. Das Modell erkennt und extrahiert bestimmte Felder: Rechnungsnummer, Datum, Positionen, Summen, Lieferantendaten.

Für den Mittelstand funktionieren zwei Ansätze.

Vorlagenbasierte Extraktion arbeitet mit festen Regeln für bekannte Dokumentformate. Schnell und günstig, bricht aber, sobald sich ein Format ändert.

LLM-basierte Extraktion nutzt Sprachmodelle, die den Kontext verstehen und Felder unabhängig vom Layout herausziehen. Flexibler, dafür teurer pro Beleg.

Bei den meisten Kunden setzen wir auf einen hybriden Ansatz. Das Vorlagen-Matching erledigt die 80 Prozent der Dokumente mit vorhersehbarem Aufbau. Das LLM fängt den Rest ab.

Schräge Layouts, handschriftliche Notizen, Formate, die noch niemand gesehen hat. Das LLM nimmt sie alle. Moderne KI-Extraktion erreicht Genauigkeiten im mittleren bis hohen 90-Prozent-Bereich, bei sauberen, standardisierten Belegtypen bis zu rund 99 Prozent, ein gewaltiger Sprung gegenüber den 60 bis 75 Prozent der alten OCR.

Ein deutsches Detail, das viele unterschätzen: die E-Rechnungspflicht. Seit Januar 2025 müssen Unternehmen im B2B strukturierte elektronische Rechnungen empfangen können, XRechnung oder ZUGFeRD.

Diese Belege sind maschinenlesbar und brauchen gar keine OCR. Sie machen einen Teil Ihres Eingangs trivial.

Der Haken: Sie werden auf absehbare Zeit beides parallel verarbeiten, strukturierte E-Rechnungen und das Papier-PDF vom kleinen Handwerker. Eine gute Pipeline erkennt den Typ am Eingang und schickt jeden Beleg auf den passenden Pfad.

Stufe 3: Validierung

Vertrauen Sie der Extraktion niemals blind. Jedes Feld wird gegen Ihre Geschäftsregeln geprüft.

Stimmt die Rechnungssumme mit der Summe der Positionen überein? Steht der Lieferant auf Ihrer Freigabeliste? Existiert die Bestellnummer in Ihrem ERP? Gleichen Sie die extrahierten Daten konsequent gegen Ihre Quellsysteme ab.

In der Praxis schichtet man diese Regeln. Harte Prüfungen zuerst: Plausibilität von Beträgen, Datumsformate, gültige USt-IdNr. nach EU-Schema.

Danach die fachlichen: Passt der Betrag zur Bestellung? Liegt das Rechnungsdatum im erwarteten Zeitraum? Ist die Bankverbindung dieselbe wie beim letzten Mal? Gerade der letzte Punkt fängt einen typischen Betrugsfall ab, die manipulierte Lieferanten-IBAN.

Alles, was durchfällt, geht in die menschliche Prüfung. Das ist Ihr Human-in-the-Loop-Kontrollpunkt.

Eine Validierungsregel, die 40 Prozent der Dokumente markiert, hilft nicht. Sie verschiebt nur den Engpass. Justieren Sie Ihre Schwellen anhand echter Daten, nicht anhand von Annahmen.

Stufe 4: Systemintegration

Validierte Daten fließen per API in Ihre bestehenden Systeme. Ihr ERP bekommt die Rechnungsdaten. Ihre Buchhaltung bekommt die Buchungssätze.

Der API-first-Ansatz ist der sicherste Weg. Ihre vorhandenen Systeme bleiben, wie sie sind. Die Pipeline sitzt daneben und schiebt die Daten über dokumentierte Schnittstellen hinein.

Ein Logistikkunde ist von 60 Stunden manueller Verarbeitung pro Woche auf 3 gekommen. Keine Produktivitätssteigerung. Eine strukturelle Veränderung.

Zwei Mitarbeitende wurden auf Arbeit umgesetzt, die tatsächlich Urteilsvermögen verlangt. Die Pipeline hatte sich nach vier Monaten bezahlt gemacht.

Den passenden Stack wählen

Das richtige Setup hängt an drei Dingen: Dokumentenvolumen, Sensibilität der Daten und Budget.

Unter 1.000 Dokumente im Monat? Dann sind Cloud-APIs die naheliegende Wahl. Azure Document Intelligence kostet für die vorgefertigten Modelle rund 10 Euro pro 1.000 Seiten.

Höhere Volumina oder sensible Daten drücken Richtung Eigenbetrieb. Open-Source-Modelle wie PaddleOCR oder Tesseract 5, kombiniert mit feinjustierten Extraktionsmodellen, geben Ihnen die volle Kontrolle.

Regulierte Branchen brauchen oft eine On-Premise-Lösung. Die DSGVO verlangt, dass Sie genau wissen, wo Ihre Daten liegen. Wer sensible Dokumente durch fremde Cloud-APIs schickt, handelt sich Compliance-Fragen ein, die man lieber vermeidet.

Eine sauber dokumentierte Auftragsverarbeitung (AVV) mit dem Anbieter ist dabei das Minimum, nicht die Kür.

Bei Personalakten, Verträgen oder Gesundheitsdaten ist die Frage nach dem Serverstandort keine Formalie. Sie ist oft der entscheidende Grund, warum die Pipeline am Ende im eigenen Rechenzentrum oder bei einem EU-Hoster landet.

Wo genau die Grenze zwischen Cloud und Eigenbetrieb verläuft, ist selten eine reine Technikfrage. Sie hängt daran, welche Belegtypen mit welcher Sensibilität durch das System laufen, und das wissen Sie erst, wenn Sie Ihre Dokumente wirklich kennen.

Die Entscheidung über den Konfidenzschwellwert

Diese eine Architekturentscheidung macht Ihr System oder bricht es. Ab welchem Konfidenzwert läuft ein Dokument automatisch durch? Ab welchem geht es in die menschliche Prüfung?

Zu niedrig, und Sie verarbeiten Müll. Zu hoch, und alles landet bei Menschen, womit der Sinn der Sache verfehlt ist.

Wir starten bei 95 Prozent Konfidenz für die automatische Verarbeitung. Was darunter liegt, geht in eine Prüf-Warteschlange. Die Korrekturen fließen als Trainingsdaten zurück ins Modell.

Über vier bis acht Wochen sammeln Sie genug Daten, um sauber zu kalibrieren. Die meisten Kunden landen je nach Fehlertoleranz zwischen 90 und 97 Prozent.

Monitoring zählt mehr, als Sie denken

Ihre Pipeline ist kein Set-and-forget-System. Verfolgen Sie die Extraktionsgenauigkeit wöchentlich. Beobachten Sie, welche Dokumenttypen die meisten Fehler verursachen.

Typische Ursachen für nachlassende Qualität: Lieferanten ändern ihr Rechnungsformat, neue Dokumenttypen kommen ins System, saisonale Volumenspitzen bringen die Infrastruktur ins Schwitzen.

Bauen Sie Ihr Alerting um drei Kennzahlen. Sinkende Konfidenzwerte. Eine Prüf-Warteschlange, die über die Kapazität hinauswächst. Und als drittes Warnsignal: eine Verarbeitungslatenz, die Ihre Schwellen reißt.

Die besten Systeme werden mit der Zeit besser. Menschliche Korrekturen werden zu Trainingsdaten. Konfidenzschwellen werden gegen die reale Leistung kalibriert.

Dieses Muster aus Automatik plus gezielter Eskalation an einen Menschen kennen Sie wieder, wenn Sie sich die Architektur einer KI-Ticket-Triage ansehen: derselbe Bauplan, anderer Anwendungsfall.

Wo es kaputtgeht

Wir haben Pipelines aus berechenbaren Gründen scheitern sehen. Schlechte Scanqualität steht auf Platz eins. Wenn Ihr Scanner verwackelte Bilder liefert, repariert keine KI der Welt das nachträglich.

Fehlende Validierungsregeln sind Platz zwei. Eine Pipeline, die keine doppelten Rechnungen erkennt, verarbeitet sie fröhlich zweimal.

Den dritten Schwung von Projekten killt der Scope Creep. Fangen Sie mit einem Dokumenttyp an und bringen Sie ihn auf 95 Prozent Genauigkeit oder besser.

Dann nehmen Sie den nächsten.

Versuchen Sie nicht, im ersten Sprint Rechnungen, Bestellungen, Verträge und Versandscheine gleichzeitig zu beherrschen. Sie werden gar nichts ausliefern. Dieser eine Fehler erklärt einen großen Teil davon, warum KI-Projekte scheitern: zu viel auf einmal, zu wenig produktiv.

Der vierte Grund ist kein technischer. Niemand fühlt sich für die Prüf-Warteschlange zuständig. Die Pipeline läuft, die markierten Belege stapeln sich, und nach drei Wochen sind 400 Dokumente unbearbeitet, weil die Verantwortung im Niemandsland zwischen Buchhaltung und IT liegt.

Klären Sie vor dem ersten Go-live, wer die Ausnahmen prüft und wie viel Zeit dafür im Kalender steht. Eine Pipeline, die zu 95 Prozent automatisch läuft, braucht trotzdem einen Menschen für die übrigen 5 Prozent.

Was es kostet

Ein Pilot über vier bis acht Wochen mit einem einzigen Dokumenttyp liegt bei 15.000 bis 25.000 Euro. Der produktive Ausbau über mehrere Dokumenttypen samt Systemintegration landet zwischen 30.000 und 70.000 Euro.

Die ROI-Rechnung ist geradlinig. Wenn Ihr Team 500 Dokumente pro Woche zu je 15 Minuten bearbeitet, sind das 125 Stunden in der Woche.

Bei 35 Euro vollen Stundenkosten geben Sie 4.375 Euro pro Woche für manuelle Verarbeitung aus. Automatisieren Sie davon 90 Prozent, sparen Sie über 200.000 Euro im Jahr. Klingt das nach einem Gespräch wert?

Ein Wort zur Vorsicht bei dieser Rechnung. Die eingesparten Stunden werden selten zu entlassenen Stellen, und das ist auch nicht das Ziel. Sie werden zu Stunden, die jemand für anspruchsvollere Arbeit frei hat.

Der harte Euro-Wert entsteht dort, wo Sie ohne Automatisierung hätten einstellen müssen und es jetzt nicht tun. Wer die Pipeline allein über Personalabbau rechtfertigt, verkauft sie intern an die falsche Geschichte und erntet Widerstand, statt Mitstreiter.

Wer diese Zahlen für sein eigenes Haus belastbar machen will, findet in unserem Beitrag Was kostet KI-Integration die Rechengrößen dazu. Und wenn Sie das größere Bild suchen, wie KI in Ihre Abläufe passt, deckt unser Leitfaden zur KI-Workflow-Integration für den Mittelstand den gesamten Weg ab.

Verarbeiten Sie jede Woche hunderte Dokumente von Hand? Lassen Sie uns eine Pipeline bauen, die das übernimmt. Wir schneiden das Projekt auf Ihre echten Dokumente und Volumina zu.