File-Upload und die Enrichment-Pipeline: die fehlende Voraussetzung für Verifikation

Dateien in ein Projekt hochladen

Eine Datei in ein Projekt hochzuladen ist ein einfacher Schritt: Sie senden die Datei, die Plattform speichert sie sicher ab und gibt Ihnen eine Datei-ID zurück, mit der Sie sie in allen folgenden Schritten referenzieren. Die genaue Struktur der Anfrage und Antwort finden Sie in der API-Referenz unter docs.crowdee.ai.

Zu diesem Zeitpunkt existiert die Datei im Speicher, trägt aber keine abgeleiteten Metadaten. Sie hat einen Dateityp, eine Größe und einen Namen – mehr nicht. Die Verifikations-Pipelines benötigen jedoch deutlich mehr, um ihre Arbeit zu tun: Codec-Details, Signaleigenschaften, Bilddimensionen, Sprachindikatoren und extrahierten Text, bevor sie aussagekräftige Urteile fällen können. Genau das ist die Aufgabe der Enrichment-Pipeline.

Der Enrichment-Schritt

Enrichment ist ein asynchroner Hintergrundprozess. Bei seiner Auslösung stellt die Plattform einen Verarbeitungsjob für die Datei in eine Warteschlange und gibt sofort die Kontrolle an Sie zurück – Sie warten nicht, bis er abgeschlossen ist. Im Hintergrund wird die Datei je nach Dateityp an die passende Verarbeitung weitergeleitet: Bilder, Audio, Video sowie Text und Dokumente durchlaufen jeweils eine eigene, dafür vorgesehene Verarbeitung.

Die Plattform skaliert die Anzahl der parallel laufenden Enrichment-Jobs entsprechend der Last, sodass ein hoher Upload-Durchsatz nicht zum Engpass wird. Sobald ein Job abgeschlossen ist, werden die extrahierten Metadaten der Datei zugeordnet und stehen über die API zur Verfügung.

Was Enrichment nach Modalität extrahiert

Die extrahierten Metadaten hängen vom Dateityp ab:

Modalität	Extrahierte Metadaten
Bild	Abmessungen (Breite × Höhe), Farbraum, EXIF-Tags (GPS, Kameramarke/-modell, Aufnahmezeitstempel)
Audio	Codec, Abtastrate, Kanalanzahl, Dauer, Signalpegelanalyse
Video	Abmessungen, Framerate, Codec, Dauer, Extraktion des eingebetteten Audiotracks
Text / Dokument	Spracherkennung; OCR für bildbasierte Dokumente (siehe unten)

Bei Bildern sind EXIF-Daten für Verifikations-Pipelines besonders wertvoll. Eine Pipeline, die prüft, ob ein Bild an einem behaupteten Ort aufgenommen wurde, kann die GPS-Koordinaten direkt aus den Enrichment-Metadaten lesen, ohne die Datei erneut zu parsen. Bei Audio helfen Dauer und Codec der Verifikations-Pipeline zu beurteilen, ob eine Datei angesichts ihrer behaupteten Herkunft plausibel authentisch ist. Bei Video speist die Extraktion der Audiospur-Metadaten cross-modale Verifikations-Pipelines, die die Konsistenz zwischen visuellem und auditivem Inhalt prüfen.

Warum Enrichment Verifikation freischaltet

Die meisten Verifikations-Pipelines prüfen, ob das Enrichment für eine Datei bereits abgeschlossen ist, bevor sie starten. Wenn Enrichment noch nicht gelaufen ist, verweigert die Pipeline die Erstellung eines Runs und gibt einen Fehler zurück, der anzeigt, dass die Datei noch nicht bereit ist. Diese Sperre ist bewusst gesetzt: Eine Verifikationsprüfung, die auf GPS-Koordinaten aus den Bildmetadaten oder auf den Codec einer Audiodatei angewiesen ist, würde lautlos fehlschlagen oder ein irreführendes Urteil liefern, wenn diese Informationen fehlten.

Die Enrichment-Metadaten werden im Moment der Run-Erstellung als Teil des Verifikations-Runs festgehalten. Das bedeutet, dass der Verifikations-Run vollständig in sich geschlossen ist – selbst wenn die Datei später erneut angereichert wird und sich die Metadaten ändern, referenziert der historische Run weiterhin die Metadaten, die zum Zeitpunkt seiner Erstellung vorlagen. Verifikationsergebnisse sind daher deterministisch und prüfbar.

Für Operatoren, die Integrationen aufbauen, lautet der praktische Workflow: Dateien hochladen → Enrichment auslösen → warten, bis Enrichment abgeschlossen ist → Verifikation starten. Die Plattform-UI erzwingt diese Reihenfolge über eine Anforderungs-Checkliste im Pipeline-Tab, und die API setzt dieselbe Reihenfolge im Hintergrund durch. Die genauen Anfragen dazu finden Sie unter docs.crowdee.ai.

Der OCR-Pfad

Dokument- und Bild-OCR folgt einer Zwei-Pfad-Strategie. Für digitale PDFs – Dateien, bei denen die Textebene direkt im Dokument eingebettet ist – wird der Text direkt extrahiert. Dieser Weg ist schnell, präzise und benötigt keine aufwendigere Verarbeitung.

Für gescannte PDFs und eigenständige Bilder, bei denen keine eingebettete Textebene vorhanden ist, greifen wir auf einen bildbasierten Extraktionsschritt zurück, der den Text direkt aus dem Bild ausliest. Dieser Pfad ist langsamer als die direkte Extraktion, deckt aber die breite Klasse gescannter Dokumente ab, die bei Verifikations-Anwendungsfällen häufig vorkommen.

Die Unterscheidung zwischen den beiden Pfaden wird automatisch getroffen: Die Plattform versucht zunächst die direkte Textextraktion und greift auf den bildbasierten Schritt zurück, wenn der extrahierte Text leer oder zu kurz ist, um aussagekräftig zu sein. Beide Pfade schreiben das Ergebnis an dieselbe Stelle in den Enrichment-Metadaten, sodass nachgelagerte Pipeline-Stages nicht wissen müssen, welcher Pfad verwendet wurde.