Cleaning-Pipelines-Katalog: von Audio-Stille-Trimming bis Per-File-Enrichment

Der Cleaning-Pipelines-Katalog

Der Cleaning-Pipelines-Katalog ist ein Register der Datentransformationsoperationen, die auf eine Dataset-Version angewendet werden können. Er lässt sich direkt in der Plattform durchsuchen, um alle verfügbaren Pipelines einzusehen – inklusive der unterstützten Modalitäten, einer verständlichen Beschreibung und der Konfigurationsoptionen, die beim Ausführen angegeben werden können.

Der Katalog wird zentral gepflegt, sodass die dort gelisteten Operationen immer genau die sind, die tatsächlich verfügbar sind – ein separater Abgleichsschritt ist nicht nötig. Neue Cleaning-Operationen kommen im Laufe der Zeit hinzu, sobald wir wiederkehrende Datenqualitätsprobleme identifizieren, die sich zu automatisieren lohnen.

Um eine Pipeline auf eine Dataset-Version anzuwenden, genügt es, sie im Katalog auszuwählen und zu bestätigen. Im Hintergrund prüft die Plattform, ob die Operation zur Modalität des Datasets passt, und erstellt anschließend eine neue abgeleitete Version, die verarbeitet wird. Der Ablauf ist bewusst einfach gehalten: Pipeline auswählen, bereinigte Version zurückerhalten.

Für die genaue API-Struktur bei einer programmatischen Anbindung siehe die Referenz auf docs.crowdee.ai.

Audio-Stille-Trimming

Audio-Stille-Trimming ist das kanonische Beispiel für eine Cleaning-Operation. Dabei wird jede Audiodatei in der Quellversion verarbeitet, indem führende und abschließende Stille erkannt und entfernt wird. „Stille" wird anhand eines konfigurierbaren Amplitudengrenzwerts beurteilt; Audio unterhalb dieses Grenzwerts am Anfang oder Ende der Datei wird entfernt. Die resultierende Datei ist kürzer, enthält aber denselben bedeutungstragenden Inhalt.

Warum ist das für nachgelagerte Aufgaben relevant? Viele Audiodatensätze, die unter realen Bedingungen gesammelt werden, enthalten Aufnahme-Artefakte: ein paar Sekunden Umgebungsgeräusche, bevor der Sprecher beginnt, und eine auslaufende Periode, nachdem er aufhört. Diese Artefakte können die Transkription erschweren, Dauerkennzahlen aufblähen, die bei der Verifikation verwendet werden, und beim Enrichment Inkonsistenzen in der Audiopegel-Analyse einführen. Das Trimming vor Enrichment und Verifikation verbessert die Genauigkeit jeder nachfolgenden Stufe.

Das Trimming rührt die Originaldatei dabei nie an. Die Quellaudiodatei bleibt exakt so erhalten, wie sie hochgeladen wurde, während die zugeschnittene Kopie separat als Teil der neuen, bereinigten Version gespeichert wird. Genau darum geht es: Man kommt jederzeit wieder an den ursprünglichen Ausgangspunkt zurück.

Datei-Provenienz

Jede Datei in einer bereinigten Version behält eine Verknüpfung zur entsprechenden Datei in ihrer Elternversion (Raw). So beantworten wir Provenienzfragen: „Diese Audiodatei ist 38 Sekunden lang – wie lautete das Original vor dem Trimming?"

Die Verknüpfung ist eins-zu-eins: Jede bereinigte Datei lässt sich auf genau eine Quelldatei zurückführen. Bei Operationen, die feststellen, dass eine Datei keine Änderung benötigt, kann die bereinigte Version einfach auf das Original verweisen, statt es zu duplizieren – die Provenienzverknüpfung dokumentiert die Beziehung trotzdem. Bei Operationen, die einen Input theoretisch in mehrere Outputs aufteilen könnten (für Audio-Stille-Trimming aktuell nicht der Fall, vom zugrunde liegenden Modell aber unterstützt), würde jede Ausgabedatei auf denselben einzelnen Input zurückverweisen.

Da eine bereinigte Version mit ihrer Elternversion verknüpft ist und jede Datei mit ihrem Vorgänger, lässt sich die vollständige Historie einer Datei jederzeit rekonstruieren – vom Raw-Upload über jeden angewendeten Cleaning-Schritt. Diese Historie ist überall dort sichtbar, wo man die Dateien einer Dataset-Version in der Plattform einsieht.

Der Clean → Enrich → Verify Workflow

Die dreistufige Pipeline aus Clean → Enrich → Verify ist der Standardpfad für produktionsreife Verifikation von Audio- und Video-Datasets. Cleaning normalisiert die Dateien, damit Enrichment auf konsistentem, artefaktfreiem Content operiert. Enrichment extrahiert Metadaten (Codec, Dauer, Signaleigenschaften), auf die die Verifikation als Kontext angewiesen ist. Die Verifikation wendet anschließend mehrstufige KI- und Crowd-Reviews gegen diese angereicherte, bereinigte Basis an.

Jeder Schritt erzeugt ein neues, unveränderliches Artefakt: eine bereinigte Version, dann Enrichment-Metadaten, die an die Dateien dieser Version angehängt werden, dann einen Verifikations-Run mit Urteil und Scorecard. Keiner dieser Schritte überschreibt den anderen. Soll die Verifikation mit anderen Einstellungen erneut ausgeführt werden, wird ein neuer Verifikations-Run gegen dieselbe angereicherte Version gestartet. Soll eine andere Cleaning-Strategie angewendet werden, wird eine neue Cleaning-Operation gegen die Raw-Version gestartet, die eine parallele bereinigte Version neben der ersten erzeugt.

Weil jede Stufe additiv statt destruktiv ist, können Teams frei experimentieren – einen anderen Cleaning-Ansatz ausprobieren, Ergebnisse vergleichen und jederzeit auf die Rohquelle zurückgreifen –, ohne je Daten zu verlieren.

Eigene Pipelines hinzufügen

Der Cleaning-Pipelines-Katalog ist darauf ausgelegt, zu wachsen. Sobald wir eine neue, generell nützliche Transformation identifizieren – Bildverkleinerung, Dokument-De-Identifikation, Textnormalisierung, Duplikatdatei-Erkennung –, fügen wir sie als neue Pipeline hinzu, die demselben Modell folgt: Sie liest eine Quellversion, wendet eine klar definierte Transformation an und schreibt eine abgeleitete Version.

Diese Konsistenz hält den Katalog auch mit wachsendem Umfang leicht verständlich: Unabhängig davon, welche Pipeline man wählt, bedeutet ihre Ausführung immer „aus einer Version lesen, eine neue erzeugen" – nie eine Änderung an Ort und Stelle. Wer programmatisch gegen die API entwickelt und Pipelines automatisiert auswählen oder auslösen möchte, findet die vollständige Referenz auf docs.crowdee.ai.