Dataset-Version-Lifecycle: raw → cleaning → cleaned → enriching → cleaned_and_enriched

Was eine Dataset-Version ist

Ein Crowdee-Dataset ist eine benannte, multimodale Dateisammlung, die einer Organisation zugeordnet ist. Bei der Erstellung vergeben Sie einen Namen und legen die Modalität fest – Bild, Audio, Video, Text, Dokument oder multimodal. Zusätzlich können Sie einen stabilen, selbst gewählten Bezeichner vergeben, über den Sie das Dataset konsistent referenzieren können, anstatt sich auf eine interne ID zu verlassen.

Datasets sind keine flachen Dateilisten, sondern Container für Versionen. Jede Version ist ein Snapshot des Datasets zu einem bestimmten Zeitpunkt. Dateien werden in die Raw-Version hochgeladen und bilden den Ausgangspunkt für alle nachgelagerten Verarbeitungsschritte. Versionen werden nach ihrer Erstellung nicht mehr verändert; stattdessen erzeugen Cleaning- und Enrichment-Vorgänge neue abgeleitete Versionen, die einen Verweis auf die Version behalten, aus der sie hervorgegangen sind. Diese Unveränderlichkeitsgarantie bedeutet, dass sich der Verarbeitungsweg jeder Datei stets vollständig nachverfolgen lässt.

Die Versions-Zustandsmaschine

Jede Dataset-Version trägt einen Status, der eine definierte Abfolge von Zuständen durchläuft. Der Lifecycle einer Version, die sowohl Cleaning als auch Enrichment durchläuft, sieht wie folgt aus:

Zustand	Bedeutung
`raw`	Dateien wurden hochgeladen; keine Verarbeitung gestartet
`cleaning`	Ein Cleaning-Vorgang läuft
`cleaned`	Cleaning erfolgreich abgeschlossen
`enriching`	Enrichment läuft dateiweise
`cleaned_and_enriched`	Enrichment auf einer bereinigten Version abgeschlossen
`failed`	Der zuletzt ausgeführte Vorgang ist fehlgeschlagen

Nicht jede Version durchläuft alle Zustände. Eine Version, die direkt angereichert wird ohne vorheriges Cleaning, folgt dem Pfad raw → enriching → cleaned_and_enriched (der Zustandsname spiegelt das Endergebnis wider, nicht den Weg dorthin). Während ein Vorgang läuft, behält Crowdee intern den Überblick darüber, damit der Fortschritt zurückgemeldet werden kann, während die Dateien verarbeitet werden.

Alle Versionen eines Datasets lassen sich auflisten, und für jede einzelne Version können Sie eine paginierte Dateiliste über die Crowdee-API abrufen – Details dazu in der API-Referenz. Der Blick auf den Status einer Version ist der richtige Weg, um zu prüfen, ob ein Cleaning- oder Enrichment-Schritt abgeschlossen ist.

Datei-Herkunft, die sich immer nachverfolgen lässt

Wenn ein Cleaning-Vorgang eine abgeleitete Version erzeugt, hält die Plattform für jede Ausgabedatei fest, aus welcher Eingabedatei sie hervorgegangen ist. So lässt sich stets die Frage beantworten: „Wie sah diese Datei vor der Bereinigung aus?"

Herkunftsketten können mehrere Sprünge umfassen. Wird eine Version bereinigt und die bereinigte Version anschließend angereichert, lässt sich jede angereicherte Datei bis zur bereinigten Version zurückverfolgen, und jede bereinigte Datei bis zur Raw-Version. Die vollständige Abstammung jeder Datei im System lässt sich also Schritt für Schritt zurückverfolgen.

Dieses Design ermöglicht auch die Wiederherstellung nach Teilfehlern. Schlägt ein Cleaning-Vorgang bei einigen Dateien fehl, bei anderen jedoch nicht, behalten die erfolgreich verarbeiteten Dateien ihre Herkunftsverknüpfung, und die Version wechselt insgesamt in den Zustand failed, ohne die Teilausgabe zu verwerfen. So lässt sich prüfen, welche Dateien verarbeitet wurden und welche nicht, bevor entschieden wird, ob ein Neuversuch sinnvoll ist.

Cleaning und Enrichment auslösen

Cleaning wird ausgelöst, indem Sie eine Version auswählen und eine Cleaning-Pipeline bestimmen – zum Beispiel eine, die führende und abschließende Stille aus Audiodateien entfernt. Crowdee erstellt eine neue abgeleitete Version mit Verweis auf die aktuelle Version, markiert sie als cleaning und führt die Pipeline im Hintergrund aus. Die ursprüngliche Version bleibt unberührt.

Welche Cleaning-Pipelines für die Modalität Ihres Datasets verfügbar sind, sehen Sie direkt im Produkt oder in der API-Referenz, die zu jeder Pipeline die erwarteten Eingaben und Konfigurationsoptionen auflistet.

Enrichment funktioniert etwas anders: Statt eine neue Version zu erstellen, wird es direkt auf den Dateien der bestehenden Version ausgeführt und aktualisiert deren Metadaten vor Ort. Dabei bewegt sich der Versionsstatus von enriching zu cleaned_and_enriched (oder direkt zu cleaned_and_enriched, wenn die Version bereits bereinigt war). Im Hintergrund leitet Crowdee jede Datei automatisch an den passenden Enrichment-Prozess weiter – je nach Typ, etwa Audio, Bild, Video oder Text –, sodass Sie sich nicht darum kümmern müssen, welches Werkzeug für welches Format zuständig ist.

Eine Version exportieren

Sobald eine Version einen stabilen Zustand erreicht hat, können Sie sie exportieren und erhalten dafür eine Reihe temporärer, gesicherter Download-Links – einen pro Datei in der Version –, die nach 24 Stunden automatisch ablaufen. Da diese Links zeitlich begrenzt sind und keinen API-Key erfordern, können sie sicher an nachgelagerte Systeme weitergegeben werden. Batch-Downloads, Pipeline-Übergaben und ML-Trainingsdatenexporte nutzen diesen Export-Schritt allesamt als Übergabepunkt aus Crowdee heraus.

Der Export funktioniert für jede Version unabhängig von ihrem Status, sodass sich auch eine teilweise verarbeitete Version exportieren lässt. Für Produktions-Workflows empfiehlt es sich jedoch, zu warten, bis die Version cleaned_and_enriched erreicht – dann sind alle Metadaten vorhanden und alle Dateien vollständig verarbeitet.