Der Workflow Dokumente segmentieren und aufbereiten wird genutzt, um aus einem Objekt einzelne Dokumente zu segmentieren und diese mit Metadaten anzureichern.
Inhalt dieses Topics
Grundlagen
Um den Workflow verwenden zu können, muss eine Methode zum automatisierten Segmentieren konfiguriert werden. Dabei stehen zwei Methoden zur Auswahl: ML-basierte oder musterbasierte Segmentierung. Für beide Methoden muss eine Segmentierungseigenschaft festgelegt werden.
ML-basierte Segmentierung
Eine ausführliche Erklärung zum Training von KI-Modellen finden sie hier
- In der Objekte-Ansicht auf die Hinzufügen-Schaltfläche klicken und Objekt manuell erstellen wählen.
- Im Feld Anzeigename einen Namen für das Objekt vergeben, z. B. “PDF-Segmentierung (ML)”
- Links auf den Reiter klicken.
- In das Feld Vorlage klicken und im DropDown-Menü die Vorlage PDF Segmentierung (ML) auswählen. Im JSON-EDITOR werden die vordefinierten Werte des Objekts angezeigt.
- Die Werte im Bereich TEXTINHALT editieren.
- Nach Anpassung der Einstellmöglichkeiten, auf OBJEKT ERSTELLEN klicken.
- In die Eigenschaften-Ansicht klicken und die Eigenschaft, auf die das Modell trainiert werden soll (Beispiel: Kapitel), suchen.
- In den Reiter Beziehungen wechseln und auf die Hinzufügen-Schaltfläche klicken.
- Die Beziehung hat Rolle auswählen und als Ziel der Beziehung die Rolle Segmentierungseigenschaft (plus:SegmentationProperty) vergeben.
- Das trainierte KI-Modell mit der Beziehung “hat zugeordnetes KI-Modell” an die Eigenschaft mit Rolle “Segmentierungseigenschaft” vergeben.
Der Workflow Dokumente segmentieren und aufbereiten kann verwendet werden.
Musterbasierte Segmentierung
- In der Objekte-Ansicht auf die Hinzufügen-Schaltfläche klicken und Objekt manuell erstellen wählen.
- Im Feld Anzeigename einen Namen für das Objekt vergeben, z. B. “PDF-Segmentierung (musterbasiert)”
- Links auf den Reiter klicken.
- In das Feld Vorlage klicken und im DropDown-Menü die Vorlage PDF Segmentierung (Regulärer Ausdruck) auswählen.
Im JSON-EDITOR werden die vordefinierten Werte des Objekts angezeigt. - Die Werte im Bereich TEXTINHALT editieren.
- Nach Anpassung der Einstellmöglichkeiten, auf OBJEKT ERSTELLEN klicken.
- In die Eigenschaften-Ansicht wechseln und die Eigenschaft “Binäre Segmentierungsklasse” suchen.
- In den Reiter Beziehungen wechseln und auf die Hinzufügen-Schaltfläche klicken.
- Die Beziehung verwendet Konfiguration hinzufügen und als Ziel der Beziehung das angelegte Konfigurationsobjekt (hier “PDF-Segmentierung (musterbasiert))” auswählen.
- Auf SCHLIESSEN klicken.
Die Änderungen werden automatisch gespeichert und die musterbasierte Segmentierung ist entsprechend der Einstellungen im Konfigurationsobjekt eingestellt. Der Workflow Dokumente segmentieren und aufbereiten kann verwendet werden.
Workflow-Schritte
Der Workflow besteht aus den folgenden Schritten:
- Inhalte hinzufügen
- Segmente erkennen
- Metadaten prüfen und vergeben
- iiRDS-Paket generieren
Schritt 1: Objekte hinzufügen
- Neues Projekt auf Basis des Workflows Dokumente segmentieren und aufbereiten erstellen.
- Fügen Sie PDF Dokumente hinzu, die den im Konfigurationsobjekt eingestellten Anforderungen entsprechen.
- Auf den blauen Pfeil klicken, um weiter in den nächsten Workflow-Schritt zu gelangen.
Schritt 2: Segmente und Metadaten erkennen
In diesem Schritt wird die Segmentierung und Erkennung der Metadaten automatisch durchgeführt.
Auf den blauen Pfeil klicken, um weiter in den nächsten Workflow-Schritt zu gelangen.
Schritt 3: Metadaten prüfen
- Die Segmente prüfen und ggf. anpassen, z. B. kleine Anpassungen per manueller Segmentierung oder Anpassung/Erweiterung des Konfigurationsobjekts.
- Die Metadaten an den Objekten prüfen und abnehmen.
Schritt 4: iiRDS-Paket generieren
- Das iiRDS-Paket wird automatisch generiert und steht zum Download bereit.
- Auf die Schaltfläche klicken, um das iiRDS-Paket herunterzuladen.
- Wenn im Workflow zu einem vorherigen Schritt zurückgekehrt und etwas verändert wurde, kann die Generierung des iiRDS-Pakets erneut ausführt werden. Auf diese Weise wird sichergestellt, dass die Änderungen im iiRDS-Paket berücksichtigt werden. Zum erneuten Ausführen auf die Schaltfläche klicken.