Extraktoren

Auf dieser Seite wird die Methode "Extraktoren" zur Metadatenerkennung erklärt.

metadaten

Inhalt dieses Topics

Grundlagen

Extraktoren funktionieren nach dem Prinzip des “Pattern Matching”. Über einen regulären Ausdruck wird ein Suchmuster definiert, z. B. eine spezifische Zeichenkette und Format: “Seriennummer: xx-xxx-xxx”.

plusmeta durchforstet den Text nach Stellen, die dem Suchmuster entsprechen und extrahiert den vorgegebenen Teil, z. B. 12-345-678 und schreibt diesen ins Metadatenfeld. Typische Beispiele für diese Methode der Metadatenerkennung sind Zahlenfolgen wie Seriennummern oder Datumsangaben.

Diese Funktion muss über ein Konfigurationsobjekt aktiviert werden.

Konfigurationsobjekt erstellen

  1. Die Objekte-Ansicht öffnen.
  2. Auf die Hinzufügen-Schaltfläche klicken, um ein neues Objekt zu erstellen.
  3. Den Objekttyp Konfigurationsobjekt auswählen.
  4. Den unteren Reiter des Objekt erstellen-Dialogs öffnen.
  5. Die Vorlage Regulärer Ausdruck auswählen.

    Info: Wird bei der Erstellung keine Vorlage gewählt, kann diese später auch nicht mehr ergänzt werden.

  6. Im JSON-EDITOR in die Zeile extractor klicken und über den Kippschalter auf true setzen.
  7. In der Zeile extractorOptions auf die drei Punkte klicken.
  8. Den regulären Ausdruck in der Zeile pattern durch den eigenen regulären Ausdruck ersetzen (z. B. “(Seriennummer:)\s(\d{3})”).
  9. Bei Bedarf die zeilenbasierte Verarbeitung (multiLine) und das Ignorieren von Groß- und Kleinschreibung (caseInsensitive) aktivieren oder die Konvertierung von Zeilenumbrüchen zu Leerzeichen (convertNewlineToSpace) deaktivieren.
  10. Im Feld match die gewünschte Gruppe eintragen, deren Ergebnis im Metadatenfeld stehen soll.

    Info: Soll im Beispiel "(Seriennummer:)\s(\d{3})" nur die eigentliche Seriennummer extrahiert werden, dann würde man nur die Gruppe 2 matchen.

  11. Im Feld multiMatch auswählen, ob mehrere Werte übernommen werden dürfen (true) oder nur einer (false).
  12. Bei Bedarf im Feld scope einen oder mehrere Werte aus der Liste entfernen.

    Info: Der Scope definiert, wo der Extraktor angewendet wird: im Text (text) im Titel (title) oder in den Eigenschaften mit der Rolle „Quelle für Metadatenerkennung“ (sources).

  13. Auf OBJEKT ERSTELLEN klicken.
Konfigurationsobjekt erstellen
Erstellen eines Konfigurationsobjekts für reguläre Ausdrücke in plusmeta.

Extraktor aktivieren

  1. In die Eigenschaften-Ansicht klicken.
  2. Metadatum auswählen, dem sie das Konfigurationsobjekt zuweisen möchten.
  3. Auf die Schaltfläche klicken, um den Eigenschaft bearbeiten-Dialog zu öffnen. Der Eigenschaften bearbeiten-Dialog öffnet sich.
  4. Den Reiter Beziehungen öffnen.
  5. Auf die Hinzufügen-Schaltfläche klicken, um eine Beziehung hinzuzufügen.
  6. Die Beziehung verwendet Konfiguration aus der Drop-Down-Liste auswählen.
  7. Im Feld verwendet Konfiguration aus der Drop-Down-Liste das Konfigurationsobjekt auswählen.
  8. In den Reiter Attribute wechseln.
  9. Auf die Hinzufügen-Schaltfläche klicken und das Attribut Automatisch auswählen und aktivieren.
  10. Auf SCHLIESSEN klicken.
    Die Änderungen werden automatisch gespeichert.
Konfigurationsobjekte erstellen
Aktivieren eines Extraktors in plusmeta.

Zeichenkette modifizieren

Es ist möglich die Zeichenkette, die der reguläre Ausdruck extrahiert, durch weitere Zeichenketten zu modifizieren. Das können Prä- und Suffixe sein sowie eingeschobene Zeichenketten zwischen Gruppen.
Somit können Unsauberkeiten in Treffern bereinigt werden oder weitere Bestandteile zum Metadatenwert hinzugefügt werden.

Beispiel: Vor den Treffer der Seriennummer soll immer ein “S-“ geschrieben werden.

  1. Die Objekte-Ansicht öffnen.
  2. Das Konfigurationsobjekt vom Typ “Regulärer Ausdruck” öffnen.
  3. Im Reiter im JSON-EDITOR in der Zeile match das Präfix “S-“ vor die Gruppe, die gematcht werden soll, eintragen.
  4. Auf SCHLIESSEN klicken.
    Die Änderungen werden automatisch gespeichert.
Zeichenketten modifizieren
Modifizieren einer Zeichenkette.

Auto-Extraktoren

Mithilfe der Funktion „Auto-Extraktor“ können Extraktoren auch ohne das Schreiben von regulären Ausdrücken erstellt werden. Auto-Extraktoren werden ohne Konfigurationsobjekte erstellt und sind für Metadaten mit Einheiten vorgesehen, z. B. Höhe oder Gewicht.

Eigenschaft erstellen mit Vorlage

Im Eigenschaften erstellen-Dialog können Eigenschaften mithilfe verschiedener Vorlagen erstellt werden. Für Auto-Extraktoren wird die Vorlage Zeichenkette verwendet. Die Vorlage füllt automatisch Basis-Angaben wie Klasse, Datentyp und Systemrolle aus. Zusätzlich wird das Attribut Automatisch gesetzt.

  1. In die Eigenschaften-Ansicht klicken.
  2. Auf die Hinzufügen-Schaltfläche klicken und anschließend die Schaltfläche anklicken.
    Der Eigenschaft erstellen-Dialog öffnet sich.
  3. Die Vorlage Zeichenkette auswählen.
    Die Klasse, Datentyp und Systemrolle sowie das Attribut Automatisch sind ausgewählt.
  4. Optional den Identifikator anpassen.
  5. Eine Bezeichnung vergeben.
  6. Auf ERSTELLEN klicken.
    Die Änderungen werden automatisch gespeichert. Die Eigenschaft ist nun erstellt und hat ein standardmäßiges Auto-Extraktor-Konfigurationsobjekt hinterlegt.
Konfigurationsobjekte erstellen
Auto-Extraktor mit Vorlage erstellen.

Eigenschaft erstellen ohne Vorlage

  1. In die Eigenschaften-Ansicht klicken.
  2. Auf die Hinzufügen-Schaltfläche klicken und anschließend die Schaltfläche anklicken.
    Der Eigenschaft erstellen-Dialog öffnet sich.
  3. Die Klasse Metadatum vergeben.
  4. Den passenden Datentyp wählen (Zahl für reine Zahlenwerte, Zeichenkette für Wörter oder gemischte Werte).
  5. Eine Bezeichnung vergeben.
  6. Auf ERSTELLEN klicken.
    Die Änderungen werden automatisch gespeichert.

Auto-Extraktoren an Eigenschaft aktivieren

  1. Bei der Eigenschaft die Schaltfläche anklicken, um den Eigenschaft bearbeiten-Dialog zu öffnen.
    Der Dialog Eigenschaft bearbeiten öffnet sich
  2. In den Reiter Attribute wechseln.
  3. Auf die Hinzufügen-Schaltfläche klicken und das Attribut Einheit auswählen.
  4. Im Feld Einheit die Einheit so eintragen, wie sie im Content zu finden ist.
  5. Falls die Eigenschaft ohne Vorlage erstellt wurde, auf die Hinzufügen-Schaltfläche klicken und das Attribut Automatisch auswählen und aktivieren.
  6. Auf SCHLIESSEN klicken.
    Die Änderungen werden automatisch gespeichert.
Konfigurationsobjekte erstellen
Aktivieren eines Auto-Extraktors in plusmeta.

Auto-Extraktoren in Projekt aktivieren

  1. Beim Erstellen eines neuen Projekts die Projekt-Einstellungen über die Schaltfläche öffnen.
    Bei bestehenden Projekten links oben in der Arbeitsansicht auf die Einstellungen-Schaltfläche klicken.
  2. Den Kippschalter Auto-Extraktoren aktivieren. Die Auto-Extraktoren werden im Projekt verwendet.

Dynamische Extraktoren

Dynamische Extraktoren bieten den Vorteil, dass Platzhalter innerhalb regulärer Ausdrücke verwendet werden können. Dadurch ist es möglich, verschiedene Metadaten mit nur einem Extraktor zu extrahieren.

Die Besonderheit beim dynamischen Extraktor ist, dass Platzhalter im regulären Ausdruck verwendet werden können. Dadurch lassen sich bei den richtigen Benennungen viele Metadaten mit demselben dynamischen Extraktor auslesen.

Platzhalter

Die folgenden Platzhalter stehen in dynamischen Extraktoren zur Verfügung:

Platzhalter Beschreibung
property.labels Fügt alle definierten Label (Anzeigenamen) der Eigenschaft ein.
property.unit Fügt die definierte Einheit der Eigenschaft ein (z. B. „°C“, „kg“, „mm“).
property.indicators Fügt alle zugehörigen Indikatoren der Eigenschaft ein (z. B. „maximal“).

Konfiguration

Die Konfiguration unterscheidet sich nicht von der Konfiguration von regulären Extraktor.

Die Platzhalter werden mit je zwei geschweiften Klammern und einem Leerzeichen in den regulären Ausdruck eingefügt:

Konfigurationsobjekte erstellen
Dynamischer Extraktor im Konfigurationsobjekt.

Erste Schritte
Grundlagen
Aufbau
Workflows & Projekte
Metadaten prüfen und vergeben
Erweitert