Termextraktion

Termextraktion ist ein probates Mittel zur Gewinnung von Terminologiebeständen aus einem repräsentativen Textkorpus. Mittels spezieller Software werden die Schlüsselbegriffe extrahiert und zur weiteren terminologischen Bearbeitung bereitgestellt. Auf diese Art und Weise können beispielsweise im Textkorpus verwendete Synonyme identifiziert, ähnliche Benennungen voneinander abgegrenzt und Abkürzungen ihren Langformen zugeordnet werden. Mit dieser Methode können Sie beispielsweise einen ersten Grundstock an terminologischen Daten aufbauen, sich neue Sachgebiete terminologisch erschließen oder auf Basis der extrahierten Termini ein Regelwerk für die Benennungsbildung erstellen.

Terminologieextraktion zahlt sich insbesondere auch für international agierende Unternehmen, die einen Großteil ihrer Dokumente in die Übersetzung geben, aus. Denn die der Übersetzung vorgelagerte Erschließung fachspezifischer Terminologie ermöglicht deren Vereinheitlichung und Vorübersetzung, was wiederum für einen effizienteren Übersetzungsvorgang, einheitlichere ausgangs- und zielsprachliche Texte und somit für Zeit- und Kostenersparnis sorgt.

Doch auch für einsprachige Terminologiearbeit kann die Extraktion eine sinnvolle Methode sein, um das Ergebnis als Basis für ein Regelwerk zu Schreibweisen und Benennungsbildung zu nutzen. Ein solches Regelwerk ist sinnvoll, wenn Sie beispielsweise mit Tools zur Autorenunterstützung für mehr Einheitlichkeit in Texten der technischen Dokumentation sorgen wollen.

In der Toollandschaft zur Terminologieextraktion wird zwischen statistischen und linguistischen Tools unterschieden. Während statistische Tools vor allem auf Basis der Häufigkeit innerhalb eines Textkorpus Termkandidaten vorschlagen, sind bei linguistischen Tools zusätzliche morphologische und syntaktische Algorithmen hinterlegt. Mehrsprachige Termextraktion wird mit statistischen Methoden durchgeführt, während linguistische Tools nur einsprachig Termkandidaten liefern. Wir entscheiden projektbezogen je nach Ausgangs- und Zielsprachen, welche Tools wir am besten einsetzen oder miteinander kombinieren. Wenn ausschließlich deutschsprachige Termkandidaten benötigt werden, führen wir grundsätzlich eine linguistische Termextraktion durch.

Für eine zielgerichtete Terminologieextraktion mit sinnvollem Ergebnis ist einiges an Vorwissen und Erfahrung nötig. Deshalb unterstützen wir Sie mit unserem Know‑how und langjähriger Erfahrung gerne dabei, die Parameter (Auswahl und Konfiguration der Tools) und Methoden (einsprachig, mehrsprachig …) für die Extraktion so auszurichten, dass ein optimales Ergebnis für Ihre Zwecke erzielt wird.

Folgende, individuell auf Ihre Bedürfnisse zugeschnittene Leistungen bieten wir Ihnen gerne an:

  • geeignete Auswahl von Tools und Methodik
  • Verarbeitung verschiedenster Dateiformate (PDF, DOC, XLS, TMX, XML …)
  • Extraktion und Auswahl von Termkandidaten inkl. repräsentativer Kontextsätze aus Ihrem Textkorpus und Bereitstellung der Daten in Form einer Excel-Liste
  • Deltaextraktion (Abgleich mit bereits bestehender Terminologiedatenbank zur Vermeidung von Doppeleinträgen)
  • Anreichern der gewonnenen Terminologie mit individuell festlegbaren Metadaten
  • Aufbereiten der gewonnenen Terminologie für die Erstellung einer Datenbank oder den Import in eine bestehende Datenbank
  • Sprachen: Deutsch, Englisch, Französisch, Italienisch, Russisch, Spanisch