Natural Language Processing

Das Natural Language Processing (kurz NLP) wird dazu verwendet natürliche Sprache maschinell zu verarbeiten. Im Zuge der Entwicklung künstlich intelligenter Systeme und Sprachassistenten sowie Chatbots hat das NLP stark an Bedeutung gewonnen.

Die Herausforderung natürlicher Sprache ist die Unstrukturiertheit und Unbestimmtheit mit der sie in einen maschinellen Verarbeitungsprozess eingeht. Das NLP ist dazu da eine Struktur für die automatisierte Verarbeitung zu generieren.

NLP verwendet maschinelle Lernverfahren, wie supervised, unsupervised und reinforcement Learning, um auf Basis statistischer Modelle Inhalt und Struktur von Texten zu erkennen.

NLP Aufbau & Funktion - Ablauf eines NLP-Verfahrens

Das Natural Language Processing verläuft in der Regel in mehreren Phasen. Diese können grob in die Schritte Datenbereitstellung, Datenvorbereitung, Textanalyse und Textanreicherung unterteilt werden.

Die Abbildung zeigt auf der linken Seite (blau) in grober Form einen typischen Ablauf eines NLP-Verfahrens. Auf der rechten Seite (grün) ist die exemplarische Verarbeitung dargestellt. Ausgangsbasis sind immer natürlich sprachliche Texte oder Textdokumente, diese können auch aus einer Speech-to-Text Vorverarbeitung stammen.

Darüber hinaus wird ein Sprachmodell zur Verarbeitung der Texte benötigt, dieses ist in der Abbildung nicht zu sehen, es ist jedoch ein Hauptbestandteil des Verfahrens. Ein Sprachmodell ist ein Korpus an Textdokumenten mit dem das Modell trainiert wurde (maschinelles Lernen), um Regeln und Muster aus der Sprache abzuleiten.

Natural Language Processing Definition & Erklärung | Datenbank Lexikon

Wie die Abbildung zeigt, werden die Rohdaten zunächst mit Hilfe eines Tokenizers (1) in Segmente unterteilt. Segmente können Abschnitte, Sätze oder einzelne Wörter sein. Anschließend erfolgt in einem zweiten Schritt eine lexikalische Analyse (2), bei der Wortstämme gebildet (Stemmen, Lemmatisieren) und die lexikalische Klasse ermittelt werden. Eine lexikalische Klasse weist den Wörtern und Satzbestandteilen eine Wortart zu (siehe Beispiel rechts in der Abbildung). Auf Basis der lexikalischen Analyse kann die Satzstruktur mittels syntaktischer Analyse (3) ermittelt werden. Wie im Beispiel rechts zu sehen, werden dadurch die Wortbezüge erkannt.

In einem letzten Schritt, der semantischen Analyse (4), werden Entitäten im Text gesucht und entsprechend markiert. Bei Entitäten handelt es sich um Eigennamen die Orte, Organisationen, Personen usw. beschreiben und mittels Named-Entity-Recognition erkannt werden. Das Ergebnis eines Natural Language Processing ist ein annotiertes Dokument, das den Text strukturiert und einzelne Bestandteile über die Metadatenbeschreibung (die Annotation) bereitstellen kann.

Herausforderungen und Einsatzbereiche des Natural Language Processing

Der Erfolg, die Zuverlässigkeit und die Qualität der Textverarbeitung hängt von den Ausgangsdokumenten und dem verwendeten Sprachmodell ab. Grammatikalische und syntaktische Fehler im zu analysierenden Dokument wird die Analyse erschweren oder unmöglich machen. Ein Sprachmodell, das die Eigenheiten (z. B. medizinische Fachbegriffe) eines zu analysierenden Textes nicht kennt, ist nicht repräsentativ und kann keine Bezüge im Text herstellen, was wiederrum zu schlechten Ergebnissen bei der Sprachanalyse führt.

Wie eingangs erwähnt, wird NLP in digitalen Sprachassistenten und Chatbots eingesetzt. Dabei werden die textuellen Eingaben des Nutzers entgegengenommen, analysiert und textuelle Ergebnisse aber auch gesprochene Sprache präsentiert.

Zudem ist NLP ein wesentlicher Bestandteil der maschinellen Übersetzung (Sprachübersetzung). Es ermöglicht aber auch die Erstellung von Textzusammenfassungen (Kernaussagen eines Dokuments) etwa beim Einsatz von Text Mining und wird im Rahmen der Sentiment Analysis (Stimmungs- und Meinungsanalyse) eingesetzt.