Maschinelles Sprachenlernen: Was ist linguistische Datenverarbeitung?

von Jakob Straub
May 10, 2021
Maschinelles Sprachenlernen: Was ist linguistische Datenverarbeitung?

Die linguistische Datenverarbeitung oder Computerlinguistik (Natural Language Processing) ist der Prozess, bei dem Maschinen die menschliche Sprache verstehen. Als Zweig der künstlichen Intelligenz spielt der Bereich der linguistischen Datenverarbeitung eine wichtige Rolle, um die Interaktion zwischen Mensch und Computer zu vereinfachen. Hier findest du einen Überblick zur linguistischen Datenverarbeitung. Außerdem erklären wir dir, wie Maschinen die Art imitieren, auf die auch du eine neue Sprache lernst.

So funktioniert die linguistische Datenverarbeitung

Die linguistische Datenverarbeitung (LDV) ist in alltäglichen Interaktionen mit allen möglichen Maschinen zu finden. Wenn du eine Frage in eine Suchmaschine eingibst, dann analysiert die LDV deine Suchanfrage, um relevante Ergebnisse zu liefern. Virtuelle Assistenten wie zum Beispiel Smart Speaker oder Chatbots nutzen LDV, um mit dir zu interagieren. Weitere LDV-Anwendungen sind automatisch erstellte Übersetzungen und Untertitel, die Sortierung von Nachrichten, Rechtschreib- und Grammatikprüfung, die Erkennung von handschriftlichem oder gedrucktem Text sowie Sprachsynthese (also die Sprachausgabe von Fließtext).

Wie hängen linguistische Datenverarbeitung und künstliche Intelligenz zusammen?

Künstliche Intelligenz (KI) ist der Oberbegriff für die Nachahmung menschlicher Intelligenz. KI-Systeme haben Lernfähigkeiten, die analog zum menschlichen Lernen ablaufen: Lernen durch Nachahmung, Lernen durch Ausprobieren und Problemlösung. Maschinelles Lernen ist eine Unterkategorie der KI, die sich mit angewandten Algorithmen beschäftigt und Computern das Lernen beibringt, oftmals mittels großer Datensätze. Maschinelles Lernen ist ein Prozess: Der Computer lernt und verbessert, wie er eine Aufgabe ausführt, wurde aber nicht gezielt für die Lösung der Aufgabe auf eine bestimmte Art programmiert.

Bei der linguistischen Datenverarbeitung wird maschinelles Lernen verwendet, um Computern beizubringen, wie sie die menschliche Sprache verstehen und übersetzen. Je mehr sie lernen, desto besser können sie gesprochene oder geschriebene Texte verstehen, klassifizieren oder umstellen, übersetzen und interagieren.

Erfolg durch Sprachen? In diesen Jobs zahlt sich Zweisprachigkeit aus

Maschinen lernen genau wie du

Aber wie funktioniert linguistische Datenverarbeitung überhaupt? Maschinelles Lernen unterscheidet sich nicht sehr von der Art und Weise, wie wir eine Sprache lernen. Dabei ist aber die Ausnahme, dass Computer deutlich mehr Beispiele, also Daten, verarbeiten und überprüfen können, und das auch in viel kürzerer Zeit.

Modernes maschinelles Lernen verwendet neuronale Netzwerke, die künstliche Neuronen für die Signalübertragung nutzen. Diese sind nach dem Vorbild des menschlichen Gehirns gestaltet. Einfach ausgedrückt lernt ein neuronales Netzwerk, indem es sich selbst trainiert, um die Genauigkeit der Ergebnisse durch Fehlerminimierung zu verbessern. Der Lernprozess selbst besteht aus der Überprüfung großer Datensätze von Beispielen.

Die individuellen Aufgaben, die von den neuronalen Netzwerken beim maschinellen Lernen erledigt werden, um immer besser in der linguistischen Datenverarbeitung zu werden, ähneln dem, was du beim Erlernen einer neuen Sprache machst. Mit anderen Worten setzt der Computer die gleichen „Tricks“ wie Menschen ein, um eine Sprache besser zu verstehen – aber natürlich in anderem Umfang.

Syntaktische Analyse bei der linguistischen Datenverarbeitung

Syntax ist der linguistische Begriff für die Regeln und Prinzipien der Satzstruktur und Wortfolge in einer Sprache. Die Computerlinguistik zerlegt Sätze, um die Satzstruktur und die Beziehung der Wörter zueinander zu identifizieren. Die folgenden Aufgaben gehören zur syntaktischen Analyse:

Segmentierung: Bei der Segmentierung wird der Text in individuelle Blöcke oder Token (deshalb auch Tokenisierung genannt) zerlegt, um die weitere Verarbeitung zu erleichtern. Diese Token oder Einzelteile können Wörter oder Sätze sein. Für Englisch oder andere Sprachen, in denen Wörter durch Abstände voneinander getrennt werden, ist die Segmentierung relativ einfach. Aber bei Chinesisch oder Japanisch braucht es für die Segmentierung zusätzliches Wissen.
Lemmatisierung und Stammreduktion: Beide Prozesse reduzieren Wörter auf eine Grundform, also ein Lemma oder einen Wortstamm, und zwar durch ein Wörterbuch oder bestimmte Regeln. Genau das machst du auch, wenn du versuchst, bekannte Wörter ohne Flexionsendungen zu erkennen oder den Stamm oder Infinitiv eines Verbs in einem Satz zu identifizieren.
Verschlagwortung: Die Identifizierung von Wortarten (Parts of Speech oder POS) innerhalb eines Satzes wird als POS-Tagging bezeichnet. Wenn du eine neue Sprache lernst, dann kann die Kennzeichnung von Nomen, Verben, Adverbien, Adjektiven, Objekten usw. hilfreich sein, um die Satzstruktur besser zu verstehen und komplexe Strukturen aufzuschlüsseln.
Wortentfernung: Sogenannte Stoppworte tauchen häufig auf und haben wenig oder keinen semantischen Wert. Beispiele im Deutschen sind Artikel (der, die, das), Konjunktionen (und, oder, doch) oder Präpositionen (an, in, von). Auch Menschen ignorieren beim Lernen tendenziell Stoppworte und konzentrieren sich stattdessen auf das Wesentliche oder auf schwierige Satzstrukturen.

Wie lernt man mit Lingoda am besten?

Semantische Analyse in der linguistischen Datenverarbeitung:

In der Linguistik verbindet die semantische Analyse syntaktische Strukturen mit ihrer Bedeutung. Dies beginnt mit der Beziehung zwischen einzelnen Wörtern, schließt aber auch häufige Wortkombinationen, Redewendungen, Sprachfiguren und die Bedeutung im Kontext mit ein.

Wie du vielleicht schon vermutet hast, ist die semantische Analyse der Teil der linguistischen Datenverarbeitung, der für künstliche Intelligenz schwerer zu bewältigen ist. Dies sind die wichtigsten Methoden:

Lexikalische Analyse: Hier wird die Bedeutung der einzelnen Wörter im Kontext betrachtet.
Beseitigung von Mehrdeutigkeit: Die meisten Wörter in einer Sprache haben mehr als eine Bedeutung. Durch die Beseitigung von Mehrdeutigkeit wird das Wort gewählt, dass im gegebenen Kontext am meisten Sinn macht. Je besser Menschen eine Sprache beherrschen oder verstehen, desto intuitiver wird der Prozess.
Beziehungen: Durch Extraktion versucht die linguistische Datenverarbeitung, die Bedeutung eines Textes zu verstehen, indem Beziehungen zwischen Einheiten, Orten, Personen usw. verfolgt werden. Manchmal scheint dies eng mit dem semantischen Tagging verwandt zu sein: Die Frage „Wer hat wen geheiratet“ kann durch die korrekte Identifizierung des Nomens und des Objekts in einem Satz gelöst werden, aber Beziehungen können auch kompliziertere Konnotationen tragen.

Noch mehr Anwendungsfälle für die linguistische Datenverarbeitung

Abgesehen von den bereits erwähnten intelligenten Assistenten, Übersetzungen, Spracherkennung und Rechtschreibprüfung, gibt es noch viel mehr Anwendungsbereiche für die linguistische Datenverarbeitung. Hier findest du ein paar Beispiele:

Sentimentanalyse: Die linguistische Datenverarbeitung kann Gefühle in einem Text als positiv, negativ oder neutral einstufen. Facebook macht dies mit benutzergenerierten Inhalten, aber Marken können dies ebenfalls nutzen, um zu verstehen, wie ihre Kundschaft auf ihre Produkte reagiert.
Textextraktion: Die linguistische Datenverarbeitung kann relevante Begriffe in einem beliebig großen Textkorpus finden, sie extrahieren oder weiterverarbeiten.
Themenklassifizierung: Ein Text kann nach bestimmten Themen in einzelne Teile zerlegt werden.
Bearbeitung von Dokumenten: So können Benutzer ohne Vorwissen im Programmieren oder in künstlicher Intelligenz einem Computer sagen, was mit einem Stapel digitaler oder virtueller Dokumente gemacht werden soll, wie zum Beispiel die Verarbeitung von Formularen, Berechnung von Kosten oder Einnahmen usw.
Texterstellung: Obwohl die von künstlicher Intelligenz produzierte Kunst immer noch von fragwürdiger Qualität ist, kann die Computerlinguistik lesbaren und sinnvollen Text erstellen, zum Beispiel eine Zusammenfassung von Sportergebnissen. Bei einer ausreichend großen Stichprobe kann die linguistische Datenverarbeitung den Stil eines bestimmten Autors imitieren und den Text entsprechend umschreiben.


Hat der Mensch beim Erlernen oder bei der Verarbeitung von Sprache noch immer einen Vorteil gegenüber Computern? Wir verraten dir, warum du im Zeitalter von künstlicher Intelligenz unbedingt eine Sprache lernen solltest!

Wähle deine Sprache und mache den Einstufungstest bei Lingoda

Bereit, das Lernen mit Lingoda zu beginnen?

Personalisiere dein Lernerlebnis und hab Freude am Sprachenlernen.