Gewinner der Karl Max von Bauernfeind-Medaille 2016
Dialog
fatum 5 | , S. 56
Inhalt

Daisy, Daisy, give me your answer do

Über das Reden mit Maschinen

Kann man mit Maschinen reden? Was ist das überhaupt: reden? Wenn ich sage Der Baum ist grün., dann möchte ich Ihnen mitteilen, dass der Baum grün ist, bzw. zumindest, dass ich das glaube. Es gibt also ein Konzept (meine Annahme, dass der Baum grün ist) und Sprache erlaubt es, dieses Konzept abzubilden (zum Beispiel mit dem Satz Der Baum ist grün.). Nennen wir das semantische Abbildung. Außerdem erlaubt Sprache Ihnen diese Abbildung akustisch zukommen zu lassen. Obiger Satz wird also wiederum abgebildet in eine Tonfolge, er wird artikuliert als Der Baum ist grün.  Das wollen wir syntaktische Abbildung nennen. Sinnvoll ist dieses Prozedere, weil beide Abbildungen umkehrbar und in umgekehrter Reihenfolge anwendbar sind: Wenn Sie Der Baum ist grün. hören, dann können Sie Der Baum ist grün. rekonstruieren (umgekehrte syntaktische Abbildung) und daraus wiederum schließen, dass der Baum grün ist (umgekehrte semantische Abbildung). Et voilà, ich habe mit Ihnen geredet!

Um Abbildungen vornehmen zu können und sie beim Verstehen von Sprache umkehren zu können sind Regeln nötig, die die Abbildung beschreiben. Die Regeln für die obige syntaktische Abbildung und ihre Umkehrung sind vergleichsweise einfach. Die Lautfolge der lässt sich eindeutig dem Wort der zuordnen, Baum dem Wort Baum und so weiter. Es gibt in der Regel eine 1:1-Beziehung zwischen einem Wort und seiner Artikulation. (Ausnahmen wie Homonyme und Synonyme lassen wir erst einmal außen vor.)

Zu dieser syntaktischen Abbildung gibt es natürlich Alternativen. Dieser Text, den sie gerade lesen ist eine; auch er bildet Sprache ab, und zwar in Folgen von Buchstaben. Auch diese Abbildung ist umkehrbar und folgt relativ einfachen Regeln: Baum wird zum Beispiel auf die vier Zeichen B-A-U-M abgebildet und jedes Mal wenn genau diese vier Zeichen in diesem Text vorkommen bilden Sie sie zurück auf Baum ab.

Wenn man also einer Maschine etwas sagen will, dann ist, seitens der Maschine, zuerst eine derartige umgekehrte syntaktische Abbildung notwendig. Üblicherweise wird das als Spracherkennung (speech recognition; Baum zu Baum) bzw. Zeichenerkennung (optical character recognition; B-A-U-M zu Baum) bezeichnet.

Auch wenn die Regeln solcher Abbildungen eben als vergleichsweise einfach bezeichnet wurden, sind sie doch alles andere als trivial und der Teufel steckt, wie meistens, im Detail. Maschinen hatten zum Beispiel sehr lange große Schwierigkeiten mit dem Erkennen von verzerrten oder verschmutzen Buchstaben – so große Schwierigkeiten, dass dieses Problem in Form von CAPTCHAs* im Internet allgegenwärtig wurde um Menschen von Programmen unterscheiden zu können.

Auch bei der Spracherkennung lauern Probleme im Detail: Ein Sprecher aus Süddeutschland sagt eventuell eher Baam als Baum. Um solche Fallstricke zu meistern kann man Computerprogramme an Sprecher und ihre Aussprache gewöhnen. Schwieriger wird es bei Homonymen oder Homophonen: Wie kann man feststellen, ob der Baum grün ist, oder grün isst? Akustisch ist das kaum zu machen. Trotzdem wird einem menschlichen Hörer kaum in den Sinn kommen, dass der Baum isst, einfach weil er weiß, dass weder Bäume essen können noch grün gegessen werden kann.

Hier taucht ein großes Problem auf: Können die genannten syntaktischen Abbildungen vielleicht nicht wirklich isoliert werden von der semantischen Abbildung und der Fähigkeit die abgebildeten semantischen Konzepte zu verstehen? Lässt sich Der Baum ist grün nur zuverlässig auf Der Baum ist grün (mit einem s) abbilden, wenn man weiß was ein Baum ist? Hören alleine reicht jedenfalls nicht – wir werden darauf zurückkommen.

Solchen Problemen zum Trotz, sind Maschinen im Durchführen von syntaktischen Abbildungen insbesondere in den letzten Jahren deutlich besser geworden. Die Algorithmen, die Google u. a. zum Erkennen von Hausnummern in seiner Street View einsetzt, sind mittlerweile besser als Menschen im Erkennen von Zeichen – mit dem Effekt, dass Google seine CAPTCHAs nicht mehr auf der Erkennung von Zeichen basieren lässt, weil in absehbarer Zeit auch anderer Leute Algorithmen ähnlich gut sein werden. Auch ist es seit geraumer Zeit möglich einem Computerprogramm Texte zu diktieren, die dieses sinnvoll zu Papier bringt. Solche Software ist nicht nur für Endanwender erschwinglich, sie wird auch kaum den Fehler machen der Baum isst statt der Baum ist zu schreiben.

Diese Fortschritte basieren auf der aktuellen erfolgreichen Strömung in der Künstliche-Intelligenz-Forschung: dem maschinellen Lernen. In früheren Herangehensweisen an die KI wurde versucht einem Computer explizit Regeln beizubringen, also zum Beispiel dass die Äußerung Baum für Baum steht – außer der Duktus des Sprechers ist süddeutsch, dann steht Baam für Baum, was nicht zu verwechseln ist mit der Bahn eines hochdeutschen Sprechers… Es ist leicht zu erkennen, dass diese Herangehensweise schnell unpraktisch bis unmöglich wird.

Technische Zeichnung der Teile eines Gänseblümchens.
Gemeines Massliebchen, Bellis perennis, Quelle: Johann Georg Sturm, Public Domain

Beim maschinellen Lernen hingegen wird der Computer nicht mit expliziten Regeln über die betroffene Thematik programmiert, sondern mit Regeln die beschreiben wie man lernt. Zusammen mit einer großen Menge an Beispieldaten kann der Computer dann (in der Regel statistische) Schlüsse selber ziehen und lernt, dass Baum für Baum steht. Wenn man Baam sagt, kann der Computer gewisse Wahrscheinlichkeiten dafür errechnen, dass Bahn gemeint ist, oder Baum und diese Wahrscheinlichkeiten verändern sich, je nachdem ob der Sprecher sich auch sonst süddeutsch artikuliert.

Mit solchen statistischen Schlüssen kann auch ein Diktierprogramm ausreichend zuverlässig erkennen, dass der Baum ist und nicht isst, einfach weil isst und Baum seltener zusammen auftreten, als ist und Baum. Das Programm versteht aber nicht was ein Baum ist. Müsste (und könnte) es erklären warum es der Baum ist geschrieben hat, würde es sinngemäß nur sagen weil man das so macht und nicht darauf rekurrieren was einen Baum ausmacht, und dass es daher sinnlos ist von essenden Bäumen zu sprechen.

Ist die KI-Forschung in diesem Gebiet also am Ende angelangt und man kann mit einem Computer reden, wie der Untertitel des Artikels ankündigt? Natürlich nicht; einem Computer etwas zu diktieren ist nicht dasselbe wie reden. Das liegt aber nicht daran, dass dem Computer die Möglichkeit fehlt zu antworten. Sprachsynthese ist sogar etwas einfacher als Spracherkennung und, wie zum Beispiel die oft holprigen aber gut verständlichen automatischen Durchsagen in Zügen beweisen, schon seit geraumer Zeit möglich.

Das Problem ist vielmehr die bislang nicht weiter angesprochene semantische Abbildung, die sehr viel komplexer ist als die syntaktischen Abbildungen. Es gibt zahllose semantische Doppel- und Mehrdeutigkeiten; soll Der Baum ist grün einfach bedeuten, dass der Baum hauptsächlich die Farbe Grün hat? Oder ist eine übertragene Bedeutung intendiert gemeint, dass der Baum im Saft steht? Und welcher Baum ist der Baum überhaupt? Existiert er überhaupt oder reden wir über einen fiktiven Baum? Auch grammatikalisch können Sätze uneindeutig sein und all diese Vieldeutigkeiten unterscheiden sich zusätzlich von Sprache zu Sprache. Die meisten dieser Ungenauigkeiten lassen sich nur semantisch auflösen: Man muss den Satz verstehen und in den Kontext des Gespräches einbetten können.

Was heißt das aber, einen Satz verstehen? Wenn Sprache, wie anfangs eingeführt, ein Konzept abbildet, dann ist Verstehen genau das Umkehren dieser semantischen Abbildung. Sie verstehen Baum, weil das Wort bei Ihnen das Konzept Baum abruft – dazu müssen sie ein Konzept von Bäumen haben, und von allem anderen worum ein Gespräch sich dreht. Können Maschinen Konzepte in diesem Sinne haben? Von Bäumen? Von Sehnsucht?

In einem gewissen Sinne können Maschinen natürlich Konzepte haben, also abstrahierte Repräsentationen von etwas. Genau jetzt hat Ihr Smartphone beispielsweise eine Repräsentation der Anzahl Ihrer ungelesenen E-Mails (sieht möglicherweise so aus: 01101101) und kann dieses Konzept auch abbilden in die Schriftzeichen 109. In den Anfängen der KI-Forschung nahm man an, dass solche Konzepte zum Verstehen von Sprache ausreichen würden. SHRDLU, ein sehr bekanntes Programm, lebte in einer Welt, die aus ein paar Bauklötzchen bestand und man konnte sich überraschend gut mit SHRDLU über diese Klötzchen unterhalten: 1

Person: PICK UP A BIG RED BLOCK.

Computer: OK. (does it)

Person: GRASP THE PYRAMID.

Computer: I DON’T UNDERSTAND WHICH PYRAMID YOU MEAN.

Person: FIND A BLOCK WHICH IS TALLER THAN THE ONE YOU ARE HOLDING AND PUT IT INTO THE BOX.

Computer: BY „IT“, I ASSUME YOU MEAN THE BLOCK WHICH IS TALLER THAN THE ONE I AM HOLDING.

Computer: OK. (does it)

Person: WHAT DOES THE BOX CONTAIN?

Computer: THE BLUE PYRAMID AND THE BLUE BLOCK.

Person: WHAT IS THE PYRAMID SUPPORTED BY?

Computer: THE BOX. […]

Die ursprüngliche Hoffnung, dass sich solche Programme relativ leicht auf größere Kontexte ausweiten lassen sollten, stellte sich aber als falsch heraus. Die oben angesprochenen semantischen Ungenauigkeiten, die sich in SHRDLUs kleiner Welt überblicken lassen, wachsen mit größeren Kontexten rasant – viel zu rasant um sie explizit zu programmieren.

Ja, aber, wird mancher von Ihnen vielleicht sagen, ich habe doch Siri/Cortana/Alexa/etc. auf meinem Handy bzw. zu Hause und kann mich mit ihr unterhalten. Das ist richtig. Man kann diesen Assistenten auch auftragen, Karten für morgen im Theater zu kaufen und sie tun selbiges dann. (Sofern das Theater es ermöglicht Karten online zu kaufen.) Das ist weit mehr als diktieren. Erfordert eine solche Handlung als Reaktion auf die Anfrage nicht ein Verstehen der Anfrage? Und um morgen und im Theater zu verstehen ist Kontext erforderlich: Welches Datum ist heute und in welches Theater gehen Sie normalerweise.

Wir werden uns gleich dem Verstehen zuwenden, zuerst aber: Wieso können Siri & Co das überhaupt, wenn SHRDLUs Ansatz gescheitert ist? Die Antwort ist wieder – wie im Fall der syntaktischen Abbildungen – maschinelles Lernen. Sehr grob vereinfacht gesagt, haben diese Assistenten wieder Zugriff auf große (und immer weiter wachsende) Datenmengen mit Gesprächen und Aktionen und können aus diesen (statistisch) schließen welche Reaktion (Nachfragen, Karten kaufen, etc.) an welchem Punkt in einem Gesprächsverlauf angemessen ist. Das ist auch der Grund, warum diese Assistenten fast grundsätzlich eine Internetverbindung erfordern: Das eigene Endgerät hat weder die Speicherkapazität für diese Datenmengen, noch die Rechenkapazität selbige in angemessener Zeit zu durchsuchen; das erledigen die Server von Apple, Microsoft und Google.

Wenn so eine virtuelle Assistentin aber gar keine echten semantischen Konzepte von Karten, Theater oder morgen hat, versteht sie dann die Anfrage überhaupt? Oder ist sie bloß ein natural language interface, sozusagen eine bessere Tastatur, die ein Gespräch gut genug simulieren kann um Menschen eine Weile bei Stange zu halten oder evtl. sogar gut genug um Menschen dauerhaft zu täuschen, aber doch unüberbrückbar von Verständnis entfernt ist?

John Searle, einer der prominentesten Protagonisten der Sprachphilosophie, ist dieser Meinung. In seinem berühmten Gedankenexperiment, dem Chinesischen Zimmer, schlägt er in etwa folgende Situation vor. Er befindet sich in einem geschlossenen Raum, unfähig mit der Außenwelt in Kontakt zu treten, außer über einen Briefschlitz, durch den hin und wieder Zettel gereicht werden. Auf den Zetteln befinden sich ihm unverständliche Zeichen. Allerdings ist mit ihm im Raum ein dickes Buch und viel Notizpapier samt Stift. Das Buch erklärt wie auf Zeichen zu reagieren ist, mit Regeln wie diesen:

Der Trick an Searles Gedankenexperiment ist folgender: Die ihm unbekannten Zeichen sind in Wahrheit chinesische Schriftzeichen und das Buch enthält die Regeln der rein syntaktischen Abbildung von Eingabe auf Ausgabe.** Der Gesprächsverlauf (der Kontext) wird nach Regeln des Buches auf Notizpapier festgehalten, kann über diese Regeln auch das weitere Gespräch beeinflussen und „Antworten“ werden denselben Regeln folgend durch den Briefschlitz nach draußen gereicht. Eine außenstehende, des Chinesischen mächtige Person könnte sich dann (schriftlich) mit dem Raum unterhalten, obwohl weder Searle noch sonst etwas in diesem Raum Chinesisch versteht.

Prunkvolles chinesisches Zimmer im Schloss Hetzendorf.
Schloss Hetzendorf – Chinesisches Zimmer, Quelle: Cizekgraf,  Creative Commons Attribution-Share Alike 3.0 Austria

In dieser Situation befindet sich, Searles Meinung nach, ein Computer. Dem Buch entspricht das Programm mit allen Metadaten (wie den stochastischen Beziehungen) und Searle ist der eigentliche Computer, der das Programm ausführt. Egal wie überzeugend diese Gesprächssimulation der außenstehenden Person erscheinen mag, es bleibt doch eine Simulation, zusammengesetzt aus ausschließlich syntaktischen Abbildungen. Niemand außer der außenstehenden Person versteht Chinesisch und sie kann folglich auch nicht mit „dem Raum“ reden. Es findet lediglich eine Art verbales Ping-Pong gegen eine syntaktisch kompliziert geformte Wand statt. Das mag unterhaltsam sein, ist aber eben keine Interaktion mit einem verständigen Gegenüber.

Für und wider Searles Argumente sind zahllose Diskussionen geführt worden und die Einwände decken alles ab, von ungültigen Prämissen (ein derartiges Buch/Programm, dessen Benutzung es erlaubt zu sprechen, ohne dass man notwendigerweise die Sprache lernt, kann es nicht geben) bis zu ungültigen Schlussfolgerungen (das Gesamtsystem, also Searle, Buch und Papier zusammen, versteht in der Tat, nur Searle, als Teil dieses Systems, nicht) und vieles mehr.

In diese Diskussion einzusteigen ginge weit über diesen Artikel hinaus und ist für unsere Zwecke auch nicht notwendig:2 Searle sagt, dass ein Computer notwendigerweise nicht verstehen kann, also keine semantische Abbildung von Sprache auf Konzepte (und zurück) durchführen kann, weil er keine in diesem Sinne semantischen Konzepte hat. Wir haben daraus geschlossen, dass man mit einem Computer daher nicht reden kann, im engeren Sinne, weil all seine Abbildungen syntaktischer und nicht auch semantischer Natur sind. Das Argument steht und fällt also mit der anfänglichen Annahme, dass Sprache eine semantische Abbildung benötigt.

Davon wurde und wird traditionellerweise ausgegangen und in einfachen Sätzen wie unserem Beispiel vom Baum erscheint diese Annahme auch offensichtlich. Die Bedeutung von Baum ist eben das Konzept Baum und ohne Bedeutung keine Sprache. Wie schwierig diese Annahme zu halten sein kann, zeigt sich wenn man nicht einfache Sätze über physische Objekte als Beispiele heranzieht. Was ist die Bedeutung von Schönheit, von Sinn oder von wahr? Die Philosophie bemüht sich seit Jahrtausenden die Konzepte hinter diesen Wörtern zu fassen, mit mehr oder minder großem Erfolg. Wie kann man aber dann über diese Dinge reden, wenn die Konzepte noch gar nicht gefasst sind? Wie kann Poesie erdachte Wörter benutzen und grammatikalische Regeln missachten und trotzdem, oder gerade deswegen, funktionieren?

Wittgenstein, der in seinem frühen Werk deutlich eine Position der Bedeutung als Abbildung vertreten hatte, änderte seine Meinung später grundsätzlich, eben angesichts der mannigfaltigen Möglichkeiten von Sprache jenseits von semantischen Abbildungen zu funktionieren. Der sogenannte späte Wittgenstein führt die Idee des Sprachspiels ein: Sprache ist ein System von Regeln, ähnlich den Regeln eines Spiels. Wie bei Spielen kann es zahllose Varianten von ähnlichen Spielen unterschiedlicher Komplexität geben, Regeln können sich wandeln, man kann mitspielen ohne die Regeln komplett zu kennen und man kann sogar „schummeln“, ohne dass das Spiel notwendigerweise kaputt geht. Die Bedeutung eines Wortes ist nach Wittgenstein dann schlicht die Art seiner Benutzung in diesen Sprachspielen; es muss nicht auf etwas abgebildet werden können, und selbst wenn man das kann, muss man es nicht tun, um das Spiel zu spielen.

Diese Sicht auf Sprache ist sehr nah an dem was Computerprogramme wie Siri heutzutage machen. Sie haben nicht unbedingt höhere Konzepte, auf die sie Wörter abbilden, aber sie wissen recht gut, wie man Wörter benutzt. Man kann gewisse Sprachspiele mit ihnen spielen und andere nicht, so wie man auch mit Menschen gewissen Sprachspiele spielen kann und andere nicht, sei es weil sie die Regeln nicht hinreichend kennen (zum Beispiel Fremdsprachen, die man nicht beherrscht) oder weil die Regeln zu flexibel gehandhabt werden oder zu komplex sind (zum Beispiel philosophische Werke, die man nur mit einem „Kommentar“ versteht, der doppelt so dick wie das Werk selbst ist).

In diesem Sinn kann man also durchaus mit Maschinen reden und das Spiel immer weiter treiben.


  1. Terry Winograd, SHRDLU, SHRDLU, http://hci.stanford.edu/winograd/shrdlu/ (aufgerufen: 22. September 2016).
  2. Als allgemeine Einführung in die Debatte um das Chinesische Zimmer empfiehlt sich David Cole, The Chinese Room Argument, Edward N. Zalta (Hrsg.), The Stanford Encyclopedia of Philosophy, Winter 2015 Edition (2015), http://plato.stanford.edu/archives/win2015/entries/chinese-room/ (aufgerufen: 22. September 2016).

Feedback

Anmerkung: Die Angabe Ihrer E-Mail-Adresse dient nur dazu, dass wir Sie benachrichtigen können, wenn Ihr Kommentar freigeschaltet wird. Sie wird nicht mit Ihrem Kommentar angezeigt oder anderweitig veröffentlicht.