Wissen im Service | USU Blog

Die Magie von KI oder was Technologie heute leisten kann

Geschrieben von Harald Huber | Oct 8, 2021 11:00:00 AM

Einer der Highlights der diesjährigen ChatbotCon war das Keynote-Interview von USU-Geschäftsführer Harald Huber mit dem KI-Experten und Multipreneur Carsten Kraus. Als Mitglied des Forbes Technology Council kennt Kraus alle Möglichkeiten, die KI auch in Verbindung mit Chatbots gegenwärtig leisten kann. Und wo die Grenzen liegen…

Harald Huber:
„Die Magie von KI“ – es gibt wenige Themen, welche das Faszinosum KI besser in einem Begriff ausdrücken. Dieser Magie möchten wir im Folgenden etwas nachspüren und dabei die aktuellen Möglichkeiten und Grenzen ausloten. Ein Projekt, mit dem Sie sich gerade beschäftigen, nennt sich Casablanca AI – was hat es damit auf sich?

Carsten Kraus:
Casablanca AI adressiert das Problem bei Videokonferenzen, dass man sich nicht  direkt anschaut, sondern meist nach unten, links oder rechts blickt, da die Kamera nicht genau da ist, wo normalerweise die Augen des Gesprächspartners sind. Die Lösung besteht darin, dass die Technologie die Kamera rein virtuell auf die Augen des Gesprächspartners setzt. Das heißt, das Bild wird so umgerechnet, dass man sich wie im realen Gespräch direkt anschauen kann, um die Emotionen und den Gesichtsausdruck wesentlich präziser wahrzunehmen. Das ist eine Cutting Edge Technologie. Viele arbeiten daran, wir sind das einzige deutsche Team. Und befinden uns damit als kleines Start Up in bester Gesellschaft mit großen Unternehmen wie Microsoft oder Apple und machen gute Fortschritte.

Harald Huber:
Ein tolles Beispiel, das zeigt, was KI auch in der Kommunikation möglich macht. Aber lassen Sie uns zunächst versuchen, den Begriff KI besser zu fassen. Da wird vieles in einen Topf geworfen – auch Machine Learning oder Deep Learning werden im KI-Kontext verwendet. Wie kann man das sinnvoll ordnen, was kann man statt Magie zu KI sagen?

Carsten Kraus:
Der KI-Begriff verändert sich ständig. Früher hat man jeden Rechner als Elektronenhirn bezeichnet, wenn dieser auch nur Zahlen rechnen konnte – das war bereits magisch. Das war KI aus der Perspektive der Menschen in den 60er Jahren. Oder das Expertensystem Anfang der 70er Jahre, das die Arbeit von Ärzten teilweise ersetzen sollte, indem es mit vielen Informationen gefüttert wurde, welches Antibiotikum wann zu nehmen ist. Auch dieses System wurde als KI-System bezeichnet. Heute haben wir eine Eskalation des KI-Begriffes, wo Leute sagen, dass kann doch jeder, das ist keine KI. KI sagt man nur noch, wenn es Maschine Learning ist, d.h. wenn morgen ein anderes Ergebnis als heute herauskommt, da das System durch neue Daten oder neue Interaktionen mit den Nutzern hinzugelernt hat. Und dann gibt es Deep Learning, wenn neuronale Netze in den Lernprozess involviert sind. Das sind Verfahren, deren genaues Wirken man nicht mehr trivial nachvollziehen kann, da es Millionen oder Milliarden von Parametern gibt. Daher wirkt es wie Magie, obwohl es im Grund nur die Verarbeitung von Massendaten ist. Das ist alles IT und Rechnen, aber es bringt ganz neue Möglichkeiten, Rückschlüsse zu ziehen. Diese Verfahren gibt es seit 2007.

Harald Huber:
Ja, das stimmt – der richtige Durchbruch der neuronalen Netze kam ja gerade mit der Bilderkennung.

Carsten Kraus:
Heute sind es vor allem die vielen alltäglichen Dinge, die uns selbstverständlich vorkommen, zum Beispiel das Diktieren in ein Telefon, ohne dass man die eigene Sprache dem Telefon umfangreich antrainiert hat. Noch um die Jahrtausendwende waren Systeme weit davon entfernt, eine sprecherneutrale Sprache zu verstehen. Eine zentrale Rolle spielt die Computertechnik – so verdoppelt sich die Anzahl der Transistoren alle 18-24 Monaten. Während mein erster Computer etwa 3500 Transistoren enthielt, nutzt ein Chip heute bis zu 50 Milliarden Transistoren. Man sieht, welche ungeheuren Größenordnungen das annimmt. Vieles läuft heute hinter den Kulissen, zum Beispiel die Tatsache, dass ein Supermarkt immer genügend, aber nicht zu viele Tomaten in der Auslage hat. Das System rechnet auf Basis unterschiedlichster Parameter die Mengen und idealen Preise aus. Auch in der Steuerung von Maschinen verwertet KI Massendaten und macht diese viel effizienter, verbrauchs- und wartungsärmer.

Harald Huber:
Wenn wir uns die Nutzung von KI im Bereich Chatbots anschauen, dann geht es ja nicht nur um die Umwandlung von Sprache in Text, sondern in erster Linie um das Sprachverständnis. Wie weit sind wir denn in diesem Bereich?

Carsten Kraus:
Es gab sehr große Fortschritte bis vor etwa 2 Jahren, aktuell haben wir ein Plateau erreicht und warten auf die nächste Stufe. Es gibt beispielsweise den SQuAD-Test (Stanford Question Answering Dataset), der insgesamt 150.000 Fragen umfasst, die man alle aus Wikipedia heraus beantworten kann. Zum Beispiel die Frage „Wodurch kommt es zustande, dass der Regen fällt“ – hier wird dann auf passende Wikipedia-Artikel verwiesen und zentrale Begriffe wie „Gravitation“ besonders hervorgehoben. Maschinen konnten dabei in 51 % der Fälle korrekt Auskunft geben, Menschen erreichten knapp 90 % richtige Antworten. Das war 2016. Damals prognostizierten die Experten, dass Maschinen noch etwa 10 Jahre benötigen würden, um das menschliche Niveau zu erreichen. Aber bereits 2019 hatten sie das erreicht und stagnieren seit 2020 auf dem Niveau von 93 %. Quintessenz ist, dass Maschinen bei speziell trainierten Aufgaben inzwischen besser als der Mensch sind. Aber je allgemeiner die Aufgabe, desto mehr Schwächen weisen sie noch auf. Zum Beispiel das neue Sprachverarbeitungsmodell GPT-3. Dies enthält ca. 175 Milliarden Parameter – etwa 100 mal so viele wie sein Vorgänger – und wurde mit Texten aus dem gesamten Internet gefüttert. Die Wissensbasis ist also sehr breit gefächert. Und das System liefert in vielen Fällen das im Kontext Erwartbare. Aber ein bestimmtes Ziel vorzugeben, gestaltet sich bei GPT-3 schwieriger als bei einem speziell trainierten Chatbot.

Harald Huber:
In der Tat, GPT-3 ist ein statistisch trainiertes System, welches in der Regel das antwortet, was erwartet wird, aber ohne konkretes Ziel. Aber wie schätzen Sie demgegenüber die Funktionsweise und den Nutzen realer Chatbots ein?

Carsten Kraus:
Nun, bei Chatbots gibt es grundsätzlich zwei verschiedene Funktionsweisen. Die meisten Chatbots funktionieren nach dem Prinzip, dass Standardantworten auf Standardfragen hinterlegt sind. KI kann hierbei die Zuordnung übernehmen. Eine Frage „Wie lange dauert die Lieferung?“, die man ja versteht als „Wie lange ist die Lieferzeit?“ ist für Computer nicht direkt zuzuordnen. Das leistet KI, indem sie schaut, welche der 500 vortrainierten Antworten am ehesten passt. Oder das System meldet zurück: „Bitte formuliere nochmal anders“ oder „Das weiß ich leider nicht“. Letzteres ist häufig die Standardantwort von Alexa.
Im Unterschied dazu funktioniert GPT-3 anders. Das Konzept dahinter ist es, das jeweils nächste Wort in einer Sequenz vorhersagen zu können, wenn die vorangegangenen Wörter bekannt sind. Dazu hat GPT-3 aus einem riesigen Datenkorpus mit insgesamt etwa 49 Terabytes Texten gelernt. Google´s neuestes Sprachmodell enthält sogar 750 Terabyte an Daten. Wikipedia kommt übrigens mit 45 Gigabyte aus. Interessanter Weise schneidet GPT-3 beim SQuAD-Test mit 86 % richtiger Antworten schlechter ab als die spezialisierten Systeme.

Harald Huber:
Ich würde gerne zwei Dinge nochmal aufgreifen. Das Bild, das ich von Chatbots habe, ist wie ein großer Schrank mit vielen Schubladen und in jeder Schublade ist eine Antwort drin, und dann habe ich einen Mechanismus, der versucht, die Schublade mit der passenden Antwort zu öffnen. 

Und das macht KI. Und diese Methode benötigt im Zweifel sehr große Datenmengen, damit das funktioniert. Und der zweite Punkt, den Sie erwähnt haben, finde ich besonders spannend. KI wird gerne als Begriff genommen, als Magie. Sie haben GPT-3 als Modell X verglichen mit dem spezialisierten Modell – und GPT-3 hat schlechter abgeschnitten, obwohl es viel mehr Daten verfügbar hat. Das ist entscheidend, denn KI ist nicht KI, es gibt verschiedene Technologien, und vor allem muss ich eine Kompetenz entwickeln, die richtigen Fragen zu stellen, die richtigen Aufgabengebiete zu skizzieren.

Carsten Kraus:
Ja, es wird noch einige Zeit dauern, bis KI so viel kann, dass sie allein das Richtige auswählt. Google hat ja, wie erwähnt, den Ansatz mit dem Switch-System gewählt. Dafür haben sie 256 verschiedene Experten entwickelt, und dann gibt es einen zentralen Steuerungsmechanismus, der sagt, welcher Experte antworten soll. Im Test mit Wikipedia liegen sie damit immerhin bei 89%, etwa so gut wie der Mensch. Aber das heißt noch nicht, dass das System gleichzeitig das passende Ziel verfolgen kann, was der Mensch zusätzlich noch leistet.


Harald Huber:
Heißt das GPT-3 oder Google Switch ist das KI-Modell der Zukunft und zeigt, dass wir jetzt großartige Dinge tun können, oder sind wir mit dieser Technologie am Ende und müssen uns nach etwas Neuem umschauen?

Carsten Kraus:
Das neue Modell von Google kombiniert viele Ansätze. Allerdings haben wir hierbei das generelle Problem der exponentiell zunehmenden Größe. GPT-3 arbeitet mit 175 Milliarden Machine Learning-Parametern, 100 mal mehr als GPT-2, das Vorgängermodell. Und das Google-Modell hat wiederum fast das Zehnfache von GPT-3. D.h., man muss das Datenvolumen und den Rechenaufwand verzehnfachen, um leichte graduelle Fortschritte zu erzielen. Das wird auf Dauer – auch aufgrund der Klimaauswirkungen – nicht funktionieren. Hier benötigen wir eine neue Technik, um entscheidend weiter voranzukommen.

Harald Huber:
Mit dieser Erkenntnis sollten sich Unternehmen also bei der Einführung eines Chatbots sehr gut überlegen, welche Aufgabe dieser konkret übernehmen soll, wie viele Intents er abdecken soll, welche Lerndaten hierfür geeignet sind und mit welcher Geschwindigkeit sich die Daten ändern.

Carsten Kraus:
Tatsächlich würde ich mich nicht darauf verlassen, dass eine generelle KI das Problem in absehbarer Zeit lösen wird. Wichtig ist die Integration in andere Systeme, denn eine spezifische Frage, wann eine Lieferung kommt, wird nur beantwortet werden können, wenn der Zugriff auf die entsprechende Datenbank möglich ist. Diese Verknüpfung ist entscheidend, damit man eine gute Pragmatik hinbekommt und die Praxis-Ziele erreicht.

Harald Huber:
Vielleicht ist Pragmatik als Alternativbegriff zu Magie gar nicht schlecht... Ich würde gerne noch das Thema Machine Learning aufgreifen. Das ist schon eine neue Querschnittstechnologie und bringt auch die Anforderungen an eine neue Querschnittskompetenz mit.

Carsten Kraus:
Ja genau, man muss sich damit unternehmensweit auseinandersetzen. Alle müssen verstehen, was man damit machen kann. Es reicht auf keinen Fall, das nur an die KI-Experten oder die IT zu delegieren. Um das Potenzial und die Auswirkungen auf das Geschäftsmodell zu verstehen, muss es bei der Geschäftsleitung oder den Eigentümern auch mittelständischer Firmen zum Wissen gehören, welche Möglichkeiten sich durch diese Technologie ergeben. Der Mittelstand hat nach dem zweiten Weltkrieg großartige Innovationen hervorgebracht und Deutschland wieder zu einer der führenden Industrienationen gemacht. Wir brauchen diese visionäre Kraft auch heute für unsere Zukunft.

Harald Huber:
Es geht also um zielgerichtete Innovationen. Und dafür müssen Unternehmen auch zielgerichtet KI-Kompetenz aufbauen. Es reicht nicht, algorithmisches Wissen in die IT auszulagern, sondern das Anwendungswissen zu erlangen.

Carsten Kraus:
Ja, wir möchten damit bessere Produkte schaffen. Natürlich benötigt man auch eine bessere Lagerhaltung oder schlankere Prozesse. Aber wenn ein Unternehmen wirklich innovativ sein will, dann muss es verinnerlichen, welche Anwendungsfälle mit KI umsetzbar sind, indem es das Fachwissen mit den Möglichkeiten von KI abgleicht und verknüpft.

Harald Huber:
Vielen Dank für die spannenden Einblicke in diese Aspekte rund um KI. Eine Frage stellt sich noch, denn KI, egal welche Technologie man nutzt, benötigt Daten. Wir haben erfahren, wie viele Trillionen Datensätze für das Training nötig sind. Und ich frage mich, was passiert, wenn die Welt sich ändert. Wenn ein völlig neuer Use Case dazukommt, und das System auf Grundlage der Daten arbeitet, die es über Jahre gelernt hat. Wie schnell lässt sich das anpassen? Muss ich beispielsweise im Support über Wochen schlechte Ergebnisse akzeptieren, da mein KI-basiertes System noch nicht trainiert ist oder wie gehe ich mit einer solchen Situation um?

Carsten Kraus:
Ja, eine Qualitätsverlust über eine gewisse Zeit ist zu befürchten – ähnlich wie beim Menschen. Aber es gibt auch Transfer-Learning-Methoden, mit denen man gezielt einen Teil des KI-Gedächtnisses überschreiben kann – Daten oder Schlussfolgerungen. Das macht man zum Beispiel in der Bildbearbeitung. Das grundsätzliche Verständnis, wie man ein Objekt erkennen kann, bleibt als Systemfähigkeit erhalten. Neue Unterscheidungen im Detail werden antrainiert. Nicht vergessen: die Alternative Mensch ist auch nicht perfekt.