Um den Inhalt einer E-Mail zu analysieren und ihm Kategorien zuweisen zu können, bietet Pega verschiedene Textkategorisierungsfunktionen. Durch die Verwendung der Textkategorisierungsfunktion ist es möglich, große Datenmengen effizient zu analysieren und ihnen vordefinierte Kategorien zuzuordnen.
Dabei kann zwischen drei verschiedenen Modellen unterschieden werden.
- Stimmungserkennung (Sentiment Detection)
- Absichtserkennung (Intent Detection)
- Themenerkennung (Topic Detection)
Alle drei Modelle werden unabhängig voneinander und parallel ausgeführt und unterstützen die Kategorisierung durch maschinelles Lernen. Topic Detection unterstützt zusätzlich noch Keyword-basierte Text Kategorisierung.
Bei der Keyword-basierten Text Kategorisierung wird der Text gescannt und nach themenspezifischen Schlüsselwörtern durchsucht. Anhand der erkannten Schlüsselworte ordnet die Kategorisierung den Text einem entsprechenden Topic zu. Diese Kategorisierung wird verwendet, wenn das Modell für maschinelles Lernen noch nicht vollständig entwickelt worden ist und keine zufriedenstellenden Ergebnisse liefert.
Bei der Text Kategorisierung mittels maschinellen Lernens lernt das Modell selbst den Text zu kategorisieren, indem es frühere Textklassifikationen analysiert. Durch die Klassifizierung der Texte können verschiedenen Muster für die Themenerkennung identifiziert werden. Um die Genauigkeit der Themenerkennung in Produktionsumgebungen zu verbessern, kann den maschinellen Lernmodellen auch Feedback gegeben werden. Die Anwendung der Themenerkennung durch maschinelles Lernen ist besonders sinnvoll, wenn Zugang zu früheren Kundennachrichten und den entsprechenden Kategorien besteht oder wenn relevante Trainingsdaten dem maschinellen Lernmodell zur Verfügung gestellt werden können.
Sentiment Detection
Bei der Stimmungserkennung (Sentiment Detection) geht es um die Erkennung der Charakteristik des zu analysierenden Textes. Durch den Einsatz von Methoden des maschinellen Lernens und der Verarbeitung natürlicher Sprache kann ein E-Mail-Bot negative Emotionen in einer E-Mail erkennen. Diesem analysierten Text werden dann Kategorien wie positiv, neutral oder negativ zugewiesen. Dadurch wird eine effiziente und zeitnahe Reaktion auf kritische Anliegen ermöglicht.
Intent Detection
Das zweite Modell ist die Absichtserkennung (Intent Detection). Hierbei geht es um die Ermittlung der Absichten des zu analysierenden Textes. Dabei soll der Zweck des Textes bzw. die Absicht des Verfassers erkannt werden. Durch die Erkennung der Absicht hinter einer Texteinheit ermöglicht dieses Verfahren eine präzisere Interpretation der Nutzerkommunikation und unterstützt effektive Reaktionen und Maßnahmen seitens des Unternehmens.
Topic Detection
Themenerkennung (Topic Detection) befasst sich mit der Identifizierung des übergeordneten Themas einer einzelnen Texteinheit oder eines gesamten Dokuments, um eine eingehende Kundenanfrage effizient zu verarbeiten und entsprechende Aktionen einzuleiten. So können zum Beispiel Anfragen bezüglich Supports oder Service erkannt und eine entsprechende Aktion eingeleitet werden. Dies ermöglicht eine verbesserte Servicequalität und eine reibungslose Kundeninteraktion.
In der Topic Detection stehen drei Algorithmen zur Auswahl, die beim Erstellen eines Modells verwendet werden können. Standardmäßig wird das Modell mit allen Algorithmen gebaut, aber nach dem Bauen kann sich für einen Algorithmus entschieden werden, idealerweise basierend auf dem höchsten F-Score. (Der F-Score ist ein gewichtetes Maß und sagt aus, wie leistungsfähig ein Modell ist)
Maximum Entropy
Das Maximum-Entropy-Modell (MaxEnt) basiert auf dem Prinzip der maximalen Entropie und ermöglicht die Schätzung von Wahrscheinlichkeiten basierend auf gegebenen Einschränkungen. Es optimiert die bedingte Entropie, um robuste und vielseitige Vorhersagen zu ermöglichen. Das Modell verwendet Merkmalsfunktionen, die durch einen Lagrange-Multiplikator gewichtet werden.
Naive Bayes
Naive Bayes ist ein probabilistisches Modell, das auf dem Bayes-Theorem beruht. Es geht von der Annahme aus, dass alle Variablen unabhängig voneinander sind. Der Algorithmus ist effizient im Training und verwendet die Prior Probability sowie die Wahrscheinlichkeit von Wörtern in einer E-Mail, um die Wahrscheinlichkeit für eine Detailkategorie zu berechnen.
Support Vector Machine (SVM)
SVM ist ein linearer Klassifikator, der eine Hyperebene sucht, um Datenpunkte optimal zu trennen. Es kann auch nichtlineare Entscheidungsgrenzen durch den Einsatz von Kernels handhaben. Multiklassen-SVM kann mit den Ansätzen One-vs-Rest oder One-against-One erweitert werden, wobei die Wahl vom Datensatz und den spezifischen Anforderungen abhängt.
Die Wahl des besten Algorithmus sollte durch die Anforderungen des Problems, die Größe des Datensatzes und die gewünschte Klassifizierungsgenauigkeit beeinflusst werden. Jeder Algorithmus hat seine Stärken und Schwächen, und die sorgfältige Abwägung dieser Faktoren ist entscheidend für die Auswahl des optimalen Ansatzes.
Anlernen
Um präzise Prognosen von den Machine-Learning-Modellen in Pega zu erzielen, ist es entscheidend, die Trainingsdaten sorgfältig aufzubereiten. Für die Topic Detection-Modelle werden CSV-, XLS- oder XLSX-Dateiformate, die bestimmte Kriterien erfüllen müssen, genutzt.
Das Topic Detection Model benötigt eine Datei mit drei Spalten: "Content", "Result" und "Type". Die Spalte "Content" enthält die E-Mail-Daten, während die Spalte "Result" das gewünschte Ergebnis oder Topic angibt. In diesem Fall beginnt das Topic mit dem Wort "Action", gefolgt von der Detailkategorie, die durch einen Bindestrich anstelle eines Unterstrichs gekennzeichnet ist. Die Spalte "Type" gibt an, ob es sich um Trainings- oder Testdaten handelt.
Content |
Result |
Type |
[E-Mail oder Text] |
Action > [DetailCategory] |
|
|
|
|
Feinheiten beim Training und Modellauswahl
Beim Training der Modelle kann entschieden werden, ob bestehende Daten überschrieben oder ergänzt werden sollen. Es ist möglich, Daten aus verschiedenen Quellen zu integrieren, wie zum Beispiel durch den Channel bereitgestellte Informationen. Der Anteil der Trainings- und Testdaten kann ebenfalls festgelegt werden, wobei standardmäßig 70 % der Daten für das Training und 30 % für Tests verwendet werden.
Für das Topic-Modell stehen drei verschiedene Algorithmen zur Auswahl: Maximum Entropy, Naive Bayes und Support Vector Machine. Alle drei Modelle können gleichzeitig erstellt werden, und die Auswahl erfolgt basierend auf dem höchsten F-Score, der die Leistung des Modells repräsentiert.
Die präzise Strukturierung und Vorbereitung der Trainingsdaten spielt eine entscheidende Rolle für den Erfolg der Machine-Learning-Modelle in Pega. Durch die Berücksichtigung der spezifischen Anforderungen jedes Modells wird eine optimale Leistung und Genauigkeit bei der Vorhersage gewährleistet.