Com­pu­ter, bit­te über­neh­men Sie!

Seit 20 Jah­ren befas­sen uns mit der Idee, dass Soft­ware ver­ste­hen kön­nen soll, was ein Kun­de will. Unse­re ers­ten Ver­su­che , das Kate­go­ri­sie­ren von Kun­den­an­lie­gen mit Hil­fe von künst­li­cher Intel­li­genz zu auto­ma­ti­sie­ren, waren ernüch­ternd. Die Klas­si­fi­zie­rungs­fä­hig­kei­ten der ver­füg­ba­ren Algo­rith­men waren unge­nü­gend und die benö­tig­ten Rechen­res­sour­cen zu hoch, um Künst­li­che Intel­li­genz (KI) pro­duk­tiv einzusetzen.

Mit der Wei­ter­ent­wick­lung der Tech­no­lo­gie und der heu­te zur Ver­fü­gung ste­hen­den Rechen­power war es an der Zeit, die­sen Ver­such zu wie­der­ho­len und aus­zu­pro­bie­ren, ob mit Hil­fe von Machi­ne Lear­ning (ML) die Auf­ga­be der Zuord­nung von unstruk­tu­rier­ten Kun­den­tex­ten zu Kate­go­rien auto­ma­ti­siert wer­den kann.

Wäh­rend wir in unse­rem ers­ten Arti­kel zu KI und ML die all­ge­mei­ne Ent­wick­lung und Ein­satz­mög­lich­kei­ten dar­ge­stellt haben, beschrei­ben wir in die­sem Bei­trag unse­re aktu­el­len Ansät­ze, wie die Auf­ga­be „Kate­go­ri­sie­ren“ durch den Com­pu­ter unter­stützt bzw. über­nom­men wer­den kann. Bevor wir aller­dings auf unse­re kon­kre­ten Expe­ri­men­te ein­ge­hen, möch­ten wir vor­ab dar­stel­len, wel­che Bedeu­tung das Kate­go­ri­sie­ren von Sach­ver­hal­ten im Kon­text „Kun­den­ser­vice“ hat.

War­um Kategorienbildung?

In jedem Augen­blick, in jeder Kon­fron­ta­ti­on, suchen wir instink­tiv nach Wegen, unse­re Umwelt zu struk­tu­rie­ren, zu durch­schau­en oder zumin­dest einen Über­blick über sie zu gewin­nen. Hier­bei hel­fen uns Model­le, die die Kom­ple­xi­tät redu­zie­ren, indem sie einen Teil der Wirk­lich­keit aus­blen­den oder ver­drän­gen und uns so erlau­ben, dass wir uns auf das Wesent­li­che kon­zen­trie­ren. Erst mit Hil­fe die­ser Model­le, die Sim­pli­fi­zie­run­gen der Rea­li­tät sind, sind wir in der Lage, in einer an sich chao­ti­schen Umwelt sinn­vol­le Ent­schei­dun­gen zu treffen.

Das fun­da­men­tals­te Modell, zu dem das mensch­li­che Den­ken fähig ist, ist dabei die Kate­go­ri­sie­rung oder Kate­go­rien­bil­dung, bei der Objek­te und Situa­tio­nen in Grup­pen, Unter­grup­pen oder Begriffs­klas­sen ein­ge­teilt wer­den. Im Gegen­satz zum blo­ßen Spei­chern von ein­zel­nen Erfah­rungs­in­hal­ten geht dem Kate­go­ri­sie­ren ein Denk­pro­zess vor­aus, der die Ähn­lich­keit von Objek­ten und Situa­tio­nen unter­sucht und bewer­tet. Durch die Kate­go­ri­sie­rungs­fä­hig­keit unse­rer Gehir­ne errei­chen wir eine grö­ße­re Ver­hal­tens­fle­xi­bi­li­tät bei gleich­zei­ti­ger zeit­öko­no­mi­scher Ver­bes­se­rung des Ent­schei­dungs­pro­zes­ses.

Was folgt dar­aus für Ihr Unter­neh­men: Das orga­ni­sa­tio­na­le Urteils­ver­mö­gen, die Fähig­keit, schnell, zuver­läs­sig und wie­der­hol­ba­re Ent­schei­dun­gen zu tref­fen, wird befä­higt (und begrenzt) durch die Denk­mo­del­le, die – bewusst oder unbe­wusst – in Ihrem Unter­neh­men vor­herr­schen. Vor die­sem Hin­ter­grund ist das zuver­läs­si­ge Kate­go­ri­sie­ren essen­ti­ell, um opti­ma­le Ent­schei­dun­gen in Ihrem Unter­neh­men tref­fen zu kön­nen. Mit die­sem Wis­sen ergibt sich die her­aus­for­dern­de Auf­ga­be, ein Kate­go­rien­sys­tem für Ihr Unter­neh­men mit Bedacht und Weit­sicht zu ent­wi­ckeln und anzuwenden.

Die Not­wen­dig­keit eines sol­chen umfas­sen­den Kate­go­rien­sys­tems ergibt sich ins­be­son­de­re im Kun­den­ser­vice, da hier in beson­de­rem Maße unstruk­tu­rier­te Infor­ma­tio­nen aus einer Viel­zahl von unter­schied­li­chen Quel­len zusam­men­lau­fen und ver­ar­bei­tet wer­den müs­sen. Ein „ener­gie­spa­ren­des“ Ent­schei­den ist nur mög­lich, wenn das Zuord­nen zu Kate­go­rien schnell, ein­fach und zuver­läs­sig erfol­gen kann.

Anfor­de­run­gen an ein Kategorisierungssystem

An das im Kun­den­ser­vice ein­ge­setz­te Kate­go­rien­sys­tem erge­ben sich damit fol­gen­de Anfor­de­run­gen: Das Kate­go­rien­sys­tem, also das Set an Merk­ma­len muss benenn­bar und mini­mal hin­rei­chend sein, also mög­lichst weni­ge Merk­ma­le ent­hal­ten und den­noch aus­rei­chend umfang­reich sein, um alle Sach­ver­hal­te, mit denen der Kun­den­ser­vice kon­fron­tiert wird, zu beschreiben.

Das Kate­go­rien­sys­tem muss sicher­stel­len, dass die rele­van­ten Hand­lungs­fel­der aus­rei­chend reprä­sen­tiert sind, um so eine hin­rei­chen­de Infor­ma­ti­ons­grund­la­ge für Ent­schei­dun­gen der Geschäfts­lei­tung zu ermög­li­chen. Am Bei­spiel einer Air­line bedeu­tet dies kon­kret, dass der Kun­den­ser­vice aus­kunfts­fä­hig sein muss zu den „gro­ßen“ The­men: Wie vie­le Flug­gäs­te haben sich bezüg­lich einer Flug­ver­spä­tung beschwert? Wie vie­le Gäs­te haben einen Kof­fer­scha­den erlit­ten und wie vie­le Anfra­gen zu Umbu­chun­gen muss­ten bear­bei­tet werden?

Dar­über hin­aus muss das Kate­go­rien­sys­tem es eben­falls ermög­li­chen, „klei­ne­re“ The­men ange­mes­sen abzu­bil­den. Bei die­sen Kate­go­rien geht es weni­ger dar­um, die rei­ne Anzahl der betrof­fe­nen Kun­den und Vor­gän­ge zu ermit­teln, als viel­mehr aus der Men­ge der Vor­gän­ge ohne gro­ßen Auf­wand die­je­ni­gen Vor­gän­ge zu iden­ti­fi­zie­ren, an denen ein­zel­ne Sta­ke­hol­der ein beson­de­res Inter­es­se haben.

Schließ­lich muss das Kate­go­rien­sys­tem es eben­so ermög­li­chen, die Vor­gän­ge zu kenn­zeich­nen, zu denen Unter­neh­men auf­grund gesetz­li­cher Vor­schrif­ten ver­pflich­tet sind, geson­dert Aus­kunft zu geben. So for­dert etwa die kana­di­sche Luft­auf­sichts­be­hör­de, dass Air­lines Aus­kunft über die Anzahl von Beschwer­den mit Musik­in­stru­men­ten geben. Hin­ter­grund für die­se kurio­se Anfor­de­rung ist wohl der Vor­fall, bei dem der kana­di­sche Musi­kers David Car­roll die Zer­stö­rung sei­ner Gitar­re wäh­rend einer Flug­rei­se mit United Air­lines selbst mit anse­hen musste.

Auch wenn das Kate­go­ri­sie­ren pri­mär den Infor­ma­ti­ons­in­ter­es­sen der Ent­schei­dungs­trä­ger im Unter­neh­men dient, ist ein durch­dach­tes und gut struk­tu­rier­tes Kate­go­rien­sys­tem eben­falls hilf­reich für den Mit­ar­bei­ter im Kun­den­ser­vice, der die Auf­ga­be des Kate­go­ri­sie­rens von Vor­gän­gen hat. Beim Reflek­tie­ren über die rich­ti­ge Zuord­nung eines Vor­gangs zu einer Kate­go­rie, ver­schafft sich der Mit­ar­bei­ter für sich selbst Klar­heit und Ver­ständ­nis über den Vor­gang. Die­ses „Durch­den­ken“ erleich­tert dem Mit­ar­bei­ter die Bear­bei­tung des Vor­gangs und unter­stützt das Tref­fen von ange­mes­se­nen Ent­schei­dun­gen. Zusätz­lich kann der Mit­ar­bei­ter nach Fest­stel­len der Kate­go­rie in der Vor­gangs­be­ar­bei­tung durch tar­ge­nio ent­las­tet wer­den, indem tar­ge­nio den Mit­ar­bei­ter etwa auf ähn­li­che Bear­bei­tun­gen hin­weist, rele­van­te Infor­ma­tio­nen zur aus­ge­wähl­ten Kate­go­rie anzeigt oder pas­sen­de Text­bau­stei­ne für das Beant­wor­ten eines Vor­gangs vorschlägt.

Kate­go­rien­sys­tem im Kundenservice

Der Wert eines Kate­go­rien­sys­tems ergibt sich aus der Nütz­lich­keit der Infor­ma­tio­nen, die mit Hil­fe der Kate­go­rien codiert wer­den. Allein hier­aus ergibt sich, dass es kei­ne all­ge­mein­gül­ti­gen Aus­sa­gen für den Auf­bau eines Kate­go­rien­sys­tems geben kann. Aller­dings haben wir durch die jah­re­lan­ge Beschäf­ti­gung mit dem The­ma „Kun­den­ser­vice“ Erfah­run­gen gesam­melt, wie ein Kate­go­rien­sys­tem auf­ge­baut und ent­wi­ckelt wer­den soll­te, die wir hier ger­ne teilen:

„Ex ante“ oder „Ex post“

Zunächst stellt sich die Fra­ge, was und wann kate­go­ri­siert wer­den soll. Grob ver­ein­facht fin­den wir fol­gen­den typi­schen Ablauf im Kundenservice:

  • Input: Der Kun­de rich­tet sein Anlie­gen an den Kun­den­ser­vice per E‑Mail, über ein Kon­takt­for­mu­lar oder per Telefon.
  • Pro­ces­sing: Ein Kun­den­ser­vice­mit­ar­bei­ter ver­sucht das Anlie­gen des Kun­den zu ver­ste­hen, prüft und vali­diert die Anga­ben des Kun­den, wägt ab und trifft dann eine Entscheidung.
  • Out­put: Anschlie­ßend führt der Mit­ar­bei­ter die getrof­fe­ne Ent­schei­dung aus, wählt bei­spiels­wei­se eine Lösung und infor­miert den Kunden.

Übli­cher­wei­se ver­bes­sert sich Art, Qua­li­tät und Umfang der Infor­ma­tio­nen, je wei­ter eine Bear­bei­tung vor­an­schrei­tet. Ist die Bear­bei­tung abge­schlos­sen, die Ent­schei­dun­gen voll­zo­gen und vom Kun­den akzep­tiert, wer­den die bis dahin flu­iden Infor­ma­tio­nen fix. Dar­aus könn­te abge­lei­tet wer­den, dass eine Kate­go­ri­sie­rung erst nach der Bear­bei­tung – also ex post – erfol­gen sollte.

Tat­säch­lich ist es aber so, dass sehr häu­fig bereits am Beginn einer Bear­bei­tung eine Kate­go­ri­sie­rung erfolgt und die­se meis­tens nur auf Basis der vom Kun­den über­mit­tel­ten Infor­ma­tio­nen. Das frü­he Kate­go­ri­sie­ren wird sofort ver­ständ­lich, wenn man bedenkt, wel­chen Infor­ma­ti­ons­bei­trag der Kun­den­ser­vice inner­halb eines Unter­neh­mens leis­ten kann: Der Kun­den­ser­vice macht die Stim­me des Kun­den für das Unter­neh­men sicht­bar. Durch die Beset­zung der Schnitt­stel­le Kun­de zu Unter­neh­men bringt der Kun­den­ser­vice die Kun­den­welt in den Ent­schei­dungs­kos­mos des Unter­neh­mens ein.

Zur Ver­deut­li­chung ein anschau­li­ches Bei­spiel aus der Air­line Bran­che: Ob ein Flug­zeug ver­spä­tet ist und den Pas­sa­gie­ren Ansprü­che auf Aus­gleichs­zah­lun­gen nach Flug­gast­rech­te-Ver­ord­nung zuste­hen, weiß eine Air­line meist schon bevor das Flug­zeug über­haupt gelan­det ist. Die­se Infor­ma­tio­nen erge­ben sich aus den ope­ra­ti­ven Sys­te­men (z.B. Flug­in­for­ma­ti­ons­sys­tem). Der Impact der Ver­spä­tung auf die Pas­sa­gie­re, die Wahr­neh­mung der Pas­sa­gie­re zum Han­deln der Air­line bei der Ver­spä­tung und ihre Reak­tio­nen dar­auf – die­se Infor­ma­tio­nen besitzt der Kun­den­ser­vice exklusiv.

Hin­zu kommt, dass eine „frü­he“ Kate­go­ri­sie­rung zu einer Ver­sach­li­chung der Bear­bei­tung im Kun­den­ser­vice führt. Durch die Kate­go­rien wer­den die Emo­tio­nen aus der Kun­den­äu­ße­rung sub­tra­hiert, so dass eine fak­ten­ba­sier­te, ratio­na­le Ent­schei­dung mög­lich wird. Zusätz­lich lässt sich nach dem Zuord­nen der Kun­den­ar­ti­ku­la­ti­on zu Kate­go­rien die Fall­be­ar­bei­tung leicht durch IT unterstützen.

Auf­grund die­ser Über­le­gun­gen erfolgt das Kate­go­ri­sie­ren regel­mä­ßig ex ante – also am Anfang der Fall­be­ar­bei­tung; Gegen­stand der Kate­go­ri­sie­rung ist dabei die Äuße­rung des Kunden.

(An die­ser Stel­le soll nicht uner­wähnt blei­ben, dass es häu­fig auch am Ende der Bear­bei­tung noch Kate­go­ri­sie­run­gen vor­ge­nom­men wer­den. Hier wird dann fest­ge­hal­ten, ob das Anlie­gen des Kun­den berech­tigt war, gelöst wer­den konn­te oder wel­che Orga­ni­sa­ti­ons­ein­heit als Pro­blem­ver­ant­wort­li­cher im iden­ti­fi­ziert wer­den konn­te. Die­se Infor­ma­tio­nen wer­den für Qua­li­täts­si­che­run­gen oder Root cau­se ana­ly­sis benö­tigt. Das Kate­go­ri­sie­ren von Pro­ble­m­ur­sa­chen bleibt einem eige­nen Bei­trag vorbehalten).

Ent­wick­lung eines Kate­go­rien­sys­tems für den Kundenservice

Nach­dem nun fest­steht, wel­che Infor­ma­tio­nen über­haupt kate­go­ri­siert wer­den sol­len, stellt sich die Fra­ge, wie ein sinn­vol­les und nütz­li­ches Kate­go­rien­sys­tem ent­wi­ckelt wer­den kann. In der Theo­rie wer­den induk­ti­ve und deduk­ti­ve Metho­den zur Kate­go­rien­bil­dung beschrie­ben – in der Pra­xis zeigt sich jedoch, dass kei­ne der Metho­den und Ablauf­mo­del­le streng zur Anwen­dung kom­men. Die­ses undog­ma­ti­sche Vor­ge­hen ist nach­voll­zieh­bar, da jedes Kate­go­rien­sys­tem im Unter­neh­men das Ergeb­nis von Ver­hand­lun­gen ist, bei dem wider­strei­ten­de Inter­es­sen aus­ge­gli­chen wer­den müssen.

Zum einem erfor­dern die oben skiz­zier­ten Inter­es­sen („gro­ße“ und „klei­ne“ The­men, Erfül­lung gesetz­li­cher Anfor­de­rung), dass Infor­ma­tio­nen mit unter­schied­li­cher Gra­nu­la­ri­tät zu Kate­go­rien ver­dich­tet und zusam­men­ge­fasst wer­den. Zum ande­ren bewer­ten die ver­schie­de­nen Sta­ke­hol­der im Unter­neh­men die Nütz­lich­keit der Aggre­ga­tio­nen unter­schied­lich. Zum Bei­spiel: Wenn es für das Bear­bei­ten eines Kun­den­an­lie­gens im Kun­den­ser­vice kei­nen Unter­schied macht, ob der Kun­de das Pro­dukt A oder B gekauft hat – weil die Bear­bei­tung bei bei­den Pro­duk­ten iden­tisch abläuft, so macht es für die Pro­dukt­ma­na­ger von A und B doch einen erheb­li­chen Unter­schied, ob „ihr“ Pro­dukt Gegen­stand eines Kun­den­an­lie­gens ist.

Hin­zu kom­men wei­te­re Aspek­te: Der Kun­den­ser­vice benö­tigt ein Kate­go­rien­sys­tem, das schnell, ein­fach und zuver­läs­sig das Kate­go­ri­sie­ren der ver­schie­de­nen Kun­den­an­lie­gen erlaubt. Da die Kate­go­rien aus der Kun­den­ar­ti­ku­la­ti­on abge­lei­tet wer­den müs­sen, ist es ein­fa­cher ein Sys­tem zu nut­zen, das aus Kun­den­per­spek­ti­ve her­aus auf­ge­baut ist. Ein ande­res Inter­es­se hat unter Umstän­den das Manage­ment, das die Kun­den­an­lie­gen aus Sicht der Auf­bau- oder Ablauf­or­ga­ni­sa­ti­on kate­go­ri­siert haben möchte.

Ein Kate­go­rien­sys­tem im Kun­den­ser­vice ist ein Kom­pro­miss: Ein Kate­go­rien­sys­tem, dass die „Order to Cash“ Ket­te abbil­det oder ent­lang einer Cus­to­mer Jour­ney ori­en­tiert, hat sich nach unse­rer Wahr­neh­mung bewährt. Ein sol­ches Sys­tem lässt sich leicht erler­nen (wich­tig für den Kun­den­ser­vice) und jeder Sta­ke­hol­der fin­det sich aus­rei­chend repräsentiert.

Dane­ben hat sich bewährt, die Sicht der Kun­den mit der Wert­schöp­fungs­ket­te des Unter­neh­mens zu „kreu­zen“. So las­sen sich die Kun­den­per­spek­ti­ve und die Unter­neh­mens­sicht zur Deckung bringen.

Struk­tur eines Kate­go­rien­sys­tems im Kundenservice

Für tar­ge­nio haben wir für das Kate­go­ri­sie­ren von Kun­den­an­lie­gen – ins­be­son­de­re für das Beschwer­de- und Rekla­ma­ti­ons­ma­nage­ment – eine Metho­dik ent­wi­ckelt, die den oben genann­ten Aspek­ten aus­rei­chend Rech­nung trägt und sich in der Pra­xis bewährt hat: Für das Kate­go­ri­sie­ren sehen wir einen mehr­stu­fi­gen Baum vor, der in vier Enti­tä­ten grup­piert ist:

  • Art des Kundenanliegens
  • Ort des Problemauftritts
  • Bezugs­be­reich
  • Kun­den­ar­ti­ku­la­ti­on

Jede Enti­tät kann wie­der­um meh­re­re Ebe­nen haben, damit auch umfang­rei­che Kate­go­rien­sys­te­me abge­bil­det wer­den kön­nen. „Art des Kun­den­an­lie­gens“, „Bezugs­be­reich“ und „Kun­den­ar­ti­ku­la­ti­on“ sowie die ein­zel­nen Ebe­nen sind mit­ein­an­der ver­ket­tet, so dass aus­ge­hend von einem Blat­tele­ment alle vor­her­ge­hen­den Kno­ten rekur­siv ermit­telt wer­den kön­nen. tar­ge­nio ermög­licht es, eine Kun­den­ar­ti­ku­la­ti­on meh­re­ren Kate­go­rien zuzu­ord­nen. Dies ver­ein­facht die Pfle­ge und Hand­ha­bung des Kate­go­rien­sys­tems und berück­sich­tigt, dass Kun­den in ihrer Nach­richt meh­re­re The­men an den Kun­den­ser­vice adres­sie­ren können.

Bei „Art des Kun­den­an­lie­gens“ wird der Wunsch, das Ersu­chen oder Antrag des Kun­den erfasst. Im Beschwer­de­ma­nage­ment sind dies die klas­si­schen Anlie­gen­ar­ten: „Beschwer­de“, „Wie­der­ho­lungs­be­schwer­de“ und „Fol­ge­be­schwer­de“. In ande­rem Kon­text kön­nen dies bei­spiels­wei­se die Anlie­gen „Anfra­ge“, „Bestel­lung“ oder „Lob“ sein.

Beim „Ort des Pro­blem­auf­tritts“ wählt der tar­ge­nio Anwen­der die Orga­ni­sa­ti­ons­ein­heit aus, die vom Anlie­gen des Kun­den betrof­fen ist. Die­se Enti­tät ist optio­nal, emp­fiehlt sich aber bei Flä­chen­or­ga­ni­sa­tio­nen bzw. Dienst­leis­tungs­un­ter­neh­men, wenn Zuord­nun­gen von Anlie­gen zu Kun­den-Touch­points rele­vant sind. Alter­na­tiv kann an die­ser Stel­le ein kon­kre­tes Pro­dukt oder eine Dienst­leis­tung ange­ge­ben werden.

Der „Bezugs­be­reich“ reprä­sen­tiert die Wert­ket­te des Unter­neh­mens und kenn­zeich­net die kon­kre­te Akti­vi­tät, auf die sich das Kun­den­an­lie­gen bezieht. Gera­de hier emp­fiehlt sich eine Nach­bil­dung der Tätig­kei­ten in der Rei­hen­fol­ge „Order to Cash“, da dies die Ver­or­tung im Kun­den­ser­vice erheb­lich vereinfacht.

Nach dem „Bezugs­be­reich“ wird die Kate­go­ri­sie­rung mit der Erfas­sung der „Kun­den­ar­ti­ku­la­ti­on“ abge­schlos­sen. Hier wird das Kon­den­sat des Kun­den­feed­backs in kon­kre­ten Kate­go­rien dokumentiert.

Kategorisierung eines Fluges mit targenio bei einer Airline
Kate­go­ri­sie­rung eines Flu­ges mit tar­ge­nio bei einer Airline

Die­se Struk­tur erlaubt eine schnel­le und ein­fa­che Zuord­nung von Kun­den­feed­back und berück­sich­tigt die Aus­wer­tungs- und Infor­ma­ti­ons­in­ter­es­sen der ver­schie­de­nen Sta­ke­hol­der im Unternehmen.

Anwen­dung des Kategoriensystems

Nach­dem das Kate­go­rien­sys­tem ent­wi­ckelt wor­den ist, bleibt die her­aus­for­dern­de Auf­ga­be, das Kate­go­rien­sys­tem auch in der täg­li­chen Pra­xis anzu­wen­den. Selbst wenn Kun­den ihr Anlie­gen unter­schied­lich arti­ku­lie­ren, sol­len Sach­ver­hal­te durch die Mit­ar­bei­ter im Kun­den­ser­vice ein­heit­lich und neu­tral kate­go­ri­siert wer­den. Hier­bei hel­fen Anker­bei­spie­le und aus­führ­li­che Kodier­re­geln, die zu einem Kodier­leit­fa­den zusam­men­ge­fasst wer­den. Mit Hil­fe von Stich­pro­ben­aus­wer­tun­gen und qua­li­ta­ti­ven Ana­ly­sen muss die Genau­ig­keit bzw. Ver­läss­lich­keit der Kate­go­ri­sie­rung durch die Mit­ar­bei­ter im Kun­den­ser­vice kon­ti­nu­ier­lich über­wacht wer­den. Durch Schu­lun­gen und Anpas­sun­gen des Kate­go­rien­sys­tems sind stän­di­ge Nach­jus­tie­run­gen notwendig.

Um den Kun­den­ser­vice beim Kate­go­ri­sie­ren von Kun­den­sach­ver­hal­ten zu unter­stüt­zen und gleich­zei­tig wei­te­re Auto­ma­ti­sie­rungs­po­ten­tia­le zu rea­li­sie­ren, beschäf­ti­gen wir uns inten­siv mit Machi­ne Lear­ning. Die Über­le­gun­gen dabei sind, dass die arti­ku­lier­ten Kun­den­an­lie­gen mit Hil­fe von künst­li­cher Intel­li­genz ana­ly­siert wer­den und mit­tels trai­nier­ter Algo­rith­men dem defi­nier­ten Kate­go­rien­sys­tem zuge­ord­net werden.

Wel­che Erfah­run­gen wir hier­zu gemacht haben, wer­den im fol­gen­den Kapi­tel dargestellt.

For­schungs­fra­ge und Versuchsaufbau

Damit wir beim Expe­ri­men­tie­ren mit Machi­ne Lear­ning fokus­siert blei­ben und aus­sa­ge­kräf­ti­ge Ergeb­nis­se erar­bei­ten, haben wir zunächst eine kon­kre­te For­schungs­fra­ge for­mu­liert. Die­se dien­te uns wäh­rend unse­res For­schungs­pro­jekts als Leit­fa­den und als Grad­mes­ser für Erfolg und Misserfolg.

Fol­gen­de For­schungs­fra­ge haben wir for­mu­liert: In wel­cher Qua­li­tät las­sen sich Kun­den­schrei­ben mit Hil­fe mit­hil­fe von über­wach­tem Maschi­nel­lem Ler­nen kategorisieren?

Aus­gangs­punkt unse­res Ver­suchs­auf­baus sind Schrei­ben von Flug­gäs­ten, die an den Kun­den­ser­vice einer unse­rer Air­line-Kun­den gerich­tet wor­den sind. Die­se Tex­te wer­den von Kun­den über ein Kon­takt­for­mu­lar im Inter­net ein­ge­ge­ben. Zusätz­lich wählt der Kun­de aus einer Lis­te aus, wel­ches Anlie­gen er hat (zum Bei­spiel „Flugs­tor­nie­rung“ oder „Über­bu­chung / Nicht­be­för­de­rung“). Der Text sowie die getrof­fe­ne Aus­wahl wer­den in unse­rer Kun­den­ser­vice­an­wen­dung tar­ge­nio über­nom­men und an einen zustän­di­gen Sach­be­ar­bei­ter gelei­tet. Ein Mit­ar­bei­ter liest den Sach­ver­halt und kate­go­ri­siert das Anlie­gen im Kate­go­rien­sys­tem von tar­ge­nio, das in Sum­me cir­ca 230 Aus­prä­gun­gen hat – bestehend aus Anlie­gen­art, zwei Ebe­nen Bezugs­be­reich und zwei Ebe­nen Artikulation.

Damit lie­gen also zwei auf­ein­an­der bezo­ge­ne Enti­tä­ten vor: Zum einen der unstruk­tu­rier­te Kun­den­text, in dem der Kun­den sein Anlie­gen arti­ku­liert hat, zum ande­ren die durch einen Sach­be­ar­bei­ter vor­ge­nom­me­ne Klas­si­fi­zie­rung die­ses Tex­tes. Der Sach­be­ar­bei­ter hat also auf­grund sei­ner Erfah­run­gen und sei­nes Exper­ten­wis­sens den unstruk­tu­rier­ten Text in ein struk­tu­rier­tes Sys­tem überführt.

Auf Auf­ga­ben­stel­lun­gen die­ser Art wird bei KI-Sys­te­men übli­cher­wei­se über­wach­tes Maschi­nel­les Ler­nen ange­wandt. Durch das Trai­nie­ren der KI „lernt“ die die Maschi­ne, die Gesetz­mä­ßig­kei­ten nach­zu­bil­den und das Exper­ten­wis­sen auf­zu­bau­en, so dass die KI die­ses Wis­sen auch auf unbe­kann­te Tex­te anwen­den und eine pas­sen­de Kate­go­ri­sie­rung fin­den kann.

Beim Machi­ne Lear­ning spricht man dabei von Fea­tures (hier: Kun­den­tex­te) und Labels (Kate­go­ri­sie­rung). Dem Machi­ne Lear­ning Algo­rith­mus wer­den beim Trai­ning Paa­re aus Fea­tures and Labels “gezeigt” und der Algo­rith­mus erlernt das zugrun­de lie­gen­de Map­ping. Er lernt also die Kate­go­rien, die in den Tex­ten ste­cken, zu gene­ra­li­sie­ren und nutz­bar zu machen. Die­ses gene­ra­li­sier­te Map­ping von Fea­ture auf Label ist dann die eigent­li­che KI. Die Men­ge an Fea­ture-Label Paa­ren, die einem ML Algo­rith­mus zur Ver­fü­gung gestellt wer­den, um davon zu ler­nen, wer­den Lern­da­ten genannt. Nach dem Trai­ning kann die KI auf neue, unge­se­he­ne Fea­tures ange­wandt wer­den und ermit­telt so das pas­sen­de Label.

Lern­da­ten bereitstellen

Das Bereit­stel­len von Lern­da­ten für das ML Modell durch­lief meh­re­re Arbeits­schrit­te: Zunächst haben wir fest­ge­legt, mit wel­chen Daten wir den Algo­rith­mus trai­nie­ren wol­len. Um bereits in den Lern­da­ten mög­lichst wenig „Rau­schen“ zu haben, wur­den Kun­den­tex­te extra­hiert, die von Flug­gäs­ten in deut­scher Spra­che ver­fasst wor­den sind und durch die Sach­be­ar­bei­ter ledig­lich mit einer Kate­go­rie klas­si­fi­ziert wor­den sind (mono­the­ma­ti­sche Kundenanliegen).

Nach Prü­fung, ob für ver­schie­de­ne Ver­suchs­rei­hen eine aus­rei­chend gro­ße Anzahl von Daten vor­han­den ist, wur­den die Daten in der Daten­bank selek­tiert und anony­mi­siert und um schüt­zens­wer­te Kun­den- und Mit­ar­bei­ter­da­ten berei­nigt. Eben­so wur­den inter­ne Bear­bei­tungs­ver­mer­ke gelöscht, um für das Trai­ning mög­lichst unver­fälsch­te Daten zu erhal­ten. Anschlie­ßend wur­den die Daten aus der Daten­bank im CSV-For­mat expor­tiert und an einem siche­ren Spei­cher­ort für das Trai­ning der ML-Model­le bereitgestellt.

Das Kun­den­feed­back vor verarbeiten

Com­pu­ter und Algo­rith­men arbei­ten grund­sätz­lich mit Zah­len. Bevor die Kun­den­schrei­ben von der KI ver­ar­bei­tet wer­den kön­nen, müs­sen die Tex­te vor-ver­ar­bei­tet und in Vek­to­ren umge­wan­delt wer­den (“pre­pro­ces­sing). Ein Vek­tor kann ver­ein­facht als eine Lis­te fixer Län­ge, die Num­mern ent­hält, beschrie­ben wer­den. Bei­spiels­wei­se las­sen sich Orts­an­ga­ben als zwei­di­men­sio­na­ler Vek­tor, bestehend aus Län­gen- und Brei­ten­grad in einem Koor­di­na­ten­sys­tem, defi­nie­ren. Ein Daten­punkt (ein Sam­ple) fürs Machi­ne Lear­ning ist also ein Vek­tor, der den Daten­punkt mit­hil­fe nume­ri­scher Wer­te mög­lichst gut beschreibt.

Für das Umwan­deln von Tex­ten in Vek­to­ren wer­den ver­schie­de­ne Ver­fah­ren ange­wandt und mit­ein­an­der kom­bi­niert: Eine Mög­lich­keit besteht dar­in, die Häu­fig­keit jedes Wor­tes des gesam­ten Voka­bu­lars im umzu­wan­deln­den Text zu zäh­len. Zusätz­lich las­sen sich die Wor­te noch nach ihrer umge­kehr­ten, rela­ti­ven Häu­fig­keit gewich­ten. Bestimm­te und unbe­stimm­te Arti­kel, Kon­junk­tio­nen und häu­fig gebrauch­te Prä­po­si­tio­nen (sog. Stop­words), die in vie­len Tex­ten vor­kom­men und wenig Rele­vanz für das Text­ver­ständ­nis haben, wer­den dabei schwach gewich­tet wäh­rend sel­te­ne­rer Begrif­fe (z.B. Fach­be­grif­fe) höher gewich­tet wer­den. Die­se Gewich­tung erleich­tert dem Machi­ne Lear­ning Algo­rith­mus, die wirk­lich rele­van­ten Cha­rak­te­ris­ti­ken des Tex­tes zu erken­nen und zu ver­wen­den. Die­ses Ver­fah­ren nennt man TF-IDF (kommt von term fre­quen­cy und inver­se docu­ment fre­quen­cy). Zusätz­lich wer­den ver­blei­ben­de Wor­te auf ihren Wort­stamm beschränkt (Stem­ming). Durch das Ein­schrän­ken des Voka­bu­lars wird das ML-Modell weni­ger von soge­nann­tem Noi­se abge­lenkt, und “kann sich dar­auf kon­zen­trie­ren, was wirk­lich wich­tig ist“.

Count­Vec­to­ri­zer: Ein Text wird in eine Vek­tor durch Zäh­len der ent­hal­te­nen Wor­te in einen Vek­tor umgewandelt.

Die­se Ver­fah­ren sind robust und lie­fern regel­mä­ßig brauch­ba­re Ergeb­nis­se. Aller­dings geht durch das ein­fa­che Zäh­len der Wör­ter die Rei­hen­fol­ge der Wör­ter, Gram­ma­tik und Kon­text ver­lo­ren. Für anspruchs­vol­le Natu­ral Lan­guage Pro­ces­sing Auf­ga­ben wie Über­set­zung oder Ques­ti­on-Ans­we­ring kom­men ande­re Metho­den zur Anwen­dung. Bei moder­nen Deep Lear­ning Model­len, die auf der Trans­for­mers-Archi­tek­tur basie­ren, kom­men sog. Toke­ni­zer zum Ein­satz. Dabei wird jedem mög­li­chen Wort im Voka­bu­lar ein fes­ter Ganz­zahl­wert (das Token) zuge­ord­net. Die­se Model­le ver­ar­bei­ten den Ein­ga­be­text dann in sei­ner Ursprungs­form, nur dass Wort-Tei­le durch ihre jewei­li­gen Tokens ersetzt sind. Auf die­se Wei­se wird die Rei­hen­fol­ge bewahrt und der Sinn erhal­ten. Model­le, die sol­che Sät­ze aus Tokens ver­ar­bei­ten und ver­ste­hen kön­nen, müs­sen aller­dings ziem­lich groß und leis­tungs­fä­hig sein. Sie benö­ti­gen erheb­li­che Rechen­leis­tun­gen sowei eine gro­ße Men­gen an Lern- und Trainingsdaten.

Bei der Wahl des pas­sen­den Vek­to­ri­zers und dem eigent­li­chen Machi­ne Lear­ning Modell muss zwi­schen Kos­ten und Nut­zen abge­wo­gen. Bei unse­rem For­schungs­vor­ha­ben, dem Map­ping von Tex­ten auf Kate­go­rien – eine Auf­ga­be, die zu den ein­fa­che­ren NLP-Task gezählt wer­den kann –, haben wir uns ent­schie­den, das Vek­to­ri­sie­ren durch Zäh­len in Kom­bi­na­ti­on mit einem Nicht-Deep-Lear­ning ML-Algo­rith­mus zu verproben.

Aus­wahl eines ML Algorithmus

Sind die Daten expor­tiert, berei­nigt und vek­to­ri­siert kann man einen geeig­ne­ten ML Algo­rith­mus dar­auf trai­nie­ren. Die Aus­wahl eines geeig­ne­ten ML Algo­rith­mus erfor­dert eine Erfah­rung. Die­se Erfah­run­gen kann man durch Aus­pro­bie­ren sam­meln oder man nutzt hier­zu Ent­schei­dungs­hil­fen, mit denen eine Vor­auswahl getrof­fen wer­den kann. Mit zahl­rei­chen Pro­gram­mier-Biblio­the­ken (z.B. die­se Erwei­te­rung für sci­kit-learn) lässt sich der Aus­wahl-Pro­zess auch automatisieren.

So nütz­lich sol­che auto­ma­ti­sier­ten Aus­wahl­ver­fah­ren auch sind, soll­te nicht über­se­hen wer­den, dass mög­li­cher­wei­se Lern­er­fah­run­gen über die Daten und das Ver­hal­ten der ein­zel­nen Algo­rith­men ver­lo­ren gehen kön­nen. Erst beim mühe­vol­len Aus­pro­bie­ren der ver­schie­de­nen Algo­rith­men sam­melt man die Erfah­rung, wel­cher Algo­rith­mus für die Auf­ga­ben­stel­lung und die eige­nen Daten bes­ser oder schlech­ter geeig­net ist.

Für das Kate­go­ri­sie­ren von Tex­ten haben sich u.a. Nai­ve Bayes und Sup­port-Vec­tor-bewährt. Oft­mals wer­den auch sog. Ensem­bles ver­wen­det. Dabei wer­den meh­re­re unter­schied­li­che ML Model­le trai­niert und der Durch­schnitt über deren ein­zel­ne Aus­ga­ben gebil­det, um die Aus­ga­be des Ensem­bles zu erhal­ten. Dadurch sol­len die Vor­her­sa­gen robus­ter werden.

Grund­sätz­lich gilt: kei­ne noch so gute Wahl des Modells kann schlech­te Daten­qua­li­tät kom­pen­sie­ren. Umge­kehrt – das zei­gen auch unse­re Ver­su­che – kön­nen bei guter Daten­qua­li­tät mit meh­re­ren ver­schie­de­nen ML Algo­rith­men brauch­ba­re Ergeb­nis­se erzielt wer­den können.

Wir haben uns nach meh­re­ren Ite­ra­tio­nen ent­schie­den, unser For­schungs­pro­jekt mit (linea­re) Sup­port-Vec­tor-Machi­ne fort­zu­füh­ren, da die­se gut per­formt und gleich­zei­tig noch rela­tiv effi­zi­ent ist. Für das Trai­nie­ren der Model­le fiel unse­re Wahl auf sci­kit-learn. Das ist eine open-source Pro­gram­mier­bi­blio­thek für die Pro­gram­mier­spra­che Python. Python gilt als der qua­si Stan­dard unter ML Ent­wick­lern und bie­tet eine sehr gro­ße und gute Palet­te an Frame­works und Tool­kits für Maschi­nel­les Lernen.

Das Trai­ning der Sup­port Vec­tor Machine

Sup­port-Vec­tor-Machi­nes erler­nen das Kate­go­ri­sie­ren (im ML Kon­text wür­de man sagen zu Klas­si­fi­zie­ren), indem sie die opti­ma­le “Tren­nung” zwi­schen Daten­punk­ten (dar­ge­stellt als Vek­to­ren) ver­schie­de­ner Kate­go­rien in den Trai­nings­da­ten errech­nen. Die­se Tren­nung kann dann nach dem Trai­ning benutzt wer­den, um neue, zuvor unge­se­he­ne Daten­punk­te einzuordnen.

Wir haben für jede der Kate­go­rien­ebe­nen (Art des Anlie­gens, Bezugs­be­reich und Arti­ku­la­ti­on) ein eige­nes Modell trai­niert, also ins­ge­samt fünf Stück. Damit haben wir bes­se­re Ergeb­nis­se erzielt als mit unse­rem zunächst gewähl­ten Ansatz, ein Modell für alle Ebe­nen zu bauen.

Ergeb­nis­se quan­ti­ta­tiv auswerten

Um die Qua­li­tät der fünf Model­le bewer­ten zu kön­nen, haben wir aus­führ­li­che Tests gemacht, wobei das ers­te Test­sze­na­rio aus ca. 100.000 Daten­sät­zen bestand. Dazu haben wir 30% der Daten beim Trai­nie­ren zunächst zurück­ge­hal­ten und als das Trai­ning mit den übri­gen Daten­sät­zen (ca. 70%) been­det war, konn­ten wir die­se zum Tes­ten her­an­zie­hen. Durch die­ses Vor­ge­hen konn­ten wir über­prüft, ob das ML Modell wirk­lich die den Trai­nings­da­ten zugrun­de­lie­gen­den Kon­zep­te erlernt hat und nicht bloß die Trai­nings­da­ten aus­wen­dig gelernt hat (die­ser Effekt wür­de als “Over­fit­ting” bezeich­net)

Die Tabel­le zeigt anhand eines Aus­schnitts bei­spiel­haft wie die Aus­wer­tung der Test­da­ten ver­ein­facht aussehen.

Jede Zei­le gehört zu einer Kate­go­rie und die Spal­te Sup­port ent­hält die Anzahl der Test­da­ten zur jewei­li­gen Kate­go­rie. Die unters­te Zei­le gibt die Metri­ken für die Kate­go­rien gemein­sam an. Die­se exem­pla­ri­sche Aus­wer­tung bezieht sich auf das Modell, das wir für die Kate­go­ri­sie­rungs­ebe­ne Bezugs­be­reich 1 trai­niert haben.

Mit den Metri­ken Pre­cisi­on und Recall lässt sich die Qua­li­tät von vor­her­ge­sag­ten Kate­go­ri­sie­run­gen quan­ti­fi­zie­ren. Pre­cisi­on ist ein Maß für die Genau­ig­keit und wird defi­niert als die rela­ti­ve Häu­fig­keit, dass eine Klas­se rich­tig ist, wenn sie vor­her­ge­sagt wird. Recall hin­ge­gen ist die Tref­fer­quo­te. Sie gibt die rela­ti­ve Häu­fig­keit an, dass ein Klas­se auch als sol­che vor­her­ge­sagt wird. Der F1-Score ist eine Art Kom­bi­na­ti­on von Pre­cisi­on und Recall. Gemein­sam geben die­se Metri­ken soli­den Auf­schluss über die Per­for­mance bei Klassifikatoren.

                  precision    recall  f1-score   support

         Airport       0.81      0.82      0.81      4060
Customer Service       0.74      0.83      0.78       118
          Flight       0.81      0.75      0.78      8670
     Reservation       0.61      0.72      0.66      2416
     ...               ...       ...       ...       ...
     
        accuracy                           0.68     19145
    weighted avg       0.69      0.68      0.68     19145

Zudem sind bei­spiels­wei­se 81% der Tex­te, die von der KI mit Label “Air­port“ ver­se­hen wur­den, auch tat­säch­lich (also vom Sach­be­ar­bei­ter klas­si­fi­ziert) “Air­port”. Recall von 82% bei “Air­port” bedeu­tet, dass 82% aller Tex­te, die tat­säch­lich “Air­port” sind von der KI auch als sol­che erkannt worden.

Nach­dem wir beob­ach­ten konn­ten, dass die Model­le gute Ergeb­nis­se lie­fern, haben wir die Men­ge der Lern­da­ten ver­vier­facht und die Schrit­te von oben wie­der­holt. Dadurch wur­den die Model­le bes­ser und vor allem robus­ter gegen­über Sonderfällen.

Leis­tungs­fä­hig­keit der KI nach­voll­zieh­bar machen

Für Men­schen, die sich nicht täg­lich mit den The­men Künst­li­che Intel­li­genz und Auto­ma­ti­sie­rung beschäf­ti­gen, ist Machi­ne Lear­ning „Voo­doo“. Um Ver­trau­en in die Leis­tungs­fä­hig­keit des ML Sys­tems auf­zu­bau­en und die Ergeb­nis­se nach­voll­zieh­bar und per­sön­lich test­bar zu machen, haben wir ein klei­nes Pro­gramm erstellt, mit dem

  • der Text des Kun­den und die erfass­te Kate­go­ri­sie­rung eingefügt,
  • das ML Modell mit den Daten ausgeführt,
  • die Kate­go­ri­sie­rung durch das Modell und vom Sach­be­ar­bei­ter aus­ge­ge­ben und
  • das Ergeb­nis kommentiert

wer­den kann.

Zu Beginn wird der Kun­den­text und die vom Sach­be­ar­bei­ter in tar­ge­nio erfass­te Kate­go­ri­sie­rung in das Feld „Sach­ver­halt“ kopiert. Der ML Algo­rith­mus wen­det dann sein antrai­nier­tes Wis­sen an und es wird in der lin­ken Spal­te die Kate­go­ri­sie­rung des ML ange­zeigt. In der rech­ten Spal­te wird die­se die vom Sach­be­ar­bei­ter erfass­te Kate­go­ri­sie­rung gegen­über­ge­stellt, so dass ein unmit­tel­ba­rer Ver­gleich zwi­schen Mensch und Maschi­ne mög­lich ist:

Die­ses Video zeigt einen Aus­schnitt aus unse­rem Front­end zum Erken­nen von Kun­den­an­lie­gen aus Text, mit einem Bei­spiel, in dem die Vor­her­sa­ge und die mensch­li­che Kate­go­ri­sie­rung iden­tisch sind.

Da wir die­ses Pro­gramm auch für unse­re qua­li­ta­ti­ven Tests ver­wen­det haben, kann zusätz­lich zu jedem Test­lauf der Name des Tes­ters, das Test­ergeb­nis und eine Refe­renz auf den Ori­gi­nal-Vor­gangs­da­ten­satz doku­men­tiert werden.

Das kom­plet­te Test­set­up ist in fol­gen­dem Archi­tek­tur­bild dargestellt:

Die Archi­tek­tur des KI Systems

Nach eini­gen Test­läu­fen hat sich für uns fol­gen­des Bild her­aus­kris­tal­li­siert: Das von uns trai­nier­te Modell kate­go­ri­siert einen Groß­teil der Kun­den­tex­te genau­so wie die Sach­be­ar­bei­ter im Kun­den­ser­vice. Bei einem gerin­gen Anteil der Test­da­ten­sät­ze ermit­tel­te die KI eine feh­ler­haf­te Kate­go­rie. Und bei einem wei­te­ren Groß­teil der getes­te­ten Sach­ver­hal­te wich das Ergeb­nis der KI zwar von der Kate­go­ri­sie­rung des Kun­den­ser­vice­mit­ar­bei­ters ab, war aber fach­lich nicht falsch, son­dern nur anders.

Als Ursa­chen für feh­ler­haft klas­si­fi­zier­te Sach­ver­hal­te haben wir eine zu gerin­ge Anzahl an Test­fäl­len in den Lern­da­ten und red­un­dan­te Ein­trä­ge im Kate­go­rien­sys­tem iden­ti­fi­ziert; dar­aus haben wir zwei Opti­mie­rungs­schrit­te abge­lei­tet: Signi­fi­kan­te Erhö­hung der Lern­da­ten und Prio­ri­sie­rung der Ergeb­nis­se anhand der Struk­tur des Kate­go­rien­baums in targenio.

ML Anwen­dung optimieren

Wie oben beschrie­ben hat­ten wir uns ent­schie­den, für jede Ebe­ne der Kate­go­ri­sie­rung ein eige­nes Modell zu trai­nie­ren. Dadurch war es mög­lich, dass der Algo­rith­mus Kom­bi­na­tio­nen von Kate­go­rien erler­nen konn­te, die in der Baum­struk­tur des Kate­go­rien­sys­tems von tar­ge­nio gar nicht aus­wähl­bar sind.

Um die­ses Pro­blem zu hei­len, haben wir uns eine Funk­ti­on der Model­le zunut­ze gemacht, dass näm­lich die Model­le eine Wahr­schein­lich­keit für alle mög­li­chen Kate­go­rien der jewei­li­gen Kate­go­rien­ebe­ne aus­ge­ben. Die­se Wahr­schein­lich­keits­an­ga­ben habe wir ein­flie­ßen las­sen, indem wir für Gesamt­vor­her­sa­gen die­je­ni­ge Kate­go­ri­sie­rung wäh­len, die größt­mög­li­che Gesamt­wahr­schein­lich­keit (das Pro­dukt der fünf ein­zel­nen Wahr­schein­lich­kei­ten) hat und gleich­zei­tig mit dem Kate­go­rien­baum kon­sis­tent ist. Durch die­sen Abgleich der Vor­her­sa­gen mit dem Kate­go­rien­sys­tem wur­de die KI als Gan­zes robuster.

Nach die­ser Opti­mie­rung des Modells durch den Abgleich mit dem tar­ge­nio Kate­go­rien­baum und der Aus­wei­tung der Lern­da­ten haben wir ein Modell rea­li­siert, mit dem weit über 80% der Kun­den­tex­te rich­tig (in Sin­ne: ent­spricht der vom Sach­be­ar­bei­ter vor­ge­nom­me­nen Kate­go­ri­sie­rung) klas­si­fi­ziert wer­den kann:

Beant­wor­tung der For­schungs­fra­ge, Les­sons lear­ned und Perspektive

Unser Pro­jekt hat gezeigt, dass mit der heu­te ver­füg­ba­ren Machi­ne Lear­ning Tech­no­lo­gie unstruk­tu­rier­te Kun­den­tex­te auf ein umfang­rei­ches Kate­go­rien­sys­tem gemappt wer­den kön­nen und hier­bei die Ergeb­nis­se der KI zu mehr als 80 % mit den von Sach­be­ar­bei­tern erfass­ten Kate­go­ri­sie­rung übereinstimmen.

Sind > 80 % Über­ein­stim­mung aus­rei­chend, um ML pro­duk­tiv im Kun­den­ser­vice ein­zu­set­zen und die Mit­ar­bei­ter bei der Bear­bei­tung von Kun­den­an­lie­gen zu ent­las­ten? Ist die Qua­li­tät der ML Algo­rith­men also hoch genug?

Nach unse­rer Mei­nung ein ein­deu­ti­ges JA!

Die­ses “JA” stützt sich auf Über­le­gun­gen und Erkennt­nis­sen, die wir im Lau­fe des Pro­jekts und mit der inten­si­ven Beschäf­ti­gung der Daten gesam­melt haben:

  • Der ver­wen­de­te Kate­go­rien­baum ist in sich nicht ein­deu­tig und wider­spruchs­frei. Zudem ist er nicht aus­rei­chend aus­ge­wo­gen und “über­be­tont” bestimm­te Sach­ver­hal­te bei gleich­zei­ti­gem Negli­gie­ren gan­zer Bereiche.
  • Die Anwen­dung des Kate­go­rien­baums erfolgt durch eine gro­ße Anzahl von Sach­be­ar­bei­tern mit unter­schied­li­chen Skills und Erfah­run­gen. Von daher ist nicht anzu­neh­men, dass ein- und der­sel­be Kun­den­text durch ver­schie­de­ne Mit­ar­bei­ter iden­tisch klas­si­fi­ziert wird.
  • Selbst bei gleich hoher Qua­li­fi­ka­ti­on und Moti­va­ti­on der Mit­ar­bei­ter ver­blei­ben Zwei­fels­fäl­le, die legi­ti­mer­wei­se unter­schied­lich inter­pre­tiert und aus­ge­legt wer­den können.

Stellt man die­se Über­le­gun­gen der aktu­ell ermit­tel­ten Über­ein­stim­mung von 80 % gegen­über, dann ergibt sich ein akzep­ta­bles Niveau, zumal die KI Tex­te neu­tral, repro­du­zier­bar und in gleich­för­mig klassifiziert.

Wel­che sons­ti­gen Erkennt­nis­se haben wir durch unser Pro­jekt gewonnen?

Wie zu erwar­ten, bestimmt die Men­ge und Qua­li­tät der Daten die Leis­tungs­fä­hig­keit der KI. So konn­ten wir durch eine Erhö­hung der Lern­da­ten von 100.000 auf 400.000 Daten­sät­ze eine signi­fi­kan­te Ver­bes­se­rung der Ergeb­nis­se erzie­len. Die ein­ge­setz­ten, frei ver­füg­ba­ren open source Model­le erlau­ben einen wirt­schaft­li­chen Ein­satz von künst­li­cher Intel­li­genz für Auf­ga­ben­stel­lun­gen im Kun­den­ser­vice. Durch geeig­ne­te Maß­nah­men kön­nen die Ansprü­che des Daten­schut­zes ein­ge­hal­ten werden.

Wie sind nun die Perspektiven?

Künst­li­che Intel­li­genz und Machi­ne Lear­ning sind bereit für den pro­duk­ti­ven Ein­satz. Die Treff­si­cher­heit unse­res ML Modells ist aus­rei­chend hoch, um damit die nächs­te Ebe­ne der Auto­ma­ti­sie­rung zu errei­chen und neue Use Cases umzu­set­zen. Wel­che das sind, zei­gen wir in unse­rem nächs­ten Arti­kel die­ser Serie auf.

Takea­way

  • Das Ent­wi­ckeln eines Kate­go­rien­sys­tems, das zugleich nütz­lich und ein­fach ist, ist eine her­aus­for­dern­de Aufgabe.
  • Unse­re Ver­su­che zei­gen, dass KI-Algo­rith­men heu­te sehr gut und treff­si­cher unstruk­tu­rier­te Tex­te zu Kate­go­rien zuord­nen können.
  • Mit dem Ein­satz von Open Source Model­len kann KI heu­te leicht in Anwen­dun­gen inte­griert wer­den und die Effi­zi­enz bei der Bear­bei­tung von Kun­den­an­lie­gen steigern.
SUNBEAM PHOTOGRAPHY on Unsplash