Sentimentanalyse: het koningshuis

Sentimentanalyse van online monitoringstools zoals Coosto en OBI4wan staat nog in de kinderschoenen. Hoe komt dat en waarom is dat zonde? In twee delen onderzoek ik de mogelijkheden van sentimentanalyse, de kansen die er liggen voor marketing automation en de schokkende onwelwillendheid van het gros der monitoringstools om zaken te verbeteren op dit vlak. Maar nu eerst: deel 1, waarin we aan de slag gaan met een actueel praktijkvoorbeeld.

Stel, je wil weten of het Nederlandse koningshuis nog wel bestaansrecht heeft. Immers, het feit dat de anti-koningshuisgezinde Arjan Lubach maar liefst 65.000 stemmen ophaalde voor zijn burgerinitiatief, betekent dat er wel iets aan de hand is. Hoe is het in Nederland gesteld met het sentiment ten opzichte van het koningshuis? En hoe kom je daarachter met sentimentanalyse?

Meest voor de hand liggend, is het specifieke zoekwoord ‘koningshuis’ invoeren in een online monitoringstool (ik noem ze hierna voor het gemak ‘tool’) naar keuze. Echter, er zijn natuurlijk een heleboel subthema’s te bedenken die meegenomen moeten worden. Een snelle greep: ‘koningshuis’, ‘koning’, ‘oranjes’, ‘huis van oranje’, ‘Willem-Alexander’, ‘lubach + koningshuis’, ‘lucky tv + koningshuis’, etc. Vervolgens zijn er ook zaken die uitgesloten moeten worden, denk bijvoorbeeld aan mensen met de achternaam ‘Koning’. Of misschien wil je bijvoorbeeld het ‘Engels Koningshuis’ uitsluiten.

Schermafbeelding 2016-04-26 om 09.34.15

Dat je flink wat tijd bezig kunt zijn met het opstellen van een query, komt doordat het topic (in ons geval een discussie over het koningshuis) heel breed kan zijn. Van afschaffing en staatsbezoek, tot satire en shownieuws over de wintersport van de Oranjes. En soms wil je juist bepaalde synoniemen of bijgaande context uitsluiten omdat die niet relevant zijn voor de zoektocht. Met meer zoekwoorden kun je dus resultaten van een discussie over een bepaald onderwerp en de context waarin die plaats vindt verbreden, of juist versmallen (bijvoorbeeld tot enkel het topic ‘afschaffen van de monarchie’). En dus tot meer relevantie komen.

Schermafbeelding 2016-04-26 om 09.34.57

Sentiment rond het koningshuis: deze tool meet dat het best

In overleg met de toolleveranciers heb ik een testomgeving en query in elkaar gepuzzeld waarmee meerdere tools uit de voeten konden en zou leiden tot vergelijkbare resultaten. Handmatig heb ik daarna bepaald van welk percentage berichten de sentimentanalyse correct werd gedaan. En daar rolde een winnaar uit. Een snel antwoord voor de koppensnellers onder ons: Buzzcapture kwam als beste uit de bus. Daarna SentiOne. Clipit volgde als derde en Meltwater als vierde. (Testomgeving inzien? Dat kan, geef een gil.)

Schermafbeelding 2016-04-26 om 09.35.08

En het sentiment rondom het Koningshuis? In de afgelopen maanden iets meer negatief dan positief, volgens testwinnaar Buzzcapture:

Schermafbeelding 2016-04-26 om 09.35.21

Ik heb expres de berichten als ‘neutraal’ gekenmerkt links laten liggen, dit zijn namelijk voornamelijk nieuwsberichten dus niet relevant voor dit onderzoek. Bovendien ben ik zo objectief mogelijk te werk gegaan door vooral naar het linguistische aspect te kijken en berichten die voor de ene persoon positief en door de andere negatief beoordeeld kunnen worden, links te laten liggen. Ook berichten waarin de context ontbreekt om te weten of er sprake is van negatief of positief sentiment rondom het onderwerp (het koningshuis) heb ik niet meegenomen in de beoordeling.

Schermafbeelding 2016-04-26 om 09.35.46

Positief of negatief sentiment? Daarvoor moet je het verhaal hebben gelezen.

Er zitten verder nog enorm veel kanttekeningen aan deze test. Mijn oorspronkelijke plan was om niet vier, maar 25 tools naast elkaar te leggen. Hopsa, alle toolleveranciers gecontact en mijn idee voorgelegd. Veel positieve reacties, maar ook een hele hoop geschrokken afwijzingen van tools die het uur van de waarheid ineens hoorden slaan. Waarop ik duidelijk maakte dat het niet eens zo boeiend is wie wint, maar vooral wie de meeste bereidheid toont om te gaan schaven en vijlen aan hun product zodat sentiment eindelijk een bruikbare kpi wordt!

Schermafbeelding 2016-04-26 om 09.35.58

Tweet met correct beoordeelde sentiment door Clipit, wier tool 5 gradaties weergeeft in sentiment

Van de 25 tools heb ik er uiteindelijk slechts vier kunnen testen. Waarom, dat lees je in deel 2 van deze reeks. Wat vooral opvalt is dat het veelal appels met peren vergelijken is. Een Ferrari is prima voor een potje scheuren, maar off the road doet ‘ie het niet zo lekker. Zo is ook elke tool gebouwd vanuit een bepaalde filosofie en beoogde doelgroep.

Partijen als OBI4wan en Meltwater trekken wellicht de wat meer code-savvy klanten aan, aangezien daar heel veel te tweaken valt en, bijvoorbeeld, Boolean commando’s uitgebreid in te zetten zijn. Bij tools als iMonitoring, Clipit en SentiOne zijn de eindafwerking en rapportagemogelijkheden beter maar moet er vanuit support worden geassisteerd als je wat ‘moeilijks’ wil. Verder verschilt het invoeren van de zoekopdracht bij elke tool en maakt niet elke tool gebruik van dezelfde boolean commando’s.

Schermafbeelding 2016-04-26 om 09.36.08

De uiteindelijke zoekopdracht in Meltwater

Verder is er, zoals gezegd, een aantal tools die resultaten van query’s handmatig opvoeden. Buzzcapture tweakt een deel van een query handmatig, voedt zodanig het algoritme rondom het topic op en extrapoleert dat naar de rest van de resultaten. Nogal wiedes dus, dat die wint in deze test. Heb je alleen 3 uur ‘s nachts snel een sentimentrapport nodig voor een Chinese klant, kun je moeilijk een team data-analysten uit hun bed gaan bellen en ben je dus gebaat bij een degelijk, goed ‘opgevoed’ en betrouwbaar algoritme.

Schermafbeelding 2016-04-26 om 09.36.17

De zoekopdracht in iMonitoring, die de boolean opdeelt in zoekopdrachten rondom zgn. profielen, oftewel aan het onderwerp gerelateerde thema’s.

Een tool als SentiOne lijkt veelbelovend aangezien die de klant ruimschoots faciliteert in het corrigeren van data en derhalve opvoeden van het algoritme. Sterker nog, de mensen van SentiOne gaan zelf regelmatig met een flinke lading willekeurige topics en keywords aan de slag om het algoritme sterk te houden, in meerdere talen. Dat dat z’n vruchten afwerpt, moge duidelijk zijn.

Meltwater eindigt laatste in de test en heeft dus nog wat stappen te zetten in de verbetering met hun algoritme. Tegelijkertijd waren zij wel degenen die het meeste tijd hebben uitgetrokken om me te helpen, inspireren, voor te lichten en met me te sparren. Ondanks de enorme omvang van het bedrijf luistert Meltwater dus naar de markt, gelooft in co-creatie en ziet potentie in big data in combinatie met sentimentanalyse. Ik ga ervan uit dat het met de resources voor R&D wel goed zit binnen deze succesvolle club, dus het zal wel niet lang duren voordat hun sentimentanalyse zich kan meten met die van SentiOne.

Volgende keer, in deel 2: Alles over sentimentanalyse, welke tools je moet hebben als je ermee aan de slag gaat en welke vooral níet.

2 Reacties

Obi4wan moet zijn: OBI4wan. Dank alvast voor de aanpassing!

Hoi Levi,

Dank je wel. Naam is aangepast.

Egbert

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond.

terug