Ze hebben het verkeerd - opnieuw. Ondanks de meeste opiniepeilingen en voorspellingen waarin staat dat Hilary Clinton Donald Trump zou verslaan bij de presidentsverkiezingen in de VS, gebeurde het omgekeerde. Natuurlijk, je zou kunnen stellen dat de peilingen dood waren - op juist: peilingen heetten een strakke race met Clinton die het in de schaduw stelde, en dat is precies wat er gebeurde - Clinton won tenslotte de populaire stem - maar Trump leidde haar in termen van verkiezingsstemmen.

Maar diepgaande peilingen werden ook per staat gedaan, niet in de laatste plaats door pollster-goeroe Nate Silver op FiveThirtyEight, die berekende dat Trump slechts een kans van 29% had om te winnen. Conservatieve kiezers werden enorm onderschat, maar hoe?

Dus lagen 'verlegen' Trump-stemmers tegen enquêteurs? Zijn voorspellingen gebaseerd op de verkeerde gegevens? En kan nieuwe technologie - deels van een met shell geshockeerde Silicon Valley - een nieuw leven inblazen in een industrie die nu in groot gevaar verkeert in diskrediet te worden gebracht??

Pollsters gebruiken vragenlijsten, demografische gegevens en algoritmen (Image Credit: Wikimedia)

Hoe werken opiniepeilingen?

Opiniepeilingen hebben alles te maken met het extrapoleren van trends uit een relatief kleine gegevenssteekproef. De enquêteur vraagt ​​mensen hoe ze willen stemmen of hoe ze hebben gestemd, en er worden algoritmen toegepast om een ​​demografisch evenwichtig nationaal beeld te creëren.

In een land van 231 miljoen potentiële kiezers - hoewel ongeveer 100 miljoen niet echt stemmen - zal het altijd evenveel gebaseerd zijn op aannames als op feitelijke gegevens. Sleutel hiervoor is de opkomst van de kiezer, wat erg moeilijk te voorspellen is; er zijn gewoon geen gegevens over tot na de verkiezingsdag.

"De uitdaging van het voorspellen van gegevens is ervoor te zorgen dat de gegevens representatief zijn", zegt Matt Jones, Analytics Strategist bij data science consultancy Tessella. "Traditionele statistische analyse van pollinggegevens en enquêtes zal alleen representatief zijn voor degenen die de moeite hebben genomen om deel te nemen, en dat deel van de stemmingspopulatie is niet representatief."

Enquêtes krijgen enorme zwaartekracht door de media in zoverre dat ze doorslaggevend kunnen zijn in de vraag of mensen de moeite nemen om te stemmen of niet - zodat ze een verkiezing kunnen uitzwaaien.

Moeten pollsters sociale media gebruiken?

Beperkte gegevens

Machine learning wordt al gebruikt bij het uitvoeren van verkiezingsvoorspellingen. Het maakt deel uit van standaard statistische analyse. "Zoals voor elke statistische analyse, is de belangrijkste factor de hoeveelheid beschikbare gegevens waarop uw algoritmen kunnen worden uitgevoerd, gebaseerd op uw voorspellingen", zegt Claus Jepson, Chief Architect bij Unit4. "Vanaf vandaag is de beschikbare dataset simpelweg te beperkt om nauwkeurige voorspellingen te bieden, waardoor het nodig is om menselijke interpretaties op te nemen - vandaar dat de voorspellingen vooringenomen zijn.”

Peilingen bepalen bijvoorbeeld hoeveel statistisch gewicht moet worden gegeven aan hoeveel historische verkiezingsresultaten. “Op een bepaald moment zullen de beschikbare gegevens groot genoeg zijn voor algoritmen om de resultaten op basis van polls effectief te voorspellen, minder bevooroordeeld, "denkt Jepson.

Social media en sentimentanalyse

Sommige van die 'nieuwe' gegevens zijn afkomstig van sociale media, die ernaar streven een nieuwe tool te worden voor opiniepeilers die op zoek zijn naar veranderende meningen. "Het gebruik van 'sociaal luisteren' van gesprekken en gedrag op sociale media kan een vroege waarschuwing zijn geweest voor mogelijke tegenstrijdigheden uit officiële peilingen", zegt Mark Skilton, hoogleraar praktijk in de Information Systems & Management Group op Warwick Business School.

Dit is de wetenschap van sentimentanalyse - wanneer mensen dingen schrijven in Twitter- en Facebook-berichten, is het mogelijk om positieve, negatieve of neutrale attitudes te verkrijgen. Niemand suggereert dat opiniepeilingen Twitter alleen gebruiken om verkiezingen te voorspellen, maar het kan worden gebruikt om een ​​zuiver statistisch model te verbeteren door een vitale dynamische dimensie toe te voegen.

BJSS SPARCK analyseerde bijvoorbeeld 14 miljoen tweets vóór de verkiezingen en voorspelde correct de uitkomst, waarbij hij onthulde dat zeven van de tien verzonden tweets in de laatste vier weken van de campagne in het voordeel van Trump waren.

"Wanneer zij sociale media gebruiken, worden mensen minder bewaakt over hun ware sociale en politieke voorkeuren", zegt Simon Sear, praktijkleider van BJSS SPARCK. "Hun taal wordt ongefilterd, ze 'lusten' content die hen aanspreekt en mensen en organisaties volgen die hun waarden vertegenwoordigen ... contrasteer met het moeten gênant sentiment en intenties aan een potentieel veroordelende menselijke enquêteur toegeven."