WK 2018 voorspellingen met Big Data wie gaat wat winnen en wanneer?
NieuwsDe Champions League-finale was niet alleen een opwindend spel, maar het was ook een potentiële game-wisselaar: Liverpool Striker Mo Salah, Speler van het Jaar, ontvanger van de Gouden Schoen en de bekendste speler van Egypte had opeens zijn ticket voor de wereldbeker casten in twijfel na een agressieve uitdaging van Sergio Ramos liet hem gewond.
De implicaties van deze aanpak hadden enorm kunnen zijn: als Salah niet in staat was om voor zijn land te spelen (het blijkt dat hij het bijna onmogelijke heeft gedaan en fit is), zou dit de kansen van Egypte in het WK hebben beïnvloed, en terwijl Egypte het is onwaarschijnlijk dat de latere ronden van de competitie in het gedrang komen, zoals een vlinder die aan de andere kant van de wereld met zijn vleugels klappert, de prestaties van Egypte op zijn beurt invloed kunnen hebben op hoe de andere teams in zijn groep - en uiteindelijk beïnvloeden welk land de trofee.
Dit gezegd zijnde, Salah's potentiële val is slechts een van letterlijk miljoenen datapunten. Een van de miljoenen factoren die uiteindelijk van invloed kunnen zijn op de uitkomst van de competitie.
Hoe kunnen we dan een greep krijgen op wat we kunnen verwachten? Is er een manier om te voorspellen hoe teams zullen presteren? Zou Big Data, dat al talloze andere industrieën heeft getransformeerd, ook een dieper inzicht in het mooie spel kunnen ontgrendelen? Kan het voorspellen wie het WK gaat winnen??
Data punten
Opta Sports en STATS zijn twee bedrijven die dergelijke vragen proberen te beantwoorden. Als sportdatabedrijven zijn hun missies om gegevens te verzamelen en te begrijpen voor hun klanten, waaronder sportteams en federaties, evenals media die hongerig zijn naar data-inzichten (ahem).
“Het is heel gemakkelijk om te denken dat meer gegevens goed zijn, maar totdat je weet hoe je het gaat gebruiken en wat je ervan kunt leren, kan het soms gegevens zijn omwille van de gegevens.”
Paul Power, STATS.com
Wat verzamelen ze dan eigenlijk? Optes marketing manager Peter Deeley legde uit dat zijn bedrijf voor elke voetbalwedstrijd ongeveer 2000 individuele datapunten verzamelt, meestal gericht op “on-ball” acties. Een team van drie analisten - één voor elke partij en iemand om moeilijke momenten dubbel te controleren, zal in de datahub van het bedrijf in Leeds zitten en zal in feite alles opnemen wat er op het veld gebeurt: elke pass, cross en shot, evenals de posities op het veld waar elke interactie heeft plaatsgevonden.
De gegevens worden live aan de klant geleverd. Daarom kan de Britse pundit (en voormalige Engelse speler), Gary Lineker, kijkers vertellen over statistieken als bezit en schoten op doel na rust.
Stats.com doet hetzelfde - en Paul Power, een data-wetenschapper bij het bedrijf, wilde me graag vertellen hoe het niet alleen mensen zijn die worden gebruikt voor het verzamelen van gegevens, maar ook nieuwe computervisietechnologieën.
Als het gaat om het accuraat registreren van de positie van elke speler op het veld, gebruikt zijn bedrijf camera's die langs de rand zijn geplaatst om het te achterhalen, zodat spelers geen trackingbakens onder hun shirts hoeven dragen, zoals is gebeurd in sporten zoals Rugby Union.
Maar waarom vasthouden aan mensen? Kon computerview niet worden gebruikt om in te loggen allemaal van dit soort gegevens? “Mensen zijn nog steeds het best vanwege nuances die computers niet zullen kunnen begrijpen,” betoogt Paulus.
Hij geeft het voorbeeld wat als een speler in het nauw gedreven wordt en de bal wegtrekt uit wanhoop, maar gelukkig wordt de bal dan ontvangen door een speler in hetzelfde team. Voor een machine kan dit er uitzien als simpelweg een lange pass, omdat machines de context van wat er gaande is, of de blik van paniek op het gezicht van de speler niet kan uitwerken - het zou een lange pass registreren, terwijl technisch gezien de gebeurtenis technisch iets is anders: een klaring. Wat betekent dat zonder een mens om deze oproepen te maken, de gelogde gegevens minder nauwkeurig kunnen zijn.
De Opta-aanpak
We weten dat beide bedrijven veel gegevens hebben, maar wie denkt dat ze het WK daadwerkelijk zullen winnen? Hoewel beide bedrijven veel gedetailleerde gegevens voor hun klanten genereren, stelden interessant dat STATS en Opta verschilden wanneer het gaat om het modelleren van het toernooi van deze zomer.
In het geval van Opta legde Peter uit dat hun model voor de Wereldbeker geen rekening houdt met de talloze gegevens van individuele spelers. In plaats daarvan heeft Opta ervoor gekozen alleen naar de prestaties van de specifieke nationale squadrons op teamniveau te kijken. Bijvoorbeeld, het beoordelen van de kansen van Egypte gebaseerd op hoe het Egyptische team in het verleden heeft gepresteerd, en zonder rekening te houden met de blessure situatie van Mo Salah..
“Datewetenschappers voor het WK hebben gekeken naar de historische prestaties van verschillende landen. Wat maakt het uit als je als gastland speelt, wat maakt het uit dat je op je eigen continent speelt? "
Peter Deeley, Opta
“De datawetenschappers voor het WK hebben gekeken naar de historische prestaties van verschillende landen, wat maakt het uit als je speelt als gastland, wat maakt het uit dat je op je thuiscontinent speelt [en] wat voor verschil het maakt als je de laatste paar Wereldbekers hebt gewonnen,” Peter legt uit.
De datawetenschappers konden vervolgens het model tweaken door het honderdduizenden keren uit te voeren om iteratieve verbeteringen aan te brengen, waarbij het relatieve gewicht van elke factor in het algoritme werd aangepast.
Dit is een verrassing, omdat je zou veronderstellen dat hoe meer gegevens er zijn, maar Peter is van mening dat dit model nog steeds goede voorspellingen kan opleveren.
“Een WK wordt slechts om de vier jaar gespeeld, dus je zult vaak merken dat een speler van goede kwaliteit, die speelt voor een land dat vaak in de World Cup speelt, alleen in twee World Cup-toernooien zal spelen - je zult niet zoveel gegevens hebben over dat spelers impact hebben op het bredere team, binnen de internationale opzet.” hij zegt.
En hij is van mening dat deze gegevens op teamniveau voldoende zijn: “Italië won in 2006 - ze waren geen favorieten en de kwaliteit van hun team was goed, maar ze waren geen team dat een Cristiano Ronaldo-level superster had.”
Hij legt het uit: “Het is echt interessant, met World Cups is het waar dat die teams die het historisch goed doen, het nog steeds goed doen. Duitsland, in de laatste drie World Cups hebben tenminste de halve finale bereikt.
"Hoewel je hun team deze keer kan beweren dat het niet zo goed is als de vorige keer, hebben ze nog steeds het trackrecord van het zijn van de huidige wereldkampioen, van een team dat over het algemeen goed presteert - en het is in hun thuiscontinent. betekent dat ze over het algemeen een goede kans hebben, niet ongeacht hun ploeg, maar ze hebben een goede reputatie op het gebied van toernooien.”
“Het is heel gemakkelijk om te denken dat meer gegevens goed zijn, maar totdat je weet hoe je het gaat gebruiken en wat je ervan kunt leren, kan het soms gegevens zijn omwille van de gegevens.”, hij zegt.
Het STATS-model
STATS heeft het wereldkampioenschap anders gemodelleerd. In tegenstelling tot zijn rivaal, houdt het rekening met individuele spelersgegevens voor wat het noemt “Wat nou als?” Analytics.
Volgens Paul betekent dit dat STATS individuele spelersgegevens effectief kan gebruiken om niet alleen uit te zoeken hoe een team presteert, maar ook om de impact te kwantificeren van het wisselen van spelers binnen en buiten de ploeg. In het geval van Mo Salah beweert STATS dat zijn systeem in staat zou zijn om de impact op Egypte uit te werken, of hij al dan niet fit genoeg is om te spelen.
“Je kunt deze verschillende situaties inpluggen en dat zou een uitkomst kunnen genereren en die meting zou of het aantal gescoorde of toegekende doelen zijn, of simpelweg kans van slagen: hoe verhoogt of verkleint die speler de kansen? "Legt Paul uit.
“We kunnen dit bekijken, de simulaties uitvoeren en dit zal ons eigenlijk vertellen: Mo Salah is misschien 0,3 doel waard, of als hij niet aan het spelen is en er komt een andere speler binnen, dat verkleint de winstkans met 3% of 10% of het kan het zelfs verhogen, afhankelijk van het team waar ze daadwerkelijk tegen spelen.”
(Afbeelding: © Getty Images)Waarom denkt STATS dat de individuele aanpak beter werkt dan naar teams kijken??
“Iedereen weet dat als je je sterspelers mist, dit invloed zal hebben op de prestaties - je hebt geen complex neuraal netwerk nodig om je dat te vertellen,” zegt Paul. “Als u dat in uw dataset mist, zal dat uw kansen en uw voorspellingen echt gaan beïnvloeden”.
“We weten dat door deze extra functies van de spelers toe te voegen dat we betere effecten krijgen, omdat we beter in staat zijn om de directe relaties tussen individuen te modelleren, en hoewel het een teamsport is, weten we dat bepaalde individuen een grotere invloed hebben over de uitkomst dan bepaalde anderen.
"Als je bijvoorbeeld een full-back mist, is dat potentieel minder een probleem dan het missen van een centrale middenvelder, dus daar moet je rekenschap van afleggen, en als gevolg daarvan hebben we echt vertrouwen in het model die we hebben gegenereerd.”
Vertel me wie er gaat winnen, dammit
Nu komen we bij de allerbelangrijkste vraag: welk land gaat de twee modellen voorspellen om te winnen? In beide gevallen hebben ze als goede statistieken nerds probabilistische voorspellingen opgeleverd die wat meer nuance bevatten dan Dave, die blind zweert dat Duitsland weer gaat winnen omdat hij een goed gevoel over hen heeft..
Ik heb STATS om zijn voorspellingen gevraagd en helaas, ondanks dat het bedrijf bereid is mij te vertellen over alle gegevens waartoe het toegang heeft en hoe het werkt zou eigenlijk een voorspelling deed, kreeg ik te horen dat ze dit jaar hun voorspellingen niet zullen publiceren. Waarom? Uit angst om fout te zijn? Nee, het antwoord is veel eenvoudiger: dit is waardevolle informatie, en ze willen alleen de bonen naar betalende klanten morsen.
We hebben echter een voorspelling van Opta. Het beoordeelt meerjarige Wereldbekerwinnaars Brazilië (zeg maar niet 2014) als de meest waarschijnlijke kampioenen nogmaals - waardoor ze een kans van 14,2% hebben om te winnen. Dit betekent dat als je het Wereldkampioenschap met exact dezelfde teams 20 keer zou lopen, je alleen verwacht dat Brazilië ongeveer drie keer zou winnen. Net als je maat Dave, fantaseert Opta ook naar Duitsland - waardoor ze een kans van 11,4% hebben om opnieuw de trofee mee naar huis te nemen.
Een ander bedrijf dat graag voorspelt en een beetje nauwkeurig is in zijn resultaten, is EA Sports. Voor de laatste drie World Cups heeft het terecht de uiteindelijke winnaar van de Wereldbeker voorspeld.
Aan de hand van de gedetailleerde gegevens die het heeft op de spelers en de teamranglijst in FIFA 2018 en zijn add-on voor de World Cup, draaide het een simulatie van het toernooi en Frankrijk waren de uiteindelijke winnaars, die Duitsland in de finale versloeg. Gezien het voorspelde Duitsland en Spanje voor respectievelijk de 2014 en 2010 World Cups, zou dit een goede schreeuw kunnen zijn.
Dan is er Blue Yonder, een bedrijf dat bekend staat om het gebruik van AI om de eb en vloed van het voorraadbeheer in enkele van 's werelds grootste supermarkten te voorspellen. Het draaide onlangs zijn hand om het wereldkampioenschap te voorspellen. Linksveld ja, maar de technologie heeft elke internationale voetbalwedstrijd geanalyseerd die sinds 1872 wordt gespeeld, waarbij meer dan 1 miljoen simulaties van het WK worden gespeeld en is van mening dat Brazilië de favorieten zijn om Rusland te winnen, met een kans van 22,5% om te winnen.
En hoe zit het met Engeland? Het slechte nieuws voor Gareth Southgate is dat Opta zijn squadron een lage 1,9% kans geeft, terwijl Blue Yonder dit een beetje tot 5,7% opvoert.
Als Opta en Blue Yonder gelijk hebben, is de kans groot dat we ernaar uitkijken om nog een penalty-out te verliezen. Zucht.
De World Cup-dekking van TechRadar wordt je aangeboden in samenwerking met Honor.