Wat het Eurovisiesongfestival ons leert over de grootste fout die je met AI maakt

Ik bouw applicaties zonder developer-achtergrond. Vibecoding: Claude of Cursor als co-developer, ik als opdrachtgever. En elke keer als een sessie lang genoeg duurt, gebeurt hetzelfde. Een bug die we een uur eerder hadden opgelost, zit er ineens weer in. Of het model snapt de context niet die ik twintig berichten eerder heb uitgelegd. Ik dacht eerst: slordigheid. Maar het is iets structureels. Het model vergeet wat in het midden zit.

Wetenschappers noemen dit het 'Lost in the Middle'-effect. En het is een van de hardnekkigste beperkingen van de AI-modellen die we dagelijks gebruiken.

Maar hier wordt het pas echt interessant.

Datzelfde effect speelt zich elk jaar af in de huiskamers van meer dan 160 miljoen Eurovisie-kijkers. Live. In realtime. Met exact dezelfde uitkomst.

Het serial position effect: van 1885 tot 2025

De Duitse psycholoog Hermann Ebbinghaus ontdekte het al in 1885. Wanneer je mensen een lange reeks informatie voorschotelt, onthouden ze het begin en het einde. Het midden verdwijnt.

De wetenschap splitst dit op in twee effecten. Het primacy effect: de eerste items krijgen je volle aandacht en worden opgeslagen in je langetermijngeheugen. En het recency effect: de laatste items zitten nog vers in je werkgeheugen.

Alles daartussenin? Verdrongen. Overschreven. Vergeten.

Dit is geen mening. Dit is neurochemie.

En nu de AI

Large Language Models zoals Claude en ChatGPT gebruiken een architectuur die Transformers heet. Die architectuur heeft een mechanisme dat 'self-attention' wordt genoemd. In theorie kan het model elk woord relateren aan elk ander woord in de tekst.

In de praktijk werkt dat anders.

Een AI-model heeft een beperkte hoeveelheid aandacht te verdelen. Vergelijk het met een vergadering van drie uur. Aan het begin ben je scherp. Aan het einde ook, want er worden beslissingen genomen. Maar uur twee, het midden, verdwijnt in een waas. Niet omdat je niet oplette. Gewoon omdat er te veel was om alles even zwaar te wegen.

Een AI-model werkt precies zo. Hoe langer de sessie of het document, hoe minder gewicht informatie in het midden krijgt. Niet bewust. Niet opzettelijk. Het zit ingebakken in hoe het systeem is gebouwd.

Het resultaat? Een U-vormige prestatiecurve. Begin goed. Einde goed. Midden weg.

Precies dezelfde U-vorm als bij het menselijk geheugen. Maar dan door wiskunde, niet door neurochemie.

En het irritante is: de meeste mensen die dagelijks met deze tools werken, weten dit niet. Ze merken wel dat het antwoord soms klopt en soms niet. Ze denken dat ze iets fout vragen. Of dat het model slecht is. De echte reden blijft buiten beeld. Terwijl die reden structureel is. Voorspelbaar. En oplosbaar.

Het Eurovisie-bewijs

Onderzoekers Evgeny Antipov en Elena Pokryshevskaya van de Higher School of Economics publiceerden in 2017 in het wetenschappelijk tijdschrift Judgment and Decision Making een analyse van volgorde-effecten in songfestivals, inclusief het Eurovisiesongfestival.

Hun conclusie is helder.

In het New Wave Song Contest is het volgorde-effect statistisch significant. Juryleden scoren daar direct na elk optreden, zonder de kans om terug te kijken. Wie later optreedt, scoort structureel hoger. Het startnummer werd willekeurig bepaald, dus het zegt niets over de kwaliteit van de act. Alleen over het moment waarop die act op het podium staat.

Voor Eurovision zelf vonden de onderzoekers zwakker maar aanwezig bewijs van hetzelfde effect in de finales van 2009 tot 2012. In die periode werd de volgorde nog door loting bepaald, niet door producers. Na 2012 greep de organisatie in. De producers namen het roer over, wat de statistische analyse bemoeilijkt.

Wat niemand betwist: startnummer 2 is de beruchte 'death slot'. Je nummer wordt direct overschreven door alles wat daarna komt. De aandacht van de kijker is nog niet opgewarmd. De stemmen zijn nog niet open. Wie als tweede optreedt, is vergeten tegen de tijd dat er gestemd kan worden.

Jury versus publiek

Door de beschikbaarheid van gesplitste data, apart per land beschikbaar vanaf 2014 en anders aangekondigd op televisie vanaf 2016, is de vergelijking te maken.

En die vergelijking is interessant.

Bij professionele juryleden is het volgorde-effect aanwezig maar minder sterk. Logisch: juryleden bekijken repetities, werken met criteria, zijn getraind om systematisch te evalueren. Ze zijn beter bestand tegen het midden-probleem.

Maar volledig immuun? Nee. Het effect blijft zichtbaar.

Dit is precies wat je ook ziet bij AI-toepassingen. Een goed ontworpen prompt met duidelijke instructies verkleint het 'Lost in the Middle'-probleem. Maar het lost het niet op.

Stemmen vanaf het begin

In 2024 herintroduceerde het Songfestival iets wat eerder ook al in 2010 en 2011 had gegolden: kijkers konden vanaf het eerste optreden stemmen, in plaats van pas aan het einde. Idee: als je eerder stemt, weeg je alle optredens bewuster af. Niet alleen de laatste paar die nog vers in je geheugen zitten.

Voor AI geldt precies hetzelfde principe.

De oplossing is niet ingewikkeld. Je zorgt ervoor dat de belangrijkste informatie niet in het midden verdwijnt.

Sommige systemen doen dit automatisch: ze knippen lange teksten op in kleinere stukken en verwerken die apart. Andere systemen slaan de kern van eerdere gesprekken op en halen die op het juiste moment terug. Zo hoeft het model niet door een berg tekst heen te ploegen om te vinden wat ertoe doet.

Het principe is hetzelfde als stemmen tijdens de optredens: je beoordeelt elk moment op zijn eigen waarde, in plaats van te vertrouwen op wat je nog het best herinnert aan het einde.

Wat betekent dit voor jou?

Ik doe het nu zo: alles wat ik niet wil kwijtraken zet ik bovenaan elke nieuwe sessie. Een beslissing die we al hebben genomen. Een probleem dat al is opgelost. Nooit in het midden laten slingeren. Dat heeft me meer uren gekost dan ik wil toegeven.

De meeste mensen doen dit niet. Niet omdat ze lui zijn. Maar omdat niemand het hun heeft uitgelegd dat het midden verdwijnt. Ze vertrouwen op een AI die klinkt alsof hij alles heeft meegekregen. Dat klopt. Maar alles even zwaar wegen doet hij niet.

Er zijn twee dingen die je morgen kunt doen.

Zet de belangrijkste informatie altijd bovenaan je bericht. Herhaal het als de sessie langer wordt. En splits je vraagstuk op in losse gesprekken als je het gevoel krijgt dat je te lang in één chat zit. Start gewoon een nieuwe. Fris begin, frisse aandacht. Het model vergeet dan niets, want het hoeft niets te onthouden uit een lange sessie.

Het midden is een massagraf. Voor menselijke aandacht. Voor AI-aandacht.

Ontwerp je aanpak eromheen, of word je er slachtoffer van. Die keuze is aan jou.

Dit artikel is gebaseerd op het onderzoek van Antipov & Pokryshevskaya (2017), "Order Effects in the Results of Song Contests: Evidence from the Eurovision and the New Wave", gepubliceerd in Judgment and Decision Making (Vol. 12, No. 4), en het "Lost in the Middle" onderzoek van Liu et al. (2023), Stanford University / Meta AI.