De beste fit is niet het beste model

Hoeveel denk je morgen te verdienen als je vandaag € 200 verdiend hebt? En gisteren € 100, eergisteren € 200 en drie dagen geleden € 100? Dit zijn je data en deze worden weergegeven door vier oranje punten.

MrAandMrB-Lagrange-700x400

Om te voorspellen heb je een model nodig – de rode, groene en blauwe lijnen. Een model is een benadering van de vraag: welke informatie zit er in je data?. Voor een goed model is kennis nodig die niet in de data zit. Met deze achtergrondkennis kan je een keuze maken tussen de rode, groene en blauwe lijn.

De blauwe lijn is het gemiddelde is van de vier data waarden, namelijk € 150. De voorspelling voor morgen is dus € 150, weergegeven door de blauwe punt.
De groene lijn is de beste fit van een recht lijn aan de vier punten. Deze geeft een voorspelling van € 200, de groene punt. Zowel de blauwe als de groene lijn gaan niet door de vier oranje punten.

De rode lijn is het enige model dat precies door de vier data punten gaat – het is de perfecte fit. De voorspelling voor morgen is maar liefst € 900, ruim buiten de schaal van de figuur en daarom aangeduid met de rode pijl.

Toch lijkt € 900 niet realistisch gezien de data en onze achtergrondkennis over hoe geld verdiend wordt. De groene of de blauwe lijnen lijken een beter model. De beste fit is dus niet het beste model omdat we achtergrondkennis hebben om modellen te beoordelen.

De Italiaans-Franse wiskundige Joseph-Louis Lagrange (1736-1813) kijkt ons aan. Hij heeft de basis gelegd voor regressie modellen.