Boekbespreking Data Analysis, a Bayesian tutorial.

De tweede editie van dit boek is geschreven door Devinder Sivia (hoofdstukken 1 t/m 8) met John Skilling (hoofdstukken 9 en 10). Het boek geeft een bondige (in 250 pagina’s), maar volledige beschrijving van de Bayesiaanse data analyse. Ik ken beide auteurs persoonlijk.

Data Analysis. A Bayesian tutorial.

Het eerste hoofdstuk geeft een heldere, beknopte geschiedenis van de Bayesiaanse statistiek en beschrijft het onderscheid met de klassieke statistiek. 

Het tweede hoofdstuk begint met de vraag “is dit een eerlijke munt?”, nadat je met een munt in 11 worpen 4 keer kop gekregen hebt. Met deze vraag wordt je aan de hand genomen langs de binomiale verdeling, prior verdelingen, sequentiële analyse, parameter schatting, fouten grenzen en betrouwbaarheidsintervallen, de Gauss verdeling en zelfs de Cauchy verdeling. Allemaal in een onderhoudende stijl. 

Hoofdstuk drie bouwt hierop door met multivariabele analyse, correlaties, multimodale verdelingen en niet-lineaire oplossingsmethoden. Verder behandelt dit hoofdstuk coordinaten-transformaties van verdelingen.  

In hoofdstuk vier wordt de zoektocht naar een goed model ondernomen. Hoe de valkuilen van over-fitting kunnen worden vermeden door het gebruik van priors. Model selectie is de belangrijkste toepassing van Bayesiaanse Statistiek. Hier laat dominee Thomas Bayes zijn ware kracht zien.

Wat is een prior? Hoe kies je deze? Wat is de rol van entropie hierbij? Deze vragen komen in het vijfde hoofdstuk aan bod. In het kort komt het er op neer dat de prior de relevante professionele achtergrond kennis over het probleem beschrijft. 

De hoofdstukken zes, zeven en acht beschrijven verschillende geavanceerde onderwerpen, zoals  beeld-reconstructie, ruimtelijke correlaties, het opzetten van optimale experimenten, instrumentele calibratie, ruis in data, de behandeling van “outliers”, nulpuntscorrectie, enzovoorts. 

Ik ben minder enthousiast over Skilling’s hoofdstukken 9 en 10. Skilling is de uitvinder van het “Nested Sampling algoritme”, een van de belangrijkste ontwikkelingen in de computer science. In hoofdstuk negen worden de principes ervan uitgelegd en in hoofdstuk tien worden details over het MCMC algoritme gegeven. 

Zijn voorbeeld van de vuurtoren is prachtig. Maar dit wordt vrijwel meteen gevolgd door een vrijwel onbegrijpelijk voorbeeld over het aantal “poorten” dat nodig is om een “object” te laten passeren. Ook andere voorbeelden zijn didactisch onvoldoende doordacht.

Pluspunten: Beknopt boek in een onderhoudende, heldere schrijfstijl met relatief eenvoudige wiskundige afleidingen. Goed om in korte tijd een overzicht van de Bayesiaanse data analyse te krijgen. Skilling maakt een aantal C programma’s publiek beschikbaar om mee te experimenteren. 

Minpunten: Ongebruikelijke notatie, zoals prob(A|B), voor waarschijnlijkheden. De theorie bij Skilling is snel verwarrend omdat hetzelfde symbool L voor twee verschillende aspecten gebruikt wordt en de belangrijkste contour (rond de prior massa) helemaal geen wiskundig symbool heeft. Er is weinig verbinding tussen Sivia’s en Skilling’s delen van het boek.

Echter Sivia’s hoofdstukken maken dit boek zo goed dat het de hoogste score krijgt  ★★★★★ .