Navigatiemenu

Big Data, big mistake?

Laatst bijgewerkt op 611 dagen geleden door Hadewych

De claims die worden gemaakt in verband met Big Data zijn:

  • Data-analyse levert bijzonder accurate resultaten op
  • Elk gegeven kan worden verwerkt, dus ouderwetse statistische methoden zijn overbodig geworden
  • Causaliteit doet er niet meer toe omdat correlaties relevanter zijn voor beleid
  • End of Theory: wetenschappelijke modellen en hypothesen zijn overbodig, Big Data gaat over onverwachte correlaties.

Daar is een hoop op af te dingen:

  • Zonder theorie, zonder idee over causaliteit, weet je nooit of een correlatie duurzaam is
  • Steekproefomvang is een factor van beperkt belang bij het maken van statistische analyses. Veel belangrijker is adequaat compenseren voor sample error (foutmarge doordat het deel niet het geheel is) en sample bias (steekproef is niet representatief). In Big Data toepassingen is vaak onduidelijk wat de sample error en bias zouden kunnen zijn, tenzij de data betrekking hebben op de volledige populatie.
  • Big Data produceren mogelijk veel vals-positieven, doordat de algoritmen die worden gebouwd op basis van gevonden correlaties zelden zulke correlaties perfect beschrijven. Zulke algoritmen verwerken immers de kans dat zaken samenhangen, en zolang een kans niet 100% is doen zich vals-positieven en vals-negatieven voor.
  • Niet elk patroon, elke correlatie, is een aanwijzing voor een relevant verband. Hoe groter de datasets, hoe groter het risico op onzin-correlaties.

Dat maakt Big Data niet zinloos, maar het is wel van belang om alle valkuilen scherp in het oog te houden.

Zie Tim Harford, Big data: are we making a big mistake?, 2014

Reageren is alleen mogelijk voor aangemelde gebruikers