woensdag 9 april 2014

Datamining: vloek of zegen?

Is onze privacy in gevaar of worden we juist op onze wenken bediend? Wat zijn de gevolgen van het verzamelen en analyseren van al die persoonlijke gegevens die nu snel en gemakkelijk te verkrijgen zijn via internet of in het bezit zijn van bedrijven en overheid? Oftewel: is ‘datamining’ goed of slecht voor ons?

In het Kenniscafé in de Nieuwe Bibliotheek in Almere van 27 maart doken drie deskundigen in de data: Arno Siebes, hoogleraar Algoritmische data-analyse aan de Universiteit Utrecht, Remco Wilting, marketingconsultant van adviesbureau VODW, en Jelle van Buuren, onderzoeker aan het Centre for Terrorism and Counterterrorims aan de Universiteit Leiden.

De hoeveelheid digitale data groeit met de dag, net als het gebruik ervan door derden. Vrijwel alles wat we doen, wordt digitaal opgeslagen. Maar wat gebeurt er met die gegevens? Siebes: “Datamining is het zoeken naar patronen, naar regelmaat in de data. Je hebt twee soorten datamining. Bij de een wil je iets kunnen voorspellen – bijvoorbeeld de kans op een ongeluk – bij de ander wil je patronen vinden: kijken naar combinaties die verrassend veel of weinig voorkomen. Zo kunnen ze in de medische biologie zien welke genen actief zijn op een bepaald moment. Bij gezonde en zieke mensen levert dat andere patronen op. Ik onderzoek hoe je die patronen efficiënt vindt. Alle verschillende mogelijkheden kun je samenvatten, ‘indikken’ tot een paar data die alles vertellen over wat er gebeurt. Dat is de kunst.”

Privacy
Is de angst voor privacyschending terecht? “Ja en nee. Nee, omdat mensen die hun data delen op social media niet moeten zeuren dat hun data gebruikt wordt. Ze maken het zelf beschikbaar. Datamining is profileren. Zo maken verzekeringsmaatschappijen profielen van klanten. Het is een vorm van risicospreiding. Of de patronen die we vinden gevaarlijk zijn of niet, hangt af van de consument. Ik kan met de gefilterde data zelf opnieuw data genereren, op zoek naar patronen die over groepen gaan. Die modellen zijn niet te herleiden naar personen.
Ja, omdat door deze datagedreven manier van redeneren steeds meer banen zullen verdwijnen. In het boek ‘The Second Machine Age’ van Erik Brynjolfsson and Andrew McAfee is dat dystopische wereldbeeld uitgewerkt. In zo’n wereld wil ik niet wonen. Als we big data gebruiken voor het nemen van automatische beslissingen, zijn er steeds minder mensen nodig voor denkwerk, behalve voor creatieve taken. Dat betekent ook een steeds groter gat tussen de top- en de laagverdieners.”

Toch is Siebes heel positief over datamining. “Ik zou het meer willen inzetten, maar we mogen nog niet alle data gebruiken. Bovendien staat de Europese wetgeving de koppeling van bepaalde databanken niet toe. Ik zou graag die gegevens gekoppeld zien, maar niet voor commercieel gebruik. Ik denk dat we heel veel dingen voor de mensheid kunnen verbeteren. Denk aan medicijngebruik. Als je alle data opslaat en analyseert, kun je zien welke combinaties goed aanslaan en welke bijwerkingen hebben. Je kunt veel sneller zien wat er aan de hand is.”

Marketing
Ook marketingadviseur Wilting kijkt naar patronen in de data: “Vroeger was marketing heel veel zenden. De trend is nu individuele berichten; het juiste bericht voor de juiste klant op het juiste moment. Daar gebruik ik datamining voor. Wij helpen onze klanten betere beslissingen te nemen op grond van de beschikbare informatie. Bijvoorbeeld door te voorspellen of iemand interesse heeft in een bepaald product of een bepaalde dienst. Hoe mensen zich in het verleden hebben gedragen, zegt heel veel over hoe ze zich in de toekomst gedragen.”

Theoretisch kun je patronen herkennen die mensen zelf niet doorhebben. Een bekend verhaal is dat van de Amerikaanse supermarkt die een meisje aanbiedingen voor babyspullen deed, omdat uit haar aankoopgedrag bleek dat ze zwanger was, terwijl haar vader nog van niks wist.
Wiltings adviesbureau werkt voor grote (inter)nationale dienstverleners, zoals banken, verzekeringsmaatschappijen en energiemaatschappijen. Wat doen zij met die gegevens? “We kijken onder meer naar de logs van klanten die bellen met het callcenter. Stelden ze bepaalde vragen, dan volgde kort daarop vaak de contractopzegging. Met die kennis kun je diegene meteen doorsturen naar een medewerker die klanten kan behouden.”

Hij vindt het goed dat je er met datamining voor kunt zorgen dat de berichten die mensen krijgen relevant zijn. Alleen: “Het gevaar is dat je een bepaald patroon blijft bevestigen, terwijl het is veranderd. Wij werken daaraan met controlegroepen en referenties. Zo sturen we bepaalde groepen ‘at random’ berichten, om te kijken of er dingen veranderd zijn.” Door goed te kijken naar de data kun je bijvoorbeeld bepalen wat een consument(engroep) bereid is te betalen (‘pricing’). “Die differentiatie gebeurt al bij het boeken van vliegtickets of hotels. Er is verschil tussen zakelijke en privéboekingen, vroeg- en laatboekers, boeken via een iPad en een pc, etc.” Dat onderscheid ziet hij echter liever niet in de verzekeringswereld: “Als je daar te ver in gaat, dan werkt het gelijkheidsbeginsel niet meer.”

Veiligheid
Jelle van Buuren is onderzoeker aan het Centre for Terrorism and Counterterrorism van de Universiteit Leiden. “Ik doe onderzoek naar potentieel gewelddadige eenlingen, ‘lone wolfs’. We kijken ook naar de manier waarop politici spreken over gebeurtenissen (‘framing’) en wat dat doet met de veiligheid en het veiligheidsgevoel in de samenleving. Hoe groot maak je het gevaar, hoeveel benadruk je de risico’s?” Terrorisme wordt op verschillende manieren geframed. “De meerderheid van de politici die erover beslist heeft overgereageerd; we maken ons daardoor te veel zorgen. Er zijn behoorlijk wat wettelijke maatregelen genomen de afgelopen tien jaar, zoals het toelaten van bewijs van geheime diensten. We hebben een overdaad aan symboolbeleid en –politiek in de hoop dat daar daadkracht uit spreekt.” 

De inlichtingendiensten zijn al jaren bezig met dataminen. “Voor bedrijven kan een klein succespercentage buitengewoon interessant zijn, maar dat is voor inlichtingendiensten bij lange na niet genoeg. Voorspellen wie een potentiële terrorist is, is een illusie. Er zijn weinig succesverhalen bekend op dit vlak.” Hij pleit dan ook voor ‘select before you collect’ op basis van signalen. “De trend is nu: een hooiberg verzamelen om een speld te vinden. De hoop is afwijkende patronen te vinden. Maar dan moet je weten wat normale patronen zijn. Daar heb je enorm veel data voor nodig. En dan nog hebben die patronen geen voorspellende waarde.”
Een voorbeeld is de ‘no fly-list’, waarop na 9/11 ‘heel veel Mohammeds’ werden gezet. “Een paniekreactie. De betrouwbaarheid van de informatie was in het geding. Dat kan ook komen door tikfouten of administratieve fouten. Veel data zijn in zoveel databanken opgenomen, dat fouten er bijna niet meer uit te krijgen zijn. En: standaard worden alle gegevens van klanten van bijvoorbeeld telefoonproviders een tot anderhalf jaar bewaard. De overheid wantrouwt daarmee in principe burgers.”

Het gevolg van deze ‘als we maar niks missen’-houding is een information overload en een angstreactie: “want wie durft de beslissing te nemen dat die informatieverzameling wel een stapje minder mag?” Een ander probleem vindt hij dat organisaties niet goed samenwerken. “Je kunt je afvragen of alle capaciteit wel efficiënt wordt ingezet. De CIA heeft veel veldagenten en informanten eruit gewerkt. Terwijl terroristen juist veel meer gebruik gingen maken van koeriers in plaats van mobieltjes en pc’s, en het infiltreren van netwerken door agenten jaren kost. Honderd vertalers Arabisch zijn belangrijker dan duizend data-analisten.”

Paradox
“De paradox van datamining is dat het altijd gaat om groepsdata, waardoor je als individu een andere behandeling krijgt. Als een bepaalde wijk bijvoorbeeld vaker rekeningen niet betaalt, dan loop je de kans dat je met die postcode geen bestellingen meer kunt doen bij postorderbedrijven. En dan moet jij er maar achter zien te komen wat de oorzaak is en hoe je dat ongedaan kunt maken. Je wilt dan dat een onafhankelijke rechter zich erover uitspreekt, maar zo werkt dat niet met datamining.”

Kortom, datamining: de een z’n doemscenario is de ander z’n dienstverlening. Is dit straks voor iedereen weggelegd? Wilting: “Grote bedrijven zijn veel beter in staat gerichte berichten te sturen. Zij hangen het niet aan de grote klok als ze patronen gevonden hebben. Maar de ontwikkelingen gaan zo snel, dat het niet langer een budgetkwestie is, maar een kenniskwestie. Iedereen kan data verzamelen; van internet, van klanten, van een app, van sensoren zoals de ‘slimme meters’. Daar is ook allemaal wetgeving voor bedacht. Bedrijven mogen niet zomaar de gegevens uitlezen en gebruiken.” Zijn tip: “Zoek de mensen die kennis hebben van datamining. De software wordt steeds makkelijker te bedienen.” Overigens gelooft hij niet in een wereld waarin computers alles beslissen. “In de statistiek werk je met kansen. Een kans van 100% vind je nooit voor een groep. Op dit moment kunnen we ongeveer 5% van de mensen juist bedienen op basis van de gevonden patronen.”

Bernadet Timmer

Geen opmerkingen:

Een reactie posten