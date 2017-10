De General Data Protection Regulation, die ingaat in mei 2018, vereist dat bedrijven burgers informatie moeten geven over de logica achter geautomatiseerde besluitvormingsprocessen. Dat houdt in dat in veel gevallen bedrijven moeten vertellen welke factoren worden gevoed aan de algoritmen die ze gebruiken. Ze zijn daarentegen niet verplicht een complexe uitleg te geven over het gebruikte algoritme of de formule of broncode ervan te openbaren.

In de Verenigde Staten zijn dergelijke verplichtingen al aanwezig in de financiële dienstverlening. Als een kredietverstrekker bijvoorbeeld informatie gebruikt in een offerte waarin krediet wordt aangeboden tegen slechtere voorwaarden dan de meest gunstige voorwaarden die beschikbaar zijn voor een groot deel van zijn klanten, moet het openheid geven over de informatie die daarvoor is gebruikt, bijvoorbeeld over het kredietverleden van de klant en welke informatie heeft geleid tot een waardering van dat kredietverleden en waarom dat tot aanpassing heeft geleid van de jaarlijkse rentepercentage. Er zitten nog meer aspecten aan deze verplichte transparantie, maar dit geeft wel voldoende beeld.

Laat het duidelijk zijn: het gaat dus niet om het openbaar maken van de formule die leidt tot een 'rapportcijfer' van de kredietwaardigheid, maar alleen over de belangrijkste factoren die tot de vaststelling van dat cijfer hebben geleid. Dat beschermt waardevolle bedrijfsgeheimen.

Iets eender zit in de nieuwe privacywet van de EU, maar is breder toepasbaar, namelijk geldend voor alle bedrijven die data verzamelen van Europese burgers en die data gebruiken om geautomatiseerd beslissingen te maken. Hoe breed die vereisten zijn hangt af van de interpretatie van wat geautomatiseerde besluiten zijn, maar daar kom ik in een ander artikel nog eens op terug. Volgens de European Data Protection Board moeten deze bedrijven een manier vinden om "op eenvoudige wijze de data-subject (burger dus) kunnen vertellen over de motivering achter, of de criteria die gebruikt zijn om tot een beslissing te komen zonder noodzakelijkerwijs te pogen een complexe uitleg te geven over het algoritme dat is gebruikt of een volledige openbaring van het gehele algoritme". Het is goed nieuws dat bedrijven de formule die gebruikt wordt om tot een berekening te komen die leidt tot een besluit niet hoeft vrij te geven, zelfs niet aan de regulerende organen.

In een illustratief voorbeeld zeggen de regulerende instanties van de EU dat als een bedrijf een kredietscore hanteert om een kredietaanvraag af te wijzen, het de "details van de belangrijkste karakteristieken moet leveren die meegenomen zijn in de besluitvorming, de bron van die informatie en de relevantie, inclusief de informatie die geleverd is door de data-subject via de aanvraag; informatie over eerder betaalgedrag; en officiële publieke bestandsinformatie zoals over fraude of over insolventie."

Kan deze noodzaak om verklaringen af te leggen een hinderpaal zijn om nog betere beslissingen te krijgen via de grotere accuraatheid uit machine learning, dat modellen produceert die diep ondoorgrondelijk zijn, zelfs voor hun ontwerpers? Zou het bedrijven worden verboden om die meer accurate maar minder begrijpelijke algoritmen te gebruiken omdat hun functioneren niet kan worden uitgelegd aan de consument?

Nee, en het Amerikaanse bedrijf FICO laat zien waarom. FICO gebruikt machine learning om data te analyseren die beschikbaar is in consumentenonderzoeken om een kredietwaardigheidsmodel te creëren die zeer accuraat met de data omgaat. De innovatie is dat het de data voor zichzelf laat spreken, in plaats van het toepassen van de selectie, interacties, waarderingen en functionele vorm van het model vanuit een datawetenschapper..

Dergelijke kredietmodellen zijn veel accurater dan de traditionele modellen. Door het gebruik van machine learning-technieken ontdekte FICO een "krachtige interactie"" tussen de nieuwheid van een creditcard en de mate waarvan daar gebruik wordt gemaakt. Door dat interactieve effect in te passen in het model leidde tot een prestatieverbetering van het model van 10 procent. Een meer genuanceerde versie van datzelfde interactieve effect verbeterde de prestatie nog eens met 15 procent. Deze verbeteringen heeft de mogelijkheden om de output van het algoritme uit te leggen niet verminderd, omdat de combinatie van factoren wel complex, maar begrijpelijk was.

Zoals FICO laat zien is het nodig dat AI duidelijk is uit te leggen om te voldoen aan de nieuwe Europese dataprotectiewet. Maar bedrijven hoeven daarvoor dus niet de voordelen van de accuraatheid van machine learning op te offeren.