Machine learning heeft de grenzen op verschillende gebieden verlegd, waaronder gepersonaliseerde geneeskunde , zelfrijdende auto’s en op maat gemaakte advertenties . Onderzoek heeft echter aangetoond dat deze systemen aspecten van de gegevens waarmee ze zijn getraind onthouden om patronen te leren, wat aanleiding geeft tot bezorgdheid over de privacy.
machine learning Bij statistiek en machinaal leren is het doel om te leren van gegevens uit het verleden om nieuwe voorspellingen of gevolgtrekkingen te maken over toekomstige gegevens. Om dit doel te bereiken selecteert de statisticus of machine learning-expert een model om de vermoedelijke patronen in de gegevens vast te leggen. Een model brengt een vereenvoudigende structuur aan op de data, waardoor het mogelijk wordt om patronen te leren en voorspellingen te doen.
Complexe machine learning-modellen hebben een aantal inherente voor- en nadelen. Aan de positieve kant kunnen ze veel complexere patronen leren en met rijkere datasets werken voor taken zoals beeldherkenning en voorspellen hoe een specifieke persoon op een behandeling zal reageren .
Ze lopen echter ook het risico dat ze te veel passen op de gegevens. Dit betekent dat ze nauwkeurige voorspellingen doen over de gegevens waarmee ze zijn getraind, maar dat ze aanvullende aspecten van de gegevens gaan leren die niet direct verband houden met de taak die ze moeten uitvoeren. Dit leidt tot modellen die niet gegeneraliseerd zijn, wat betekent dat ze slecht presteren op nieuwe gegevens die van hetzelfde type zijn, maar niet precies hetzelfde als de trainingsgegevens.
Hoewel er technieken zijn om de voorspellende fout die gepaard gaat met overfitting aan te pakken, zijn er ook zorgen over de privacy omdat we zoveel uit de gegevens kunnen leren.
Hoe machine learning-algoritmen conclusies trekken
Elk model heeft een bepaald aantal parameters . Een parameter is een element van een model dat kan worden gewijzigd. Elke parameter heeft een waarde of instelling die het model afleidt uit de trainingsgegevens. Parameters kunnen worden gezien als de verschillende knoppen waaraan kan worden gedraaid om de prestaties van het algoritme te beïnvloeden. Terwijl een rechtlijnig patroon slechts twee knoppen heeft, de helling en het snijpunt , hebben machine learning-modellen een groot aantal parameters . Het taalmodel GPT-3 heeft bijvoorbeeld 175 miljard.
Om de parameters te kiezen, gebruiken machine learning-methoden trainingsgegevens met als doel de voorspellende fout op de trainingsgegevens te minimaliseren. Als het doel bijvoorbeeld is om te voorspellen of een persoon goed zou reageren op een bepaalde medische behandeling op basis van zijn medische geschiedenis, zou het machine learning-model voorspellingen doen over de gegevens waarbij de ontwikkelaars van het model weten of iemand goed of slecht heeft gereageerd. Het model wordt beloond voor voorspellingen die correct zijn en bestraft voor onjuiste voorspellingen, wat ertoe leidt dat het algoritme zijn parameters aanpast (dat wil zeggen, aan enkele “knoppen” draait) en het opnieuw probeert.
Om overfitting van de trainingsgegevens te voorkomen, worden machine learning-modellen ook gecontroleerd aan de hand van een validatiedataset . De validatiedataset is een aparte dataset die niet wordt gebruikt in het trainingsproces. Door de prestaties van het machine learning-model op deze validatiedataset te controleren, kunnen ontwikkelaars ervoor zorgen dat het model het geleerde buiten de trainingsgegevens kan generaliseren , waardoor overfitting wordt vermeden.
Hoewel dit proces erin slaagt goede prestaties van het machine learning-model te garanderen, verhindert het niet direct dat het machine learning-model informatie in de trainingsgegevens onthoudt.
Privacybezorgdheden
Vanwege het grote aantal parameters in machine learning-modellen bestaat de kans dat de machine learning-methode bepaalde gegevens onthoudt waarop deze is getraind . In feite is dit een wijdverbreid fenomeen, en gebruikers kunnen de opgeslagen gegevens uit het machine learning-model extraheren door zoekopdrachten te gebruiken die zijn afgestemd op het verkrijgen van de gegevens .
Als de trainingsgegevens gevoelige informatie bevatten, zoals medische of genomische gegevens, kan de privacy van de mensen van wie de gegevens zijn gebruikt om het model te trainen in gevaar komen. Uit recent onderzoek is gebleken dat het feitelijk noodzakelijk is dat machine learning-modellen aspecten van de trainingsgegevens onthouden om optimale prestaties te verkrijgen bij het oplossen van bepaalde problemen. Dit geeft aan dat er mogelijk een fundamentele wisselwerking bestaat tussen de prestaties van een machine learning-methode en privacy.
Machine learning-modellen maken het ook mogelijk om gevoelige informatie te voorspellen met behulp van ogenschijnlijk niet-gevoelige gegevens. Target kon bijvoorbeeld voorspellen welke klanten waarschijnlijk zwanger waren door het koopgedrag te analyseren van klanten die zich hadden geregistreerd bij het Target-babyregister. Nadat het model op deze dataset was getraind, kon het zwangerschapsgerelateerde advertenties sturen naar klanten waarvan werd vermoed dat ze zwanger waren omdat ze artikelen zoals supplementen of ongeparfumeerde lotions hadden gekocht.
Is privacybescherming überhaupt mogelijk?
Hoewel er veel methoden zijn voorgesteld om het memoriseren bij machinale leermethoden te verminderen, zijn de meeste grotendeels ineffectief geweest . Momenteel is de meest veelbelovende oplossing voor dit probleem het garanderen van een wiskundige limiet op het privacyrisico.
De state-of-the-art methode voor formele privacybescherming is differentiële privacy . Differentiële privacy vereist dat een machine learning-model niet veel verandert als de gegevens van een individu in de trainingsdataset worden gewijzigd. Differentiële privacymethoden bereiken deze garantie door extra willekeur te introduceren in het algoritme dat de bijdrage van een bepaald individu ‘verbergt’. Als een methode eenmaal is beschermd met differentiële privacy, kan geen enkele aanval die privacygarantie schenden .
Zelfs als een machine learning-model wordt getraind met behulp van differentiële privacy, belet dit echter niet dat het gevoelige gevolgtrekkingen maakt, zoals in het Target-voorbeeld. Om deze privacyschendingen te voorkomen, moeten alle gegevens die naar de organisatie worden verzonden, worden beschermd. Deze aanpak wordt lokale differentiële privacy genoemd en Apple en Google hebben deze geïmplementeerd.
Omdat differentiële privacy beperkt hoeveel het machine learning-model afhankelijk kan zijn van de gegevens van één individu, voorkomt dit het onthouden ervan. Helaas beperkt het ook de prestaties van de machine learning-methoden. Vanwege deze afweging zijn er kritieken op het nut van differentiële privacy, omdat dit vaak resulteert in een aanzienlijke prestatievermindering .
Vooruit gaan
Vanwege de spanning tussen inferentieel leren en zorgen over privacy, is er uiteindelijk een maatschappelijke vraag welke belangrijker is in welke contexten. Wanneer gegevens geen gevoelige informatie bevatten, is het eenvoudig om het gebruik van de krachtigste machine learning-methoden aan te bevelen die beschikbaar zijn.
Bij het werken met gevoelige gegevens is het echter belangrijk om de gevolgen van privacylekken af te wegen, en het kan nodig zijn om wat machine learning-prestaties op te offeren om de privacy te beschermen van de mensen wier gegevens het model hebben getraind.