Auteurs van wijdverbreide antilichaamstudies “zijn ons allemaal een verontschuldiging verschuldigd”, zegt een deskundige.
Gefrustreerde statistici en epidemiologen gingen deze week naar sociale media om substantiële tekortkomingen te melden in twee wijdverspreide onderzoeken die probeerden de ware verspreiding van COVID-19 in twee provincies in Californië, Santa Clara en Los Angeles, te schatten .
De studies suggereerden dat veel meer mensen in elk van de provincies besmet zijn met het nieuwe coronavirus dan gedacht – dat wil zeggen, ze schatten dat het werkelijke aantal gevallen in de twee provincies tot 85 keer en 55 keer het aantal van de momenteel bevestigde gevallen is in de provincies, respectievelijk. Dit suggereert dan ook dat COVID-19 veel minder dodelijk is dan gedacht. Het grote aantal gevallen met betrekking tot het onveranderde aantal sterfgevallen plaatst het sterftecijfer van COVID-19 in hetzelfde bereik als seizoensgriep.
Hoe gevaarlijk is dit?
We graven in op de details van de onderstaande onderzoeken, maar het is belangrijk op te merken dat geen van beide is gepubliceerd in een wetenschappelijk tijdschrift, noch dat ze een standaard peer-review hebben doorlopen voor wetenschappelijke controle. In plaats daarvan zijn ze in conceptvorm online geplaatst (een alledaagse gebeurtenis in een snel evoluerende pandemie die onderzoekers ertoe aanzet snel toegang te hebben tot gegevens, hoe onzeker ook).
De bevindingen leken de argumenten van minderheden te ondersteunen dat COVID-19 mogelijk niet erger is dan seizoensgriep (een van de belangrijkste doodsoorzaken in de VS) en dat de beperkende inspanningen om de economie momenteel te wurgen mogelijk niet nodig zijn. In feite hebben drie onderzoekers die co-auteur waren van de nieuwe onderzoeken deze exacte argumenten openbaar gemaakt.
In een controversieel opiniestuk in de biomedische nieuwszender STAT betoogde gezondheidsonderzoeker John Ioannidis, op Stanford, medio maart dat het sterftecijfer van COVID-19 mogelijk veel lager is dan verwacht, waardoor de huidige lockdowns ‘ totaal irrationeel kunnen worden’ . ” Onderzoekers op het gebied van gezondheidsbeleid Eran Bendavid en Jay Bhattacharya, ook beiden op Stanford, voerden eind maart een soortgelijk argument in The Wall Street Journal . Ze noemden de huidige COVID-19-sterfteschattingen – in het bereik van 2 tot 4 procent – ‘zeer gebrekkig’.
Ioannidis is co-auteur van het onderzoek in de provincie Santa Clara en Bendavid en Bhattacharya waren vooraanstaande onderzoekers van beide onderzoeken, die deze maand online verschenen.
De nieuwe studies lijken de eerdere argumenten van de onderzoekers te ondersteunen. Maar een koor van hun leeftijdsgenoten is verre van overtuigd. In feite heeft kritiek op de twee onderzoeken een vernietigend tapijt van Twitter-threads en blogposts geweven die wijzen op tekortkomingen van de onderzoeken – alles van elementaire wiskundige fouten tot vermeende statistische slordigheid en steekproefvertekening.
In een blogoverzicht van de Santa Clara county-studie beschreef statisticus Andrew Gelman van Columbia University verschillende verontrustende aspecten van de statistische analyse. Hij concludeerde:
Ik denk dat de auteurs van het bovengenoemde artikel ons allemaal een verontschuldiging verschuldigd zijn. We hebben tijd en moeite verspild aan het bespreken van dit artikel, waarvan het belangrijkste verkoopargument enkele cijfers waren die in wezen het product waren van een statistische fout.
Ik meen de verontschuldiging. Iedereen maakt fouten. Ik denk niet dat de auteurs zich moeten verontschuldigen omdat ze het verknald hebben. Ik denk dat ze hun excuses moeten aanbieden omdat dit vermijdbare fouten waren .
Een Twitter-account van het lab van Erik van Nimwegen, een computer systeembioloog aan de Universiteit van Bazel, reageerde op de studie door de grap te tweeten: “Luid snikken gerapporteerd onder de grafsteen van dominee Bayes.” De tweet verwijst naar Thomas Bayes, een 18 th eeuw Engels dominee en statisticus die weer een fundamentele stelling over waarschijnlijkheid te zetten.
Pleuni Pennings, een evolutionair bioloog aan de San Francisco State University, merkte in een blog over de Santa Clara-studie op : “In onderzoek willen we graag zeggen dat ‘buitengewone claims buitengewoon bewijs vereisen’. Hier is de claim buitengewoon, maar het bewijs is dat niet. We leren ook dat zelfs als een studie afkomstig is van een geweldige universiteit, dit geen garantie is dat de studie goed is. ”
Harvard-epidemioloog Marc Lipsitch verklaarde op Twitter dat hij het eens was met soortgelijke statistische kritiek die online werd geuit . Hij voegde een ‘pluim’ toe aan de auteurs voor het uitvoeren van de studie en ‘het geven van één interpretatie ervan (die hun’ zijn overdreven ‘visie ondersteunt). “
Dus wat hebben al deze onderzoekers in de armen?
Het doel van de onderzoeken
Beide onderzoeken waren primair bedoeld om in te schatten hoeveel mensen in elk van de twee provincies op enig moment met SARS-CoV-2 waren besmet. Dit is een buitengewoon belangrijke onderneming omdat het ons de ware omvang van de infectie kan vertellen, de inspanningen kan helpen die de overdracht proberen te stoppen en het volledige spectrum van de ernst van de ziekte van COVID-19 en het sterftecijfer beter kan beoordelen.
Omdat diagnostische testen in de VS zo beperkt zijn en veel gevallen van COVID-19 milde of zelfs geen symptomen lijken te vertonen, verwachten onderzoekers dat het werkelijke aantal geïnfecteerde mensen veel hoger zal zijn dan we weten op basis van bevestigde gevallen. Daarover bestaat geen discussie. Maar hoeveel hoger is het onderwerp van veel discussie.
De onderzoekers deden hun onderzoek door kleine groepen bewoners te rekruteren en hun bloed te testen op antistoffen tegen SARS-CoV-2. Antilichamen zijn Y-vormige eiwitten die het immuunsysteem maakt om zich te richten op specifieke moleculaire vijanden, zoals virussen. Als een persoon antilichamen heeft die SARS-CoV-2 of zijn componenten herkennen, suggereert dat dat de persoon eerder was geïnfecteerd.
Santa Clara
In het Santa Clara county-onderzoek rekruteerden onderzoekers vrijwilligers die Facebook gebruikten en lieten ze naar een van de drie drive-through-testsites komen. Uiteindelijk testten ze het bloed van 3.330 volwassenen en kinderen op antilichamen. Ze vonden 50 bloedmonsters, of 1,5 procent, waren positief voor SARS-CoV-2-antilichamen.
Vervolgens pasten ze hun cijfers aan om te proberen in te schatten welke positieve tests ze zouden hebben teruggekregen als hun pool van vrijwilligers beter overeenkwam met de demografische gegevens van de provincie. De vrijwilligerspool scheef naar bepaalde postcodes in de provincie en was verrijkt voor vrouwen en blanken in verhouding tot de echte samenstelling van de provincie. Door de aanpassing van de onderzoekers werd de prevalentie van positieven bijna verdubbeld, van 1,5 procent naar naar schatting 2,8 procent.
Vervolgens hebben ze de gegevens opnieuw aangepast om rekening te houden met onnauwkeurigheden in de antilichaamtest. Er zijn hier twee maatstaven voor nauwkeurigheid: gevoeligheid en specificiteit. Gevoeligheid heeft betrekking op hoe goed de test alle juiste positieven correct identificeert. Specificiteit heeft betrekking op hoe goed de test is in het correct identificeren van alle echte negatieven – met andere woorden, het vermijden van valse positieven.
Volgens de auteurs van de Santa Clara-studie leidden de gevoeligheids- en specificiteitsgegevens van hun antilichaamtest ertoe dat ze schatten dat de werkelijke prevalentie van SARS-CoV-2-infecties varieerde van 2,49 procent en 4,16 procent.
Op basis van de bevolking van de provincie zou dat erop wijzen dat er tussen de 48.000 en 81.000 mensen in de provincie waren besmet. Het aantal bevestigde gevallen op het moment van publicatie was slechts 956. Dat betekent dat hun infectie 50 tot 85 keer hoger ligt dan de bevestigde gevallen.
De onderzoekers schatten vervolgens een infectie-sterftecijfer (IFR) met dat grote aantal geschatte infecties en een schatting van slechts 100 cumulatieve sterfgevallen (inclusief door infecties op dat moment. Sterfgevallen blijven achter bij initiële infecties, mogelijk weken). Ze berekenden een IFR van 0,12 procent tot 0,2 procent. Dit valt in de marge van seizoensgriep, die een sterftecijfer van ongeveer 0,1 procent heeft.
Los Angeles
Er zijn minder gegevens beschikbaar uit het onderzoek in Los Angeles. Op een ongebruikelijke manier – zelfs volgens de huidige pandemische normen – werden de bevindingen aanvankelijk aangekondigd in een persbericht van de afdeling volksgezondheid van de provincie, dat weinig statistische en methodologische details opleverde. Een korte schets van de studie ( PDF hier gevonden ) is ook online verspreid, maar heeft nog steeds minder informatie over de methoden dan de Santa Clara-studie. Ook heeft het concept nog hogere prevalentieschattingen dan het persbericht. Het is onduidelijk waarom de schattingen verschillen, maar we zullen ons vooral concentreren op de conclusies die formeel zijn vrijgegeven door de gezondheidsafdeling.
Over het algemeen gebruikten onderzoekers voor het onderzoek gegevens van een marktonderzoeksbureau om willekeurig inwoners te selecteren en hen uit te nodigen om getest te worden op een van de zes testlocaties. De onderzoekers stelden quota vast voor deelnemers op basis van leeftijd, geslacht, ras en etniciteit om te passen bij de bevolkingskenmerken van de provincie. Hun doel was om 1.000 deelnemers te werven.
Ze testten 863 volwassenen met dezelfde antilichaamtest die werd gebruikt in de Santa Clara-studie, die werd gemaakt door Premier Biotech, uit Minneapolis, Minnesota. Van de gegeven tests waren er 35 (of 4,1 procent) positief. Volgens het persbericht suggereerden de aangepaste gegevens dat 2,8 tot 5,6 procent van de bevolking van de provincie besmet was met het nieuwe coronavirus.
Gezien de bevolking van de provincie suggereert dit dat 221.000 tot 442.000 volwassenen in de provincie besmet waren. Die schatting is 28 tot 55 keer hoger dan het 7,994 bevestigde aantal gevallen op dat moment. Net als in de Santa Clara-studie ligt de IFR daarmee in het bereik van 0,3 procent tot 0,13 procent, dichter bij de IFR van seizoensgriep.
Problemen
Andere onderzoekers waren er snel bij om zorgen en tekortkomingen over de methoden en statistieken van de studies te signaleren.
Ten eerste waren er kritiek en opmerkingen over de wervingsstrategie in het Santa Clara-onderzoek. Het gebruik van vrijwilligers die zijn vastgelopen door Facebook-advertenties heeft het potentieel om mensen te targeten die, nou ja, vaker Facebook gebruiken. Het opzetten van drive-through-testsites kan een verrijking zijn voor mensen die gemakkelijk toegang hebben tot auto’s.
Het belangrijkste is dat door zelfgekozen vrijwilligers te nemen, je de mensen die zich het meest zorgen maken dat ze COVID-19 hebben gehad en die willen testen zeker weten. Dit kan het aantal positieven in een deelnemerspool mogelijk opdrijven, waardoor de ziekte vaker voorkomt dan hij in werkelijkheid is.
Volgens een e-mail verkregen door Buzzfeed News en gerapporteerd op 24 april , rekruteerde de vrouw van studie-auteur Jay Bhattacharya ook ouders via een e-mail op een middelbare schoollijst. Dit kan de deelnemerspool verder vertekend hebben gemaakt. De e-mail drong er bij ouders op aan zich aan te melden voor het onderzoek om ‘gemoedsrust’ te hebben en ’te weten of u immuun bent’. Bhattacharya schreef in een e-mail aan Buzzfeed dat de e-mail van zijn vrouw was “verzonden zonder mijn toestemming of mijn medeweten of de toestemming van het onderzoeksteam.”
De willekeurige selectie van deelnemers aan de LA-studie, samen met de quota, ontweek deze kritiek.
… en statistieken
Maar de meest verontrustende zorgen over de studies houden veruit verband met de statistieken. Misschien is de grootste zorg van critici dat de antilichaamtest die de onderzoekers voor beide onderzoeken hebben gebruikt, niet zo nauwkeurig is als de schattingen suggereren.
De test van Premier is – net als tientallen andere op de markt – niet grondig gecontroleerd op nauwkeurigheid. Gezien de urgentie van de pandemie heeft de Food and Drug Administration de verkoop van dergelijke tests op de markt toegestaan zonder de gebruikelijke doorlichting. In feite markeert de FDA zelfs aan zorgverleners om zich bewust te zijn van hun beperkingen . Premier rapporteerde het testen van zijn test tegen bekende positieve en negatieve monsters om de gevoeligheid en specificiteit ervan te bepalen, en de auteurs van het onderzoek deden hun eigen tests op Stanford.
In handen van Premier identificeerde de test 25 bekende positieve monsters op een totaal van 37. In tests op Stanford rapporteerden de auteurs van het onderzoek dat ze 153 bekende positieve van de 160 met de test correct identificeerden. Door de schattingen te combineren, dachten ze dat een gevoeligheid hoogstwaarschijnlijk ongeveer 80 procent was (binnen een bereik van 72,1 procent en 87 procent mogelijk).
Toen Premier 30 monsters probeerde te testen waarvan bekend was dat ze negatief waren, identificeerde de antilichaamtest alle 30 nauwkeurig als negatief. Maar in de laboratoria van Stanford identificeerde de test slechts 369 van de 371 echt negatieve geteste monsters correct. De auteurs van de studie concludeerden dat de test hoogstwaarschijnlijk een specificiteit had van ongeveer 99,5 procent (binnen een bereik van 98,3 procent en 99,9 procent mogelijk).
De specificiteitsschatting suggereert dat slechts 0,5 procent van de tests vals-positief zal zijn, maar het bereik laat de mogelijkheid open dat tot 1,7 procent van de tests vals-positief is. Dit is een groot knelpunt voor critici.
In de Santa Clara-studie vonden de onderzoekers slechts 50 van de 3.330 monsters positief. Dat is een positief percentage van 1,5 procent. Aangezien het vals-positieve percentage tot 1,7 procent kan zijn, is het mogelijk (indien onwaarschijnlijk) dat elke gedetecteerde positieve test een vals-positief was.
Het punt is niet dat critici denken dat elke positieve steekproef die de auteurs van het onderzoek vonden, eigenlijk vals-positief was. Ze merken dit eerder op omdat het betekent dat het onmogelijk is om de nauwkeurigheid van het positieve monster nauwkeurig te beoordelen.
Zoals Gelman opmerkt in zijn blog:
Nogmaals, het echte punt hier is niet of nul is of zou moeten zijn in het 95% [betrouwbaarheids] interval, maar eerder dat, zodra de specificiteit in de buurt van 98,5% of lager kan komen, je deze ruwe olie niet kunt gebruiken aanpak om de prevalentie te schatten; het enige wat je kunt doen is het van boven af te binden, wat de claim van ’50-85 meer dan het aantal bevestigde gevallen ‘volledig vernietigt.
Dieper ingaand op de wiskunde identificeerde statisticus Will Fithian van de Universiteit van Californië, Berkeley, wat hij beschreef als een “slordige” wiskundige fout in de berekeningen die de onderzoekers gebruikten om hun schattingsbereiken te genereren.
The errors are not debatable and can be seen in these two screenshots of the supplement: 0.0034, the standard error meant to measure uncertainty about prevalence pi, is not the square root of 0.039, and the variance of a binomial estimate of proportion depends on the sample size. pic.twitter.com/4LcLvaC9mU
— Will Fithian (@wfithian) April 21, 2020
De statistieken van de LA-studie zijn nog niet beschikbaar voor herziening, maar onderzoekers hebben gesuggereerd dat ze mogelijk dezelfde gebreken vertonen .
De auteurs hebben gemeld dat ze momenteel hun statistische analyse opnieuw uitvoeren en de resultaten binnenkort zullen publiceren.
Dingen om op te letten in toekomstige antilichaamstudies
Naarmate de pandemie vordert, zullen er meer van dergelijke onderzoeken naar antilichamen uitkomen – waarschijnlijk met vergelijkbare voorbehouden en valkuilen. Dus hoe kunnen we deze gegevens begrijpen die de krantenkoppen zullen blijven halen?
In een telefonische vergadering met verslaggevers deze week gaf de epidemioloog van Harvard, William Hanage, enkele tips over waar je op moet letten. Hij raadde aan op te merken of de gegevens afkomstig waren van een niet-gepubliceerde, niet-peer-reviewed voordruk – zoals de studies van Santa Clara en LA County dat deden – of dat ze in gerenommeerde tijdschriften werden gepubliceerd. Hij zei ook dat hij in de gaten moest houden hoe mensen werden bemonsterd. Was het een echt willekeurige steekproef van mensen of een zelfgekozen groep, zoals de Santa Clara-studie? Dan wil je ook kijken naar vals-positieve tarieven, zei hij.
Ten slotte suggereert Hanage dat mensen de meeste aandacht moeten besteden aan onderzoeken naar antilichamen die zijn uitgevoerd op plaatsen waarvan bekend is dat ze veel infecties hebben. Simpel gezegd, met grotere aantallen om mee te werken, kan de wiskunde rond prevalentieschattingen worden aangescherpt.
Net op donderdag kondigde gouverneur van New York, Andrew Cuomo, de voorlopige – niet-gepubliceerde – resultaten aan van een antilichaamtest in de staat, waaronder de bevinding dat 21,1 procent van de inwoners van New York City mogelijk is geïnfecteerd met het virus. New York City staat erom bekend zwaar getroffen te worden door de pandemie, die het gezondheidszorgsysteem heeft overweldigd.
Hoewel veel van de details van de statistieken nog niet bekend zijn, merkte de staatsgezondheidsafdeling op dat de gebruikte antilichaamtest (die verschilt van die voor de Californische studies) een geschatte specificiteit van 93 procent tot 100 procent had . Dat suggereert dat de geschatte prevalentie mogelijk nog steeds te hoog is . Maar zelfs met de schatting van gouverneur Cuomo zouden de cijfers de IFR van New York City ongeveer één procent opleveren – tien keer hoger dan de seizoensgriep.