Meta-analyse: mogelijkheden en beperkingen

PublicatieNr. 8 - 17 augustus 2012
Jaargang46
RubriekHoofdartikel
Auteurdr O.M. Dekkers
Pagina's85-92

onder medeverantwoordelijkheid van de redactiecommissie

De meta-analyse wordt vaak beschouwd als de hoogste vorm van wetenschappelijk bewijs. Het uitvoeren van dit soort onderzoek kost relatief weinig tijd en geld. De kwaliteit van de meta-analyse is afhankelijk van de kwaliteit van de ingesloten onderzoeken en de keuzen van de onderzoekers ten aanzien van bijvoorbeeld het selectieproces van artikelen. Men dient een meta-analyse daarom altijd kritisch te beschouwen (Gebu 2012; 46: 85-92).

 

Inleiding

Terug naar boven

Meta-analysen trekken veel aandacht en het aantal gepubliceerde meta-analysen is in de afgelopen twee decennia sterk gegroeid. In de elektronische zoekmachine voor wetenschappelijke publicaties PubMed levert een zoekactie naar meta-analysen gepubliceerd in de laatste vijf jaar bijna 20.000 titels op. Dat waren twintig jaar eerder maar 600 in eenzelfde tijdsperiode. Er lijken twee belangrijke drijfveren te zijn voor deze exponentiële toename: daar waar steeds meer nadruk op bewijs en bewijskracht wordt gelegd, worden meta-analysen vaak beschouwd als de hoogste vorm van bewijs. Tegelijkertijd is de hoeveelheid tijd en geld die het kost om een meta-analyse uit te voeren en te publiceren relatief gering. Zo hoeven geen patiënten te worden ingesloten, geen dure onderzoeken of bepalingen te worden gedaan en hoeft niet jaren op resultaten te worden gewacht. Daarbij komt dat de statistische basistechnieken betrekkelijk eenvoudig zijn en dat computerprogramma’s voorzien in de mogelijkheden om de statistische analysen makkelijk uit te voeren.
Tegelijkertijd is er weerstand tegen meta-analysen. Belangrijke redenen hiervoor zijn dat aan iedere meta-analyse keuzen ten grondslag liggen die gedeeltelijk arbitrair zijn en dat verschillende meta-analysen over hetzelfde onderwerp een tegengestelde conclusie kunnen opleveren.
Ook in het Geneesmiddelenbulletin worden regelmatig meta-analysen beschreven. Het laatste overzichtsartikel hierover dateert uit 1995 (Gebu 1995; 29: 11-16). Omdat sindsdien nieuwe inzichten zijn opgedaan over deze vorm van wetenschappelijk onderzoek, is het zinvol de basisprincipes van een systematisch literatuuroverzicht en meta-analyse te bespreken en in te gaan op de mogelijkheden, valkuilen en de interpretatie ervan. Ten slotte volgt een plaatsbepaling.

Meta-analyse rofecoxib.
 

Systematisch literatuuroverzicht en meta-analyse

Terug naar boven

Algemeen. Het systematische literatuuroverzicht heeft als uitgangspunt een vraagstelling. Hieruit volgt de zoekstrategie en worden de in- en uitsluitcriteria vastgesteld. Van ingesloten artikelen worden, meestal door twee onderzoekers, de belangrijkste karakteristieken en resultaten verzameld. Al deze aspecten vallen onder de noemer van het systematische literatuuroverzicht. De meta-analyse is de kwantitatieve stap van het proces, namelijk het statistisch bewerken van de gegevens uit de individuele onderzoeken om tot een gemiddelde schatting van het effect ofwel effectschatter te komen. In deze paragraaf zullen de vraagstelling in relatie tot de zoekstrategie en de in- en uitsluitcriteria worden besproken en worden toegelicht met een voorbeeld.
Vraagstelling en zoekstrategie. Zoals bij ieder onderzoek is ook voor een meta-analyse het uitgangspunt meestal een klinische vraagstelling. Deze kan heel specifiek zijn (bv. wat is het effect van acetylsalicylzuur 100 mg op het voorkomen van een recidief myocardinfarct bij mannen boven de 75 jaar?), maar ook meer algemeen (bv. wat is het effect van acetylsalicylzuur op de secundaire preventie van cardiovasculaire aandoeningen?). Op basis van de onderzoeksvraag worden zoektermen gedefinieerd die worden gebruikt om in elektronische zoekmachines, zoals PubMed of Embase, naar relevante artikelen te zoeken om een (systematisch) literatuuroverzicht te verkrijgen.
Het opstellen van een goede zoekstrategie is cruciaal. Is de zoekstrategie bijvoorbeeld te breed (sensitief), dan zullen relatief veel artikelen worden gevonden die voor de vraagstelling niet relevant zijn. Omgekeerd kan een te smalle (specifieke) zoekstrategie ertoe leiden dat artikelen worden gemist. De eerste situatie brengt extra werk voor de onderzoekers met zich mee, de tweede situatie kan tot een niet-valide conclusie leiden. Het verdient aanbeveling om een zoekstrategie op te stellen in samenspraak met een bibliothecaris. Het kan gebeuren dat in de periode tussen de zoekstrategie en de publicatie van de meta-analyse artikelen verschijnen die niet konden worden meegenomen. Dit kan betekenen dat een meta-analyse ten tijde van de publicatie al achterhaald is.

Precieze vraagstelling.
Als onderzoekers een meta-analyse willen uitvoeren naar de werkzaamheid van antibiotica bij de behandeling van infecties van de huid en weke delen dienen zij hun vraagstelling precies te formuleren. Deze infecties kunnen zowel met lokale als orale antibiotica worden behandeld. De resultaten van onderzoeken met verschillende formuleringen antibiotica (en verschillende indicaties) kunnen dan niet zonder meer statistisch worden samengevat. De vraagstelling zou dan kunnen luiden: wat is de werkzaamheid van lokale antibiotica bij de behandeling van impetigo?

Vraagstelling en in- en uitsluitcriteria. De vraagstelling bepaalt vervolgens welke artikelen in het systematische literatuuroverzicht worden in- of uitgesloten. Ten dele volgen die uit de vraagstelling. Zo zal een meta-analyse naar het effect van acetylsalicylzuur 100 mg zich beperken tot onderzoeken die precies deze interventie hebben onderzocht. Maar de praktijk is vaak weerbarstiger. Wanneer men bijvoorbeeld het effect van een geneesmiddel in een populatie van mensen van 75 jaar en ouder wil onderzoeken, kiest men dan voor onderzoeken met een populatie van gemiddeld 75 jaar of ouder, of worden alleen onderzoeken meegenomen die patiënten insluiten vanaf 75 jaar? Kan een onderzoek worden ingesloten waarin een klein deel van de patiënten niet acetylsalicylzuur 100 mg neemt, maar 80 mg? Worden alleen onderzoeken ingesloten die heel strikt de vraagstelling beantwoorden of ook onderzoeken die de vraagstelling benaderen? Het is goed te beseffen dat onderzoekers hier keuzen moeten maken. Met name voor meta-analysen van observationele onderzoeken zijn die keuzen soms lastiger, omdat anders dan bij gerandomiseerde onderzoeken de afzonderlijke observationele onderzoeken vaak minder strenge en heldere insluitcriteria gebruiken. De keuze zal gedeeltelijk ook pragmatisch zijn: zijn genoeg onderzoeken over het onderwerp gepubliceerd, dan is het makkelijk om selectief te zijn. Bij meta-analysen over zeldzame aandoeningen of behandelingen kan het hanteren van te selectieve insluitcriteria ertoe leiden dat weinig onderzoeken worden meegenomen.
Voorts dienen onderzoeksgegevens die alleen als ’abstracts’ zijn gepubliceerd, bij voorkeur niet te worden ingesloten omdat de gegevens hierin minder betrouwbaar zijn.
Het selectieproces is mede van invloed op de resultaten en de conclusie van de meta-analyse. Het insluiten van verschillende onderzoeken is één van de redenen waarom resultaten van twee meta-analysen over eenzelfde onderwerp een verschillende conclusie kunnen opleveren. De daaropvolgende wetenschappelijke discussie kan zich dan toespitsen op de vraag in hoeverre het uitsluiten van bepaalde artikelen was gerechtvaardigd.3 4
Nagenoeg elke meta-analyse bevat een stroomdiagram waarin het proces van in- en uitsluiten van onderzoeken is weergegeven (zie kader, pag. 86). In een dergelijk diagram is te zien hoeveel artikelen, en met welke reden, niet werden ingesloten. Dit draagt bij aan de transparantie van een meta-analyse.

Voorbeeld: kritiek op selectie van artikelen voor meta-analyse.
Er dient bij een zoekactie en selectie van artikelen rekening te worden gehouden met het gegeven dat geneesmiddelen zijn geregistreerd voor bepaalde indicaties en in bepaalde doseringen. In 2009 verscheen in de Cochrane-bibliotheek een meta-analyse over de lokale behandeling van psoriasis vulgaris.5 Hierin werd onder meer de werkzaamheid van het vitamine-D-preparaat calcitriol in vergelijking met placebo onderzocht. In totaal werden vijf onderzoeken opgenomen in de meta-analyse. Die toonden dat er geen statistisch significant verschil was tussen calcitriolzalf en placebo. In één onderzoek, waarin geen duidelijk positief effect van calcitriol werd gevonden, werd echter een dosering gebruikt die lager was dan de geregistreerde dosering.6 De onderzoekers hebben dit onderzoek ten onrechte ingesloten in de meta-analyse, met als gevolg een onderschatting van het effect van calcitriolzalf (Gebu 2011; 45: 73-80).

Voorbeeld: onderzoeksvraag kan niet worden beantwoord.
In een meta-analyse, die recent in het New England Journal of Medicine werd gepubliceerd, werden onderzoeken ingesloten waarin de werkzaamheid van vitamine D (colecalciferol)-suppletie (800 IE/dg.) werd vergeleken met een gecombineerde behandeling met calcium, alleen calcium of placebo ter voorkoming van heupfracturen en niet-vertebrale fracturen.7 Vitamine D verlaagde het risico op niet-vertebrale fracturen vergeleken met controlebehandelingen (benaderd RR 0,93 [0,97-0,99]), maar niet van heupfracturen.7 In een begeleidend commentaar wordt aangegeven dat van de meeste patiënten (86%) in de ingesloten onderzoeken de vitamine D-concentratie bij aanvang van het onderzoek niet bekend was.8 De achterliggende gedachte hierbij is dat suppleren mogelijk niet werkzaam is als er geen sprake is van een deficiëntie of als onvoldoende wordt gesuppleerd in geval van een ernstige deficiëntie. Derhalve zou doseren op basis van de aanvangsconcentratie mogelijk geschikter zijn. De auteur van het commentaar concludeert dan ook dat de vraag welke dosis het meest geschikt is op basis van deze meta-analyse niet kan worden beantwoord.8

Gegevensanalyse. Uiteindelijk worden van alle ingesloten onderzoeken de belangrijkste karakteristieken en de effectschatters in een gegevensbestand gezet voor statistische analyse. Om de betrouwbaarheid van de gegevens te vergroten, is het gebruikelijk dat twee onderzoekers onafhankelijk van elkaar de gegevens verzamelen. Ten eerste om fouten te voorkomen en ten tweede omdat het verzamelen van gegevens uit artikelen lastig blijkt.5 Niet in alle ingesloten artikelen is het duidelijk wat de insluitcriteria waren, hoe lang de patiënten werden gevolgd (follow-up), van hoeveel patiënten deze niet compleet was en wat de precieze dosis van een behandeling was. Maar ook gegevens die nodig zijn voor de statistische analyse, zoals de exacte groepsgrootte of het betrouwbaarheidsinterval van de effectschatter, zijn niet altijd te vinden. Wanneer belangrijke informatie in een artikel ontbreekt, kunnen onderzoekers proberen de gegevens bij de auteurs te achterhalen. De praktijk wijst uit dat pogingen veelal niet succesvol zijn, vooral wanneer het oudere onderzoeken betreft.

In- of uitsluiten van publicaties in verschillende talen.
Elke meta-analyse begint met een zoekstrategie waarbij moet worden aangegeven of artikelen in alle talen moeten worden meegenomen. Ook de keuze voor een taal heeft consequenties voor het in- en uitsluiten van onderzoeken in een meta-analyse. Auteurs beperken zich vaak tot onderzoeken gepubliceerd in het Duits, Engels, Frans of Spaans en soms zelfs tot alleen Engelstalige onderzoeken. Zo is bijvoorbeeld bekend dat Engelstalige gerandomiseerde onderzoeken over het algemeen een positiever effect laten zien dan vergelijkbare onderzoeken gepubliceerd in het Duits.10 Chinese artikelen worden vaak om pragmatische redenen niet meegenomen.11

 

Statistiek

Terug naar boven

Gewogen gemiddelde. Het basisprincipe van de statistische analyse in meta-analysen is dat van de effecten van de individuele onderzoeken een gewogen gemiddelde wordt berekend. De optelsom van alle onderzoeken leidt tot een heldere conclusie samengevat in een enkel getal. Zo is het resultaat van 42 onderzoeken gecombineerd in een meta-analyse dat het gebruik van rosiglitazon gepaard gaat met een 43% toegenomen relatief risico op een myocardinfarct.12 Hierbij kunnen de effectschatters odds ratios (OR’s), relatieve risico’s (RR’s) dan wel risicoverschillen (RV’s) worden opgeteld (zie begrippenlijst hieronder), de statistische basisprincipes blijven dezelfde. Voor de klinische praktijk zijn absolute risico’s, bijvoorbeeld uitgedrukt als een 'Number Needed to Treat/Harm' (NNT en NNH), beter te gebruiken dan relatieve risico’s omdat zij een duidelijker beeld geven van wat werkelijk wordt bereikt.
We noemen het gemiddelde 'gewogen' omdat een onderzoek meer bijdraagt aan het gemiddelde naarmate het effect in dat onderzoek preciezer is geschat. In de praktijk betekent dit dat in een meta-analyse grote onderzoeken zwaarder wegen dan kleine onderzoeken.

Begrippenlijst.

Gewogen gemiddelde: een gemiddelde dat wordt berekend op basis van de effectschatters (bv. odds ratio’s) van de individuele onderzoeken waarbij wordt gewogen naar grootte.
Forest plot: de forest plot is een grafische weergave van de effecten van de in een meta-analyse ingesloten onderzoeken (zie fig. 2, pag. 86).
Number Needed to Treat (NNT): het NNT geeft het aantal patiënten weer dat men moet behandelen om ten opzichte van de therapie waarmee men vergelijkt (bv. placebo) bij één extra patiënt een gunstige uitkomst te verkrijgen of één ongunstige te voorkomen. Het NNT wordt als volgt berekend: NNT = 1/ARR, waarbij ARR staat voor de absolute risicoreductie, ook wel risicoverschil genoemd (zie hieronder).
Als met behandeling X het risico op een myocardinfarct 6% is, en met behandeling Y 11%, dan is de absolute risicoreductie 11% – 6% = 5%. Het NNT is dan 1/0,05 = 20. Met andere woorden: 20 patiënten dienen met behandeling X te worden behandeld om één myocardinfarct te voorkomen.
Number Needed to Harm (NNH): een maat voor het aantal patiënten dat moet worden behandeld alvorens een ongunstige uitkomst wordt verkregen.
Odds ratio (OR): een maat die het relatief risico (RR) benadert, gedefinieerd als de kans dat een gebeurtenis plaatsvindt gedeeld door de kans dat deze niet plaatsvindt.
Relatief risico (RR): het risico op een bepaalde gebeurtenis in de behandelde groep (Ry) gedeeld door het risico in de controlegroep (Rx). Formule: RR = Ry/Rx.
Risicoverschil (RV): het verschil in risico’s tussen twee groepen (RV = Ry-Rx).

Forest plot. De ’forest plot’ is een grafische weergave van de effecten van de in een meta-analyse ingesloten onderzoeken. In het kader op pagina 86 is een forest plot weergegeven van de besproken meta-analyse over het risico op myocardinfarct bij het gebruik van rofecoxib.1 De effectschatters van de individuele onderzoeken zijn grafisch weergegeven met een blokje per onderzoek. De lijn die door het blokje loopt, geeft het 95%-betrouwbaarheidsinterval weer. Het gewicht van het onderzoek wordt uitgedrukt in de grootte van het blokje: hoe groter het blokje, des te zwaarder het meeweegt in de statistische samenvatting.
Voor observationele onderzoeken is het allerminst vanzelfsprekend dat de grootste onderzoeken de beste zijn en dus het grootste gewicht zouden moeten krijgen. Denk hierbij aan grote onderzoeken gebaseerd op nationale gegevensbestanden. Deze bestanden hebben het voordeel van grote aantallen met zeer smalle betrouwbaarheidsintervallen, maar het nadeel is dat vaak slechts beperkte klinische gegevens beschikbaar zijn met het risico op het onjuist classificeren (misclassificatie) van behandeling, risicofactoren en aandoeningen. Het patiëntenaantal in dergelijke bestanden is vaak zo groot dat het kan zijn dat in een meta-analyse het betreffende onderzoek het gewogen gemiddelde voor het grootste deel bepaalt. Hoewel discussie bestaat over de vraag of wegen naar precisie (onderzoekgrootte) in meta-analysen van observationele onderzoeken gewenst is, bestaat er geen eenduidige oplossing voor dit probleem. Een manier om gedifferentieerd met de ingesloten onderzoeken om te gaan, is een goede ’risk of bias’-analyse (zie verder) te verrichten.
Fixed of random effects-model. Er zijn twee statistische technieken om een gemiddeld effect te berekenen: het ’fixed effects’-model en het ’random effects’-model. Een fixed effects-model gaat er van uit dat alle onderzoeken in de meta-analyse in werkelijkheid hetzelfde effect schatten en dat de verschillen in effect tussen onderzoeken alleen op het toeval berusten. Die aanname is streng. Bij een meta-analyse naar het effect van acetylsalicylzuur op de secundaire preventie van cardiovasculaire aandoeningen is snel te zien dat niet alle onderzoeken hetzelfde effect schatten. Het zal in een dergelijke meta-analyse immers gaan om verschillende patiënten (bv. patiënten na een myocardinfarct of na een CVA), verschillende interventies (bv. verschillende doseringen acetylsalicylzuur) en ook verschillende uitkomsten. Maar zelfs bij een meta-analyse met een beperktere vraagstelling (bv. wat is het effect van acetylsalicylzuur 100 mg op het voorkomen van een recidief myocardinfarct bij mannen boven de 75 jaar?) is het de vraag of alle onderzoeken in werkelijkheid hetzelfde effect schatten. De onderzoeken zijn immers veelal uitgevoerd in verschillende landen met patiënten met een verschillende gemiddelde leeftijd. Veel auteurs laten zich voor een antwoord op deze vraag leiden door statistische toetsen die moeten aangeven of alleen het toeval het verschil tussen de resultaten van de onderzoeken kan verklaren. Zo niet dan is er sprake van statistische heterogeniteit. De I2 is een veel gebruikte maat voor statistische heterogeniteit. Het geeft het percentage variatie tussen de effectschatters van de verschillende onderzoeken weer dat niet door het toeval kan worden verklaard. Een I2 van 60% geeft dus aan dat 60% van de verschillen tussen de onderzoeken niet door het toeval is te verklaren. Het nadeel van deze statistische toetsen is dat ze bij een beperkt aantal ingesloten onderzoeken (veelal tot 10) niet goed statistische heterogeniteit kunnen uitsluiten.13

Fixed versus random effects-model.
In een meta-analyse die in 2004 in The Lancet verscheen, werden de resultaten van gerandomiseerde onderzoeken statistisch samengevat met als doel vast te stellen wat het effect van atenolol op cardiovasculaire morbiditeit en mortaliteit is.14 Uit de resultaten van vijf onderzoeken (tot. 17.671 pat.) bleek dat atenolol het relatieve risico op cardiovasculaire mortaliteit verhoogde vergeleken met andere antihypertensieve behandelingen (1,16 [1,00-1,34]).14
De patiëntkenmerken, waaronder de leeftijdsverdeling en ook comorbiditeit, van de ingesloten onderzoeken verschilden sterk. Bij een dergelijke heterogeniteit kan niet worden verondersteld dat de onderzoeken voldoende gelijk zijn om deze met een fixed effects-model samen te vatten. Dit werd wel gedaan door de auteurs van de meta-analyse, maar de keuze voor dit model werd niet onderbouwd. Een random effects-model zou in dit geval geschikter zijn.15 Als dit model werd gebruikt in de analyse bleek dat bij atenolol geen sprake was van een significant verhoogd risico op cardiovasculaire sterfte (RR 1,14 [0,87-1,50]).15

Het random effects-model gaat niet uit van de aanname dat alle onderzoeken in werkelijkheid hetzelfde effect schatten. Het statistische model houdt rekening met het feit dat het ware effect van de individuele onderzoeken kan verschillen. In de praktijk betekent dit dat het betrouwbaarheidsinterval van het gemiddelde effect in een random effects-model iets breder is dan bij een fixed effects-model. Een random effects-model schat door het iets bredere betrouwbaarheidsinterval iets conservatiever en zal minder snel een significant resultaat geven in vergelijking met een fixed effects-model. De berekende effectschatter zal daarentegen meestal weinig verschillen. Naast de keuze voor een fixed effects- of random effects-model, moeten onderzoekers nog meer modelkeuzen maken. De achtergronden van deze modelspecificaties vergen veel statistische voorkennis en zijn voor het begrip van een meta-analyse veelal van secundair belang.

Rosiglitazon: discussie analysemethode overschaduwt boodschap.
Discussies over de keuze van een model overschaduwen soms de boodschap van een meta-analyse. Toen vijf jaar geleden in een meta-analyse werd geconcludeerd dat rosiglitazon een verhoogd risico op myocardinfarct met zich meebracht,12 kregen de auteurs veel kritiek. Deze kritiek richtte zich voornamelijk op de door de auteurs gekozen statistische methode. In hoog tempo volgden een aantal publicaties waar dezelfde gegevens aan andere statistische modellen werden onderworpen. Verschillende onderzoeken toonden dat het risico iets lager zou uitvallen en mogelijk niet meer significant zou zijn bij gebruik van een ander model. De discussie ging voorbij aan het feit dat geneesmiddelen die op de markt zijn gekomen voor de behandeling van diabetes mellitus door het verlagen van het HbA1C-gehalte cardiovasculaire incidenten zouden moeten voorkomen. Ongeacht de analysetechniek viel de richting van het gemiddelde effect steeds uit in het nadeel van rosiglitazon. Na de publicatie van het ’Rosiglitazone Evaluation for Cardiac Outcomes and regulation of Glycaemia in Diabetes’ (RECORD)-onderzoek (Gebu 2010; 44: 7-8) werd de handelsvergunning van rosiglitazon door de autoriteiten geschorst.16 Hoewel dit onderzoek een niet-significante toename van myocardinfarcten liet zien, was de richting van het effect opnieuw ten nadele van het nieuwe middel.

 

Wel of geen kwantitatieve meta-analyse uitvoeren?

Terug naar boven

Niet alle systematische literatuuroverzichten worden vergezeld van een kwantitatieve meta-analyse. De meest voor de hand liggende reden is dat voor de onderzoeksvraag geen artikelen zijn gevonden. Hoewel de resultatenparagraaf dan bijzonder kort uitvalt, ’er werden geen onderzoeken gevonden die aan de insluitcriteria voldeden’,17 kan een dergelijk artikel een belangrijk signaal afgeven en mogelijk de aanzet vormen voor nieuw onderzoek.
Heterogeniteit. Veel vaker besluiten auteurs om andere redenen van de ingesloten artikelen geen gewogen gemiddelde te berekenen en een meta-analyse achterwege te laten.18 De reden kan zijn dat auteurs de onderzoekpopulaties te heterogeen, de onderzoeksopzetten te verschillend (bv. gerandomiseerde en observationele onderzoeken), of de uitkomsten niet vergelijkbaar (bv. odds ratios en correlatiecoëfficiënten) vonden. Wanneer bijvoorbeeld het effect van een specifiek antibioticum in verschillende populaties is onderzocht, dan kan het zijn dat de auteurs op basis van verschillende resistentiepatronen in de onderzoekspopulaties concluderen dat het berekenen van een gemiddeld effect niet zinnig is. Soortgelijke bedenkingen kunnen aan de orde zijn wanneer in ingesloten onderzoeken patiënten van verschillende leeftijdscategorieën zijn onderzocht.
Toch is de vraag hoe valide de argumenten zijn voor het niet willen middelen in de aanwezigheid van heterogene onderzoekpopulaties. Ten eerste kan men zich afvragen of in het geval van heterogene onderzoekpopulaties de onderzoeksvraag specifiek genoeg was. In het geval van een meta-analyse naar antibioticagebruik weet men van tevoren dat er een verschillende mate van resistentie bestaat. Een oplossing zou kunnen zijn om een dergelijke meta-analyse te beperken tot onderzoeken uit landen met een vergelijkbaar resistentiepatroon. Een tweede oplossing zou zijn om gestratificeerde analysen te verrichten: één voor populaties met veel en één voor populaties met weinig resistentie. Daarnaast zijn er ook statistische mogelijkheden die juist van de heterogeniteit gebruik maken. Zo kan een bepaalde analyse worden gebruikt om bijvoorbeeld te laten zien hoe een therapeutisch effect afhangt van de leeftijd van de onderzoekspopulatie.19 Dit wordt een metaregressie-analyse genoemd en met deze techniek kan worden onderzocht of uitkomsten anders zijn in verschillende subgroepen van onderzoeken.

Het selectieproces van artikelen is van invloed op de resultaten en de conclusie van een meta-analyse.

Ook verschillen in onderzoeksopzet kunnen voor auteurs een reden zijn om geen gewogen gemiddelde te berekenen.13 In cohortonderzoeken en patiëntcontrole-onderzoeken wordt over het algemeen eenzelfde effect geschat en de resultaten daarvan kunnen daarom meestal zonder problemen worden samengevoegd.20 Veel vaker is de vraag in hoeverre gerandomiseerde en observationele onderzoeken samen binnen een meta-analyse passen. Kunnen observationele onderzoeken naar het effect van acetylsalicylzuur 100 mg als secundaire cardiovasculaire preventie worden opgeteld bij gerandomiseerde onderzoeken? Voor het antwoord op deze vraag moet dieper worden ingegaan op het verschil tussen gerandomiseerde en observationele onderzoeken hetgeen wordt uiteengezet in de volgende paragraaf.

 

Observationeel versus gerandomiseerd onderzoek

Terug naar boven

Bij observationeel onderzoek heeft de onderzoeker geen invloed op het beloop van de aandoening. Dit is anders dan bij experimenteel onderzoek, zoals een gerandomiseerd onderzoek, waar een interventie (bv. leefstijlinterventie, geneesmiddel) omwille van het onderzoek wordt ingezet bij patiënten met een bepaalde aandoening. Bij observationeel onderzoek observeert de onderzoeker het beloop van en verzamelt gegevens over de aandoening en in tweede instantie worden deze gegevens geanalyseerd. Het cohortonderzoek, het dwarsdoorsnede-onderzoek en het patiëntcontrole-onderzoek zijn veel gebruikte vormen van observationeel onderzoek (Gebu 1999; 33: 127-134).21 Een voorbeeld van observationeel onderzoek is onderzoek waarin de prognose van een aandoening wordt onderzocht. Welke proportie van patiënten met schildkliercarcinoom is na vijf jaar nog in leven? Hoeveel patiënten met diabetes mellitus ontwikkelen in de loop der tijd een auto-immuun hypothyreoïdie?
Vaak worden effecten van een medische interventie ook observationeel onderzocht. De onderzoeker beschrijft en analyseert hoe het een groep patiënten is vergaan die met een bepaald middel is behandeld. Eventueel kan in een dergelijk onderzoek een vergelijking met een ander middel worden gemaakt. Zo werd in een onderzoek bij patiënten met een myocardinfarct onderzocht of de mortaliteit lager was in de groep die bij binnenkomst een statine gebruikte, in vergelijking met de groep die geen statine gebruikte.22 De onderzoekers vonden een duidelijk positief effect van statinen. De vraag is hoe overtuigend deze conclusie is. In dit onderzoek werd de keuze voor de behandeling met statinen niet door de onderzoekers bepaald. Met andere woorden: de onderzoekers hebben patiënten die in de dagelijkse praktijk statinen kregen, vergeleken met patiënten die geen statinen gebruikten. Eerder onderzoek heeft laten zien dat statinegebruik wordt gekenmerkt door een ’healthy user’-effect: statinegebruikers zijn vaker gestopt met roken, zijn vaker gaan wandelen.23 Gebruikers van statinen hebben dus een gezondere leefstijl dan mensen van dezelfde leeftijd, geslacht en met een vergelijkbare voorgeschiedenis die geen statinen gebruiken. Dit betekent dat in observationeel onderzoek een directe vergelijking tussen statinegebruikers en niet-gebruikers mank gaat, de groepen hebben immers niet dezelfde basisprognose. Wanneer nu, zoals in het bovengenoemde observationele onderzoek, een verschil in mortaliteit wordt gevonden tussen statinegebruikers en de controlegroep, dan kan het zijn dat het verschil in uitkomst is terug te voeren op een verschil in gezondheidskenmerken tussen de onderzochte groepen en niet op de interventie, in dit geval de statine. Deze vorm van vertekening, die tot onvergelijkbaarheid leidt, wordt confounding genoemd. Observationele onderzoeken hebben het nadeel dat confounding niet op adequate wijze kan worden opgelost, ook niet met behulp van geavanceerde statistische modellen.24

Bijwerkingen onderzocht in een meta-analyse: een relevante vervolgduur?
Stel dat men onderzoek wil doen naar de vraag of het gebruik van bepaalde soorten insuline gepaard gaat met een verhoogd risico op kanker. Het ontstaan en de progressie van een nieuwe tumor duurt lang. Een dergelijk onderzoek zou insulinegebruikers jaren moeten volgen. Een paar jaar geleden ontstond een discussie over een mogelijk verhoogd risico bij het gebruik van insuline glargine. Om de veiligheid van een vergelijkbaar product, insuline detemir, aan te tonen werd een meta-analyse uitgevoerd met als eindpunt kanker.27 Voor deze meta-analyse werd gebruikgemaakt van een analyse met zogenoemde ’Individual Patient Data’ ofwel individuele patiëntengegevens. Bij een dergelijke analyse worden gegevens verzameld en geanalyseerd op het niveau van de patiënt. Dat is anders dan voor een meta-analyse waarbij de gemiddelde uitkomsten alleen op artikelniveau worden meegenomen in de analyse (bv. percentage patiënten met kanker). De conclusie was dat er geen associatie tussen insuline detemir en kanker kon worden aangetoond. De auteurs sloten alleen gerandomiseerde onderzoeken in als deze een vervolgduur hadden van ten minste drie maanden. Omdat de auteurs alle gegevens op patiëntniveau tot hun beschikking hadden, was het mogelijk geweest de analyse te beperken tot patiënten die ten minste gedurende een voor de uitkomst relevante tijd werden behandeld met insuline. Nu zijn ook patiënten die slechts één dag met insuline zijn behandeld, meegenomen in de analyse. De auteurs hadden een overtuigender meta-analyse geproduceerd wanneer ze zich hadden beperkt tot patiënten en onderzoeken met een voor deze vraagstelling adequate behandelduur (bv. >1 jr.). Bovendien hadden zij beter niet alleen gerandomiseerde onderzoeken, maar ook observationele onderzoeken kunnen meenemen.

Anders dan bij observationeel onderzoek wordt aan patiënten die deelnemen aan een gerandomiseerd onderzoek een medische interventie gegeven met onderzoek als doel. Het grote verschil met observationeel onderzoek is dat bij gerandomiseerd onderzoek het toeval bepaalt wie welke interventie krijgt. De randomisatie garandeert daarbij dat de groepen die moeten worden vergeleken ook daadwerkelijk vergelijkbaar zijn en dezelfde basisprognose hebben. Wanneer in een gerandomiseerd onderzoek een behandeling met een statine wordt vergeleken met placebo, dan zal, anders dan in het voorbeeld van het observationele onderzoek, het basisrisico vergelijkbaar zijn tussen de twee groepen. Het is goed om te beseffen dat met name in kleinere gerandomiseerde onderzoeken er door het toeval wel degelijk verschil in risicofactoren tussen de groepen kan voorkomen.
De onvergelijkbaarheid in het hierboven beschreven observationele voorbeeld is niet aan de orde bij zeldzame bijwerkingen en onverwachte effecten. Wanneer een arts acetylsalicylzuur 100 mg voorschrijft, gebeurt dit onafhankelijk van het risico op het ontwikkelen van een coloncarcinoom. Gebruikers van acetylsalicylzuur 100 mg hebben van tevoren dus een vergelijkbaar risico op coloncarcinoom als niet-gebruikers en een vergelijking voor deze uitkomst in observationeel onderzoek is daarmee even valide als in een gerandomiseerd onderzoek.25 Er is ook empirisch bewijs dat observationeel onderzoek een even valide schatting van bijwerkingen en onverwachte effecten geeft als gerandomiseerd onderzoek.26 Er is dan ook geen reden om in meta-analysen naar (zeldzame) bijwerkingen beide onderzoekontwerpen niet te combineren. Van belang is ook te beseffen dat gerandomiseerde onderzoeken niet altijd de adequate vervolgduur hebben om bijwerkingen op te sporen. De vraagstelling bepaalt dus welke onderzoeken valide effectschatters geven. Voor therapeutische effecten zijn gerandomiseerde onderzoeken de standaard. Voor andere vraagstellingen zijn observationele onderzoeken een alternatief of zelfs de enige mogelijkheid (bv. onderzoek naar risicofactoren van aandoeningen, natuurlijk beloop van aandoeningen). 

 

Risico op bias en kwaliteit

Terug naar boven

Een meta-analyse is gebaseerd op andere onderzoeken en is dus afhankelijk van de kwaliteit van de ingesloten onderzoeken. Dit probleem kan gedeeltelijk worden verdisconteerd door van alle onderzoeken binnen een systematisch literatuuroverzicht een risico-op-bias-analyse uit te voeren. Bij een dergelijke analyse wordt onderzocht of aspecten van de verschillende ingesloten onderzoeken de resultaten minder valide kunnen maken.
Confounding. Een voorbeeld is het blinderen in een gerandomiseerd onderzoek. Door het blinderen weten zowel de onderzoeker als de patiënt niet welke therapie (de experimentele of de standaardtherapie/placebo) de patiënt gebruikt. Aangetoond is dat niet-geblindeerde gerandomiseerde onderzoeken het effect van een therapie vaak overschatten.28 Het beoordelen en registreren van eindpunten is veelal mensenwerk en elk eindpunt in een onderzoek, met uitzondering van mortaliteit, kan in meer of mindere mate onderhevig zijn aan misclassificatie. Voor laboratoriumuitslagen is misclassificatie een beperkt probleem, maar klinisch relevante eindpunten zijn vaak afhankelijk van het oordeel van de onderzoeker. Denk hierbij bijvoorbeeld aan de diagnose trombosebeen bij een onderzoek naar een nieuw middel ter preventie van recidieftrombose. Niet altijd zal echografie een eenduidig antwoord op de vraag geven of er sprake is van een trombosebeen. Wanneer een onderzoeker weet welke therapie de patiënt heeft gebruikt dan zal dit mogelijk meewegen bij de diagnose. En zo kan het zijn dat in een ongeblindeerd onderzoek echografieën van de patiënten met de experimentele interventie anders worden beoordeeld dan de echografieën van patiënten in de controlegroep. In het RECORD-onderzoek werd het effect van rosiglitazon bij patiënten met diabetes mellitus vergeleken met een combinatiebehandeling van een sulfonylureumderivaat met metformine.16 Het onderzoek was niet-geblindeerd. Door de Amerikaanse registratieautoriteit FDA werd een onafhankelijk onderzoek ingesteld.29 Zij liet de formulieren die de onderzoekers voor iedere deelnemer aan het onderzoek invulden nader beoordelen. Bij deze beschouwing bleek dat bij 10% van alle patiënten de eindpuntbeoordeling ten onrechte in het voordeel van rosiglitazon werd afgerond. Dit betekent dat het ware effect van rosiglitazon te positief was. De auteurs concludeerden dat het ongeblindeerde karakter van het onderzoek heeft geleid tot een niet-valide uitkomst. In een meta-analyse kan men aan mogelijke overschattingen door het niet-blinderen tegemoetkomen door een analyse van zowel geblindeerde als ongeblindeerde onderzoeken te doen en deze uitkomsten vervolgens te vergelijken.

De kwaliteit van een meta-analyse is afhankelijk van de kwaliteit van de ingesloten onderzoeken.

Risico op bias. Belangrijk is dat de lezer zich realiseert dat de kwaliteit en het risico op bias niet synoniem zijn. Zo zijn industriegesponsorde onderzoeken doorgaans kwalitatief goed opgezet en uitgevoerd, maar laten ze vaker positieve resultaten zien dan onafhankelijk uitgevoerd onderzoek (Gebu 2003; 37: 112-113). Risico op bias gaat over validiteit van de resultaten, kwaliteit gaat over de vraag in hoeverre een onderzoek optimaal is uitgevoerd. Wanneer een onderzoek niet geblindeerd kan worden uitgevoerd (bv. laparoscopische versus laparotomische chirurgie), kan een onderzoek nog steeds kwalitatief optimaal zijn uitgevoerd. Doordat het onderzoek gedwongen ongeblindeerd is uitgevoerd, bestaat wel een risico op bias. Omgekeerd geeft een slechte berekening van de statistische zeggingskracht ofwel ’power’ geen hoog risico op bias. De validiteit van de onderzoeksresultaten wordt immers niet door de powerberekening beïnvloed, maar bijvoorbeeld wel, zoals hierboven aangegeven, door een blindering. De kwaliteit van het onderzoek is in dit opzicht (powerberekening) echter niet optimaal te noemen.
Criteria kwaliteit. In een meta-analyse wordt idealiter een paragraaf gewijd aan de beoordeling van het risico op bias per onderzoek. Afhankelijk van de onderzoeksvraag zal de risico-op-bias-analyse per meta-analyse verschillen. Voor meta-analysen naar therapeutische effecten in gerandomiseerde onderzoeken is de risico-op-bias-analyse relatief standaard. Een goede leidraad hierbij is het ’Cochrane Handbook for Systematic reviews of interventions’ (te raadplegen via: http://www.mrc-bsu.cam.ac.uk/cochrane/handbook/ )2. Er wordt gekeken naar de adequaatheid van randomisatie- en ’concealment’-procedure, naar blindering van het onderzoek, naar adequaatheid van de eindpuntdefinitie en de methode van vaststellen van de eindpunten en naar ’loss to follow-up’, een term waarmee de patiënten worden aangeduid die zich gedurende de onderzoeksperiode aan de waarneming hebben onttrokken. Vaak blijken zaken die men graag wil beoordelen in het kader van de risico-op-bias-analyse niet goed beschreven. Voor de risico-op-bias-analyse is men dus afhankelijk van de onderzoeksrapportage.
De aanname van een risico-op-bias-analyse is dat onderzoeken met een vermeend hoger risico op bias ook daadwerkelijk effecten minder betrouwbaar schatten. Voor kernaspecten van gerandomiseerde onderzoeken (adequate blindering, adequate behandeltoewijzing) is empirisch aangetoond dat ze samenhangen met de onderzoeksuitkomsten.26 Voor aspecten van observationeel onderzoek is dat echter vooralsnog niet aangetoond. Tevens is het zo dat een risico-op-bias-analyse voor gerandomiseerde onderzoeken min of meer is gestandaardiseerd (zie ook het Cochrane handbook for systematic reviews of interventions2), hetgeen niet geldt voor observationele onderzoeken. Veel auteurs passen dan ook hun risico-op-bias-analyse aan de vraagstelling aan, en beschrijven in de methode van de meta-analyse volgens welke criteria de ingesloten onderzoeken worden beoordeeld.
Heterogeniteit. Uitkomsten van de risico-op-bias-analyse kunnen vervolgens worden gebruikt om heterogeniteit te onderzoeken. Laten onderzoeken zonder blindering een ander effect zien dan geblindeerde onderzoeken? Is de uitkomst afhankelijk van de proportie patiënten die zich gedurende de onderzoeksperiode aan de waarneming hebben onttrokken? Zo bezien kan de risico-op-bias-analyse worden ingezet om verschillen tussen onderzoeken te verklaren. Daarmee krijgt de meta-analyse een extra dimensie. Aangetoonde verschillen tussen onderzoeken zijn dan geen eindpunt, maar het begin van verdere verkenning van deze verschillen.
Kwaliteitsscore. Er zijn legio kwaliteitsscores en allemaal hebben ze een eigen manier om de verschillende kwaliteitsitems van een onderzoek op waarde te schatten. Afhankelijk van de keuze van de kwaliteitsscore, kan de uitkomst van een meta-analyse veranderen.30
Publicatiebias. Niet alle vormen van bias hebben direct betrekking op de ingesloten onderzoeken. Het bekendste voorbeeld is publicatiebias. Publicatiebias hangt samen met het gegeven dat niet alle onderzoeken die zijn uitgevoerd ook daadwerkelijk worden gepubliceerd. Dit is een probleem voor een meta-analyse wanneer het effect in gepubliceerde artikelen afwijkt van het effect in ongepubliceerde artikelen die nagenoeg ontoegankelijk zijn voor onderzoekers. Een meta-analyse beperkt zich immers meestal tot gepubliceerde onderzoeken.
Er zijn sprekende voorbeelden dat gepubliceerde onderzoeken positievere resultaten tonen dan ongepubliceerde onderzoeken. Zo werd in een meta-analyse naar de werkzaamheid van antidepressiva een vergelijking tussen gepubliceerde en ongepubliceerde onderzoeken gemaakt.31 De onderzoekers kregen van de FDA de beschikking over alle onderzoeken die waren ingediend voor registratiedoeleinden van antidepressiva. Degelijke onderzoeken hoeven niet noodzakelijk te zijn gepubliceerd of te worden gepubliceerd. Van alle onderzoeken naar het effect van antidepressiva bleek ruim 30% niet te zijn gepubliceerd. Bovendien bleek het gevonden effect in de ongepubliceerde onderzoeken gemiddeld ruim 30% lager dan in gepubliceerde onderzoeken, waardoor het effect van antidepressiva sterk werd overschat. Van alle onderzoeken zonder significant effect werd 12% gepubliceerd, van alle onderzoeken met een significant positief effect werd 97% gepubliceerd. (Gebu 2008; 42: 45-46). Dit toont dat niet-gepubliceerde onderzoeken vaker een kleiner effect laten zien dan gepubliceerde onderzoeken. Aangezien een meta-analyse bijna altijd is aangewezen op gepubliceerde gegevens, bestaat het risico dat de uitkomst te positief is.32
Er zijn verschillende oorzaken voor het niet-publiceren. Auteurs, sponsors en redacties van tijdschriften kunnen beslissen om een onderzoek niet te publiceren. Het is aannemelijk dat dit vaker onderzoeken zijn met een negatief resultaat.33 34 De hoop is dat de verplichte registratie van gerandomiseerde onderzoeken in een openbaar register op de lange termijn publicatiebias zal verminderen. Onderzoekers zijn recent nagegaan wat de effecten zijn van het opnemen van niet-gepubliceerde artikelen in meta-analysen. Op basis van een heranalyse van 42 meta-analysen toonden zij dat het niet opnemen van ongepubliceerde onderzoeken ertoe kan leiden dat de werkzaamheid of bijwerkingen kunnen worden overschat of onderschat.35

 

Plaatsbepaling

De term meta-analyse geeft een vorm van onderzoek weer. De term is geen synoniem voor kwaliteit of zelfs waarheid. De zeggingskracht van de meta-analyse ligt in haar eenvoud. De meta-analyse is gebaseerd op andere onderzoeken en is daarmee afhankelijk van de kwaliteit van de ingesloten onderzoeken. Het is aan de auteurs om te laten zien dat de keuzen die in een meta-analyse zijn gemaakt (insluiten van onderzoeken, gekozen statistisch model) verdedigbaar zijn, en dat het resultaat van de meta-analyse valide is. Het is aan de lezer om elke meta-analyse kritisch te blijven beschouwen en een zelfstandige interpretatie van de resultaten te kunnen geven.

Terug naar boven

Trefwoorden: meta-analyse, systematisch literatuuroverzicht, bias, confounding, vraagstelling, zoekstrategie, observationeel onderzoek, gerandomiseerd onderzoek, individuele patiëntengegevens, risico-op-bias-analyse, heterogeniteit, forest plot, fixed effects-model, random effects-model

Tabel 1. Stof- en merknamen.

Stof- en merknamen


Literatuurreferenties

1. Jüni P, Nartey L, Reichenbach S, Sterchi R, Dieppe PA, Egger M. Risk of cardiovascular events and rofecoxib: cumulative meta-analysis. Lancet 2004; 364: 2021-2029.
2. Higgins JPT, Green S (red.). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0. The Cochrane Collaboration, 2011. Via: www.cochrane-handbook.org.
3. Shang A, Huwiler-Müntener K, Nartey L, Jüni P, Dörig S, Sterne JA, et al. Are the clinical effects of homoeopathy placebo effects? Comparative study of placebo-controlled trials of homoeopathy and allopathy. Lancet 2005; 366: 726-732.
4. Linde K, Clausius N, Ramirez G, Melchart D, Eitel F, Hedges LV, et al. Are the clinical effects of homeopathy placebo effects? A meta-analysis of placebo-controlled trials. Lancet 1997; 350: 834-843.
5. Mason AR, Mason J, Cork M, Dooley G, Edwards G. Topical treatments for chronic plaque psoriasis. Cochrane Database Syst Rev 2009: CD005028.
6. Van de Kerkhof PCM, Van Bokhoven M, Zultak M, Czarnetzki BM. A double-blind study of topical 1 alpha, 25- dihydroxyvitamin D3 in psoriasis. Br J Dermatol 1989; 120: 661-664.
7. Bischoff-Ferrari HA, Willett WC, Orav EJ, Lips P, Meunier PJ, Lyons RA, et al. A pooled analysis of vitamin D dose requirements for fracture prevention. N Engl J Med 2012; 367: 40-49.
8. Heaney RP. Vitamin D – Baseline status and effective dose [editorial]. N Engl J Med 2012; 367: 77-78.
9. Tendal B, Higgins JPT, Jüni P, Hróbjartsson A, Trelle S, Nüesch E, et al. Disagreements in meta-analyses using outcomes measured on continuous or rating scales: observer agreement study. BMJ 2009; 339: b3128.
10. Egger M, Zellweger-Zähner T, Schneider M, Junker C, Lengeler C, Antes G. Language bias in randomised controlled trials published in English and German. Lancet 1997; 350: 326-329.
11. Pan Z, Trikalinos TA, Kavvoura FK, Lau J, Ioannidis JPA. Local literature bias in genetic epidemiology: an empirical evaluation of the Chinese literature. PLoS Med 2005; 2: e334.
12. Nissen SE, Wolski K. Effect of rosiglitazone on the risk of myocardial infarction and death from cardiovascular causes. N Engl J Med 2007; 356: 2457-2471.
13. Ioannidis JPA, Patsopoulos NA, Evangelou E. Uncertainty in heterogeneity estimates in meta-analyses. BMJ 2007; 335: 914-916.
14. Carlberg B, Samuelsson O, Lindholm LH. Atenolol in hypertension: is it a wise choice? Lancet 2004; 364: 1684-1689.
15. Born BJH van den, Brewster L, Koopmans RP, Montfrans G van. Atenolol en metoprolol beide geschikt als ß-blokker voor de behandeling van hypertensie [2e brief]. Ned Tijdschr Geneesk 2005; 149: 2482-2483.
16. Home PD, Pocock SJ, Beck-Nielsen H, Curtis PS, Gomis R, Hanefeld M, et al. Rosiglitazone evaluated for cardiovascular outcomes in oral agent combination therapy for type 2 diabetes (RECORD): a multicentre, randomised, open-label trial. Lancet 2009; 373: 2125-2135.
17. Cohn D, Vansenne F, de Borgie C, Middeldorp S. Thrombophilia testing for prevention of recurrent venous thromboembolism. Cochrane Database Syst Rev 2009: CD007069.
18. Ioannidis JPA, Patsopoulos NA, Rothstein HR. Reasons or excuses for avoiding meta-analysis in forest plots. BMJ 2008; 336: 1413–1415.
19. Hagenau T, Vest R, Gissel TN, Poulsen CS, Erlandsen M, Mosekilde L, et al. Global vitamin D levels in relation to age, gender, skin pigmentation and latitude: an ecologic meta-regression analysis. Osteoporos Int 2009; 20: 133-140.
20. Knol MJ, Vandenbroucke JP, Scott P, Egger M. What do case-control studies estimate? Survey of methods and assumptions in published case-control research. Am J Epidemiol 2008; 168: 1073-1081.
21. Vandenbroucke JP, Elm von E, Altman DG, Gøtzsche PC, Mulrow CD, Pocock SJ, et al. Strengthening the Reporting of Observational Studies in Epidemiology (STROBE): explanation and elaboration. PLoS Med 2007; 4: e297.
22. Garot P, Bendaoud N, Lefèvre T, Morice M-C. Favourable effect of statin therapy on early survival benefit at the time of percutaneous coronary intervention for ST-elevation myocardial infarction and shock. EuroIntervention 2010; 6: 350-355.
23. Thomsen RW. The lesser known effects of statins: benefits on infectious outcomes may be explained by ’healthy user’ effect [editorial]. BMJ 2006; 333: 980-981.
24. Hernán MA, Robins JM. Instruments for causal inference: an epidemiologist's dream? Epidemiology 2006; 17: 360-372.
25. Vandenbroucke JP. What is the best evidence for determining harms of medical treatment? [comment]. CMAJ 2006; 174: 645-646.
26. Golder S, Loke YK, Bland M. Meta-analyses of adverse effects data derived from randomised controlled trials as compared to observational studies: methodological overview. PLoS Med 2011; 8: e1001026.
27. Dejgaard A, Lynggaard H, Råstam J, Krogsgaard Thomsen M. No evidence of increased risk of malignancies in patients with diabetes treated with insulin detemir: a meta-analysis. Diabetologia 2009; 52: 2507-2512.
28. Jüni P, Altman DG, Egger M. Systematic reviews in health care – Assessing the quality of controlled clinical trials. BMJ 2001; 323: 42-46.
29. Psaty BM, Prentice RL. Minimizing bias in randomized trials: the importance of blinding. JAMA 2010; 304: 793-794.
30. Jüni P, Witschi A, Bloch R, Egger M. The hazards of scoring the quality of clinical trials for meta-analysis. JAMA 1999; 282: 1054-1060.
31. Turner EH, Matthews AM, Linardatos E, Tell RA, Rosenthal R. Selective publication of antidepressant trials and its influence on apparent efficacy. N Engl J Med 2008; 358: 252-260.
32. Egger M, Smith GD. Bias in location and selection of studies. BMJ 1998; 316: 61-66.
33. Hopewell S, McDonald S, Clarke M, Egger M. Grey literature in meta-analyses of randomized trials of health care interventions. Cochrane Database Syst Rev 2007: MR000010.
34. Rising K, Bacchetti P, Bero L. Reporting bias in drug trials submitted to the Food and Drug Administration: review of publication and presentation. PLoS Med 2008; 5: e217.
35. Hart B, Lundh A, Bero L. Effect of reporting bias on meta-analyses of drug trials: reanalysis of meta-analyses. BMJ 2011; 344: d7202.