Het non-inferioriteitsonderzoek

PublicatieNr. 3 - 2 april 2015
Jaargang49
RubriekHoofdartikel
Auteurdr O.M. Dekkers, onder medeverantwoordelijkheid van de redactiecommissie
Pagina's27-34

CME-toets.
Bij dit artikel horen geaccrediteerde toetsvragen (i.s.m. NTvG CME).

Let op: De CME-toetsen zijn vanaf het moment van plaatsing gedurende ongeveer één maand gratis te maken. Na deze maand vervalt de mogelijkheid van het gratis maken.

In het Geneesmiddelenbulletin wordt de werkzaamheid van geneesmiddelen doorgaans besproken op basis van gerandomiseerd dubbelblind onderzoek dat is opgezet om te laten zien dat een nieuw middel werkzamer is dan een bestaande behandeling. In toenemende mate worden onderzoeken gepubliceerd die als doel hebben te bewijzen dat een nieuw middel niet minder werkzaam is dan een bestaande behandeling, zogenoemde non-inferioriteitsonderzoeken. De argumenten voor en tegen het gebruik van dit type onderzoek worden in dit artikel uiteengezet (Gebu 2015; 49: 27-34).

 

Inleiding   | terug naar boven |

Het doel van gerandomiseerd onderzoek is meestal om te onderzoeken of een nieuw geneesmiddel werkzamer is dan een ander middel of placebo, bijvoorbeeld om te bewijzen dat een nieuwe statine beter beschermt tegen een recidief myocardinfarct dan een oudere statine. Dergelijke zogenoemde superioriteitsonderzoeken worden regelmatig in het Geneesmiddelenbulletin besproken.
Het doel en de opzet van non-inferioriteitsonderzoeken zijn wezenlijk anders. Dit type onderzoek is primair bedoeld om te laten zien dat een nieuwe behandeling niet minder werkzaam is dan een andere (standaard)behandeling. In de medische literatuur wordt in de jaren zeventig van de vorige eeuw voor het eerst gesproken over non-inferioriteitsonderzoeken.1 Sindsdien, en vooral in de laatste jaren, neemt het aantal gepubliceerde non-inferioriteitsonderzoeken duidelijk toe.2 De cardiovasculaire geneeskunde en infectieziekten nemen samen ongeveer 50% van de non-inferioriteitsonderzoeken voor hun rekening.3 De vraag dient zich aan waarom onderzoekers genoegen zouden nemen met het tonen dat een behandeling niet minder werkzaam is? Zou het niet altijd de bedoeling van een onderzoek moeten zijn om te tonen dat een nieuwe behandeling werkzamer is?
Adequate interpretatie van het non-inferioriteitsonderzoek vereist inzicht in de opzet en de theoretische achtergrond ervan. In dit artikel komen achtereenvolgens aan de orde de opzet en de analyse van gerandomiseerd onderzoek, de argumenten voor en tegen het gebruik van non-inferioriteitsonderzoek, statistische toetsen en de non-inferioriteitsmarge, het bepalen van de non-inferioriteitsmarge, de vatbaarheid voor manipulatie van de non-inferioriteitsmarge en additionele overwegingen. Ten slotte volgt een plaatsbepaling.

 

Opzet en analyse van gerandomiseerd onderzoek   | terug naar boven |

Onderzoeksprotocol. In het onderzoeksprotocol worden de belangrijkste elementen van een onderzoek vastgelegd, zoals de in- en uitsluitcriteria, het behandelprotocol, de wijze van randomisatie, de uitkomstmaten, de berekening van de steekproefgrootte en de statistische toetsen. Om te voorkomen dat onderzoekers het protocol na het bekend worden van de onderzoeksresultaten aanpassen om deze te verfraaien en om het niet publiceren van onderzoeken met negatieve resultaten (publicatiebias (Gebu 2008; 42: 26-27)) tegen te gaan, is registratie in één van de internationale registers voor klinische onderzoeken (bv. clinicaltrials.gov) nodig. Deze registratie is tevens noodzakelijk om in toonaangevende medische tijdschriften te worden geaccepteerd voor publicatie (Gebu 2006; 40: 9). Bij non-inferioriteitsonderzoek is het vooraf bepalen en protocollair vastleggen van de non-inferioriteitsmarge (zie pag. 30-31) essentieel.
Onderzoekshypothese en statistische toetsen. In superioriteitsonderzoek luidt de nulhypothese (H0): er is geen verschil in werkzaamheid tussen twee behandelingen. De alternatieve hypothese (H1) stelt dat er wel een verschil is. Bij non-inferioriteitsonderzoek is de nulhypothese dat het nieuwe middel minder werkzaam is dan de standaardbehandeling. De alternatieve hypothese stelt dat ze niet minder werkzaam is. Een statistische toets wordt vervolgens ingezet om de nulhypothese zo mogelijk te verwerpen. Deze toets geeft een waarschijnlijkheidswaarde ofwel ’probability’ (p)-waarde. De p-waarde zegt echter niets over de absolute effectgrootte. Het is daarom zowel bij superioriteits- als non-inferioriteitsonderzoek van belang om vooral naar de effectschatter en het betrouwbaarheidsinterval te kijken (zie Begrippenlijst hieronder).4
 

Begrippenlijst.
Assay sensitivity. Bewijs dat de standaardbehandeling waarmee in een non-inferioriteitsonderzoek wordt vergeleken werkzaam is (in vergelijking met placebo).
Betrouwbaarheidsinterval. De precisie van een effectschatter wordt weergegeven met het betrouwbaarheidsinterval. In het geval van een 95%-betrouwbaarheidsinterval mag met 95% betrouwbaarheid worden aangenomen dat de onderzoeksuitkomst binnen dit interval ligt.
Constancy assumption. De aanname dat de onderzoeken waarop de berekening van de non-inferioriteitsmarge is gebaseerd, vergelijkbaar zijn met het huidige non-inferioriteitsonderzoek.
Effectschatter. De schatting van een behandeleffect met een associatiemaat, zoals een relatief risico of een risicoverschil, in een bepaald onderzoek.
Intention-to-treatanalyse. Dit betekent dat men de uitkomsten analyseert overeenkomstig de aan het begin van het onderzoek toegewezen behandeling. In een per-protocolanalyse analyseert men alleen de gegevens van de patiënten die het onderzoeksprotocol exact hebben gevolgd.
Statistische significantie. De kans op de uitkomst van een onderzoek als de nulhypothese (geen verschil tussen twee behandelingen) waar is. Voor een p-waarde van 0,05 vertaalt zich dit in een kans van 5%.
Relatief Risico (RR). Het risico op een bepaalde uitkomst in de behandelde groep (Ry) gedeeld door het risico in de controlegroep (Rx). Formule: RR = Ry/Rx.
Risicoverschil. Het verschil in risico’s tussen twee behandelgroepen, ook wel de absolute risicoreductie (ARR) genoemd. Formule: RV = ARR = Ry-Rx.


Klinische relevantie. Statistische toetsen gaan alleen over de vraag of er een verschil is tussen twee behandelingen, niet of dit verschil ook klinisch relevant is. Zo kan een geringe afname van het geglycosyleerde hemoglobinegehalte (HbA1C) met een nieuw middel statistisch significant zijn, maar dit hoeft niet klinisch relevant te zijn. Voorts dient men kritisch te zijn over het gebruik van een dergelijke surrogaatuitkomstmaat. Het is immers niet vanzelfsprekend dat een effect op surrogaatuitkomstmaten resulteert in een effect op klinisch relevante eindpunten, zoals micro- en macrovasculaire complicaties (Gebu 2014; 48: 71-78) (zie ook het kader over Lagere doseerfrequentie, pag. 29).

Analysemethode. In een superioriteitsonderzoek heeft een ’intention-to-treat’-analyse de voorkeur boven een per-protocolanalyse, omdat met de laatste analysemethode het effect van een behandeling kan worden overschat. Dit is anders bij een non-inferioriteitsonderzoek, waar de intention-to-treatanalyse juist eerder een positief effect van het onderzochte middel geeft. Hier verdient de per-protocolmethode de voorkeur. Een uitgebreide uitleg wordt gegeven in de paragraaf Additionele overwegingen.

 

Argumenten voor en tegen het gebruik van non-inferioriteitsonderzoek  | terug naar boven |

Hieronder worden argumenten voor en tegen het gebruik van non-inferioriteitsonderzoek op een rij gezet en enkele voorbeelden gegeven.
Argumenten voor het gebruik van non-inferioriteitsonderzoek. 1. Minder bijwerkingen. Als een middel mogelijk minder bijwerkingen heeft dan kan dit een reden zijn om een non-inferioriteitsonderzoek uit te voeren.5 Het achterliggende idee is dat voor een middel dat niet minder werkzaam is (niet-inferieur) het relevant is dat het minder bijwerkingen heeft. Onderzoekers hebben laten zien dat dit het frequentst genoemde voordeel van de nieuwe behandeling in een non-inferioriteitsonderzoek was.6 Idealiter zou dit moeten worden onderzocht in een superioriteitsonderzoek dat primair is opgezet om de bijwerkingen te onderzoeken.7

Minder bijwerkingen.
In een gerandomiseerd niet-geblindeerd non-inferioriteitsonderzoek werd nagegaan of een lagere dosis radiotherapie (30 Gy) niet minder werkzaam was dan de standaarddosering (40 Gy) bij patiënten met een Hodgkinlymfoom.8 De onderzoekers stelden dat een lagere dosis mogelijk minder langetermijnbijwerkingen zou kunnen hebben. Het primaire eindpunt was het percentage patiënten zonder recidief zeven jaar na het bereiken van remissie, respectievelijk 83 en 78% in beide groepen. De auteurs concludeerden dat de lagere dosis niet-inferieur aan de standaarddosis was.8 De langetermijnbijwerkingen zijn primair niet onderzocht en niet gedocumenteerd. De aanname waarop de keuze voor non-inferioriteitsonderzoek is gebaseerd, blijft daarmee onbewezen.

2. Verbeterd gebruiksgemak. Een verbeterd gebruiksgemak, bijvoorbeeld door een lagere doseerfrequentie of een orale toedieningsvorm in plaats van een intraveneuze, is ook een voordeel dat aanleiding kan zijn om een middel in een non-inferioriteitsopzet te onderzoeken.5 Daarbij kan de vraag worden gesteld of tevens moet worden aangetoond (middels bijvoorbeeld kwaliteit-van-leven-onderzoek) dat het vermeende voordeel ook klinisch relevant is.

Lagere doseerfrequentie.
In een recent gepubliceerd gerandomiseerd niet-geblindeerd onderzoek was het doel te tonen dat wekelijkse toediening van het bloedglucoseverlagende middel exenatide niet-inferieur is aan het dagelijks toedienen van het langwerkende insuline glargine bij patiënten met diabetes mellitus.9 Het primaire eindpunt was de afname van het HbA1c-gehalte, een surrogaatuitkomstmaat. De onderzoekers stelden de marge voor non-inferioriteit op 0,4% (deze marge is niet terug te vinden in het eerste onderzoeksprotocol in het archief van www.clinicaltrials.gov). Zowel exenatide als insuline glargine verlaagden het HbA1c-gehalte ten opzichte van de uitgangswaarde: -1,11 en -0,68%. Het gemiddelde verschil tussen beide groepen was -0,43% (95%BI=-0,59 ─ -0,26). Omdat de bovengrens van dit betrouwbaarheidsinterval de vooraf gestelde marge van 0,4% niet overschreed (zie uitleg verderop), werd geconcludeerd dat exenatide niet minder werkzaam was dan insuline glargine.9
Het voordeel van wekelijkse boven dagelijkse toediening in dit voorbeeld is evident en behoeft geen onderzoek. Dit is gemakkelijker in het gebruik en zou kunnen leiden tot een verbeterde therapietrouw. Gebruiksgemak en therapietrouw zijn overigens geen klinische uitkomstmaten en hebben beperkte betekenis als ze niet resulteren in bijvoorbeeld gezondheidswinst.7 Een belangrijker en relevanter onderzoeksvraag voor artsen en patiënten zou zijn of exenatide werkzamer is op harde eindpunten.

Minder belastende behandeling.
Een ander voorbeeld is een enkelblind onderzoek waarin werd onderzocht of een nieuwe minder belastende methode voor darmvoorbereiding bij een coloscopie even werkzaam is als de standaardvoorbereiding.10 De nieuwe methode was minder restrictief ten aanzien van het dieet 24 uur voorafgaand aan de coloscopie (helder vloeibaar vs. een vezelarm dieet). De nieuwe vezelarme variant bleek niet-inferieur voor het primaire eindpunt, namelijk de mogelijkheid tot visuele inspectie van het colon. Opvallend genoeg echter was de gemeten patiënttevredenheid in beide onderzoeksgroepen vergelijkbaar, waaruit blijkt dat een theoretisch voordeel zich niet altijd in een klinisch relevant voordeel voor de patiënt vertaalt.10

3. Uitbreiding therapeutisch arsenaal. Er zijn middelen die werkzaam zijn gebleken, waarbij het desondanks wenselijk is om alternatieven ter beschikking te hebben. Dit geldt bijvoorbeeld voor de infectieziekten (bv. vaccins, zie kader hieronder)11, waarbij het belangrijk kan zijn om middelen met een ander werkingsmechanisme of bijwerkingenprofiel beschikbaar te hebben. In een situatie met nagenoeg volledige werkzaamheid, zoals bij sommige vaccins, is een superioriteitsonderzoek vaak onmogelijk en kan een non-inferioriteitsonderzoek gerechtvaardigd zijn. In het geval van middelen met een vergelijkbaar werkingsmechanisme, zogenoemde me too’s, is deze onderzoeksopzet ongewenst, omdat deze middelen geen toegevoegde waarde hebben, en dat is bij twee alternatieven al het geval.

Standaardbehandeling werkzaam, (te) veel patiënten nodig in superioriteitsonderzoek.
Een vaccin tegen Japanse encefalitis dat niet in Europa maar wel in de Verenigde Staten, Canada en Australië beschikbaar was, beschermde bij meer dan 90% van de gevaccineerde patiënten en leidde bij 95% tot seroconversie, maar is vanwege ernstige bijwerkingen, zoals anafylaxie, van de markt gehaald. In een onderzoek zouden ongeveer 7.000 patiënten per onderzoeksgroep moeten worden ingesloten om superioriteit van een ander vaccin te kunnen aantonen.5 In een gerandomiseerd enkelblind onderzoek is nagegaan of een nieuw vaccin niet minder werkzaam was in vergelijking met het oude vaccin.12 Het primaire eindpunt was het seroconversiepercentage. Om te bewijzen dat het nieuwe vaccin niet-inferieur was, mocht het verschil in seroconversiepercentage niet meer bedragen dan 10% in het voordeel van het oude vaccin, bezien vanaf de onderzijde van het betrouwbaarheidsinterval. Het seroconversiepercentage was 98% in de groep die het nieuwe vaccin kreeg en 95% in de groep die het oude vaccin kreeg (verschil 3%). Omdat de onderzijde van het betrouwbaarheidsinterval 1,33% was (<10%), concludeerden de onderzoekers dat het nieuwe vaccin niet-inferieur was ten opzichte van het oude vaccin.12 Het is overigens niet duidelijk op basis waarvan de onderzoekers in de discussieparagraaf concluderen dat het nieuwe vaccin ten minste even werkzaam is als het oude vaccin.12

4. Financiële voordelen. Een andere reden om een non-inferioriteitsonderzoek te doen, kan zijn dat een nieuwe behandeling financiële voordelen biedt ten opzichte van reeds bestaande behandelingen.5 Is een nieuw middel bijvoorbeeld goedkoper, dan is sprake van een evident voordeel, en kan het aantonen van non-inferioriteit ten opzichte van een bestaande behandeling gerechtvaardigd zijn.5 Afgezien van het feit dat de prijzen van geneesmiddelen niet afhankelijk zijn van de bewezen werkzaamheid (Gebu 2015; 49: 23-25), is een dergelijk voordeel vooral theoretisch, aangezien nieuwe geneesmiddelen bijna altijd duurder zijn dan de bestaande (uitgezonderd generieke geneesmiddelen). Overigens kan het uitvoeren van een non-inferioriteitsonderzoek voor een fabrikant aantrekkelijk zijn, omdat het eenvoudiger is om te bewijzen dat een middel niet-inferieur is dan om superioriteit te bewijzen.13-15
5. Non-responders.
Non-inferioriteitsonderzoek kan geschikt zijn voor patiënten die niet reageren op een bepaalde behandeling (non-responders). In een dergelijk onderzoek kunnen middelen met een vergelijkbare werkzaamheid worden onderzocht. Als men echter het belang van non-responders op het oog heeft, dan is het relevanter de superioriteit van het nieuwe middel te vergelijken met de geneesmiddelen die geen of weinig effect bij hen hebben.7
6. Meer patiënten nodig?
Een ander argument is dat superioriteitsonderzoeken over het algemeen langer duren en er meer patiënten nodig zijn dan bij een non-inferioriteitsonderzoek (zie kader hierboven). Dat kan een beperking zijn voor onderzoek bij zeldzame ziekten.5 Daardoor zouden potentieel werkzame geneesmiddelen te laat beschikbaar kunnen komen. Als de non-inferioriteitsmarge (zie pag. 30-31) (te) ruim wordt gekozen, hetgeen de geloofwaardigheid van het onderzoek in het geding kan brengen, zijn minder patiënten nodig.11 Het is echter niet zonder meer juist dat non-inferioriteitsonderzoeken altijd met minder patiënten kunnen worden uitgevoerd. Overigens is het later beschikbaar komen van bewezen werkzame geneesmiddelen in het belang van de patiënten te prefereren boven het vroeg beschikbaar komen van mogelijk gunstige middelen waarvan tevens de bijwerkingen niet duidelijk zijn.
Argumenten tegen het gebruik van non-inferioriteitsonderzoek. 1. Onethisch. Er zijn critici die het gebruik van non-inferioriteitsonderzoeken beschouwen als onethisch.13 14 Patiënten worden in dat type onderzoek immers blootgesteld aan de mogelijke bijwerkingen van een middel, terwijl men van dat middel dat enkel de pretentie heeft’ niet-inferieur’ te zijn, geen winst hoeft te verwachten. Met andere woorden: non-inferioriteitsonderzoeken helpen de wetenschap niet vooruit, stellen patiënten onnodig bloot aan risico’s en verhinderen een betere en zinvollere besteding van het onderzoeksbudget.13 14 Patiënten die deelnemen aan een non-inferioriteitsonderzoek dienen hierover te worden geïnformeerd in de zogenoemde ’informed-consent’-verklaring (zie kader).13 Hier ligt ook een verantwoordelijkheid voor wetenschappers en onderzoekers, de medisch-ethische toetsingscommissies en registratieautoriteiten. Zij dienen zich af te vragen wat en waarom men iets wil onderzoeken en of het antwoord op die onderzoeksvraag van belang is. Vrijwel alle voor patiënten relevante onderzoeksvragen dienen met een superioriteitsonderzoek te worden beantwoord, namelijk of een nieuw geneesmiddel werkzamer is dan de standaardtherapie op dat moment.13 14

DRAFT INFORMED CONSENT13
Let us treat you with something that at best is the same as what you would have had before, but might also reduce – though this is unlikely – most of the advantages previously attained in your condition. It might even benefit you more than any current therapy but, should that actually happen, we shall not be able to prove it. Nor have we enough chance to let you know whether the new treatment may somehow bother or even harm you more than the standard.

2. Toegevoegde waarde? Eén van de belangrijkste argumenten tegen het gebruik van non-inferioriteitsonderzoeken is dat afstand wordt gedaan van het beginsel dat een nieuw geneesmiddel een toegevoegde klinische waarde dient te hebben.13 In Gebu 2015; 49: 9 is hier aandacht aan besteed en ook aan het feit dat er in Europees verband voor zal worden gepleit om nieuwe geneesmiddelen pas toe te laten als ze een toegevoegde therapeutische waarde hebben laten zien. Het komt voor dat non-inferioriteitsonderzoeken, waarmee minder snel een negatief resultaat wordt gevonden,13 15 worden gebruikt om een nieuw middel op de markt te brengen dat geen klinisch voordeel biedt ten opzichte van reeds bestaande middelen.

Markttoelating op basis van non-inferioriteitsonderzoek.
Met non-inferioriteitsonderzoek wordt minder snel een negatief resultaat gevonden waardoor het gemakkelijker is om met dit type onderzoek een handelsvergunning te verkrijgen.7 13-15 Directe orale anticoagulantia (DOAC’s, voorheen de nieuwe orale anticoagulantia (NOAC’s)) zijn op basis van de resultaten van non-inferioriteitsonderzoeken op de markt gekomen (Gebu 2008; 42: 120-121, Gebu 2008; 42: 121-122 en Gebu 2012; 46: 19-21). Ze hadden het vermeende voordeel ten opzichte van cumarinederivaten dat er geen controle van de ’International Normalized Ratio’ (INR, een maat voor antistolling) nodig is en dat ze anders dan laagmoleculaire heparinen oraal kunnen worden ingenomen (Gebu 2008; 42: 121-122). Echter als de cumarinederivaten later dan de DOAC’s op de markt waren gekomen, dan gold het voordeel dat voor cumarinederivaten wel een antidotum beschikbaar is, maar niet voor de DOAC’s.16 De acceptatie van non-inferioriteitsonderzoek voor de markttoelating van DOAC’s kan dus worden betwist.
De Amerikaanse registratieautoriteit Food and Drug Administration (FDA) staat inmiddels niet meer toe dat non-inferioriteitsonderzoek wordt gebruikt bij de markttoelating van antimicrobiële middelen bij bepaalde infecties (bv. acute bacteriële exacerbatie bij chronische bronchitis).17 Bij deze indicaties is namelijk sprake van een hoog genezingspercentage bij patiënten die zonder antimicrobieel middel worden behandeld.17 De European Medicines Agency (EMA) accepteert non-inferioriteitsonderzoek niet als bewijs van werkzaamheid van nieuwe middelen bij de behandeling van de ziekte van Alzheimer, vanwege problemen met de ’assay sensitivity’ (zie Begrippenlijst).18 Ook bij andere aandoeningen (bv. allergische rinitis, psychiatrische aandoeningen), waarbij de standaardbehandeling in gerandomiseerd onderzoek niet altijd werkzamer was dan placebo, is een non-inferioriteitsonderzoek volgens de EMA en FDA niet altijd geschikt.19 20

3. Methodologische bezwaren. Voorts kent het non-inferioriteitsonderzoek enkele methodologische bezwaren, zoals de keuze van de non-inferioriteitsmarge die nogal eens is gebaseerd op de subjectieve klinische overwegingen van onderzoekers die sterk kunnen verschillen tussen deskundigen onderling, en die in de meeste gevallen niet worden gerapporteerd in het onderzoeksprotocol.21-23 De methodologische bezwaren worden verderop in detail beschreven.
4. Biocreep. Het fenomeen ’biocreep’ betekent dat telkens non-inferioriteit wordt aangetoond ten opzichte van een middel dat in een eerder non-inferioriteitsonderzoek niet minder werkzaam is bevonden, maar waarbij de effectschatter steeds in geringe mate in het nadeel van het nieuwe middel uitvalt.24 Hierdoor kan het zo zijn dat nieuwere middelen in een sequentie van non-inferioriteitsonderzoeken steeds minder werkzaam zijn ondanks bewezen non-inferioriteit.

 

Statistische toetsen en de non-inferioriteitsmarge   | terug naar boven |

Statistische toetsen. Voor superioriteitsonderzoeken geldt dat er sprake is van een statistisch significant effect voor een middel met een beschermend effect als het hele 95%-betrouwbaarheidsinterval kleiner is dan 1,0 met betrekking tot het relatieve risico of kleiner dan 0 in het geval van een risicoverschil (situatie A in fig. 1 hieronder).

Figuur 1. Interpretatie van uitkomsten van non-inferioriteitsonderzoek (fig. met toestemming overgenomen uit: Soonawala D, Dekkers OM. ’Non-inferiority’-studies: mogelijkheden en kanttekeningen. Ned Tijdschr Geneeskd 2012; 156: A4665).


In deze figuur worden de mogelijke uitkomsten van een non-inferioriteitsonderzoek weergegeven, uitgedrukt als een risicoverschil. Bij een relatief risico, zoals in de paragraaf over de non-inferioriteitsmarge hieronder, zou op de horizontale as een ’1’ moeten staan in plaats van een ’0’. De lijnen geven het 95%-betrouwbaarheidsinterval weer, de ∆ de non-inferioriteitsmarge. De zwarte blokjes zijn de effectschatters.5

De non-inferioriteitsmarge. Voor een non-inferioriteitsonderzoek werkt het statistische oordeel anders. Allereerst definiëren de onderzoekers wat het maximaal negatieve effect is waarbinnen zij nog mogen claimen dat een behandeling niet-inferieur is.5 25 Dit wordt de non-inferioriteitsmarge (delta: δ of ∆) genoemd. Voor een vergelijking tussen middel X en middel Y, waarbij een myocardinfarct het primaire eindpunt is, zouden de onderzoekers een non-inferioriteitsmarge van 10% kunnen kiezen, overeenkomend met een relatief risico (RR) van 1,1. Minder formeel gesteld geven de onderzoekers aan dat 10% slechter onder de marge van non-inferioriteit valt (in fig. 1 zou dit zijn links van de stippellijn bij ∆). Deze marge wordt vervolgens gebruikt om het oordeel niet-inferieur te toetsen: valt het gehele betrouwbaarheidsinterval binnen de RR-grens 1,1 dan is in dit onderzoek middel Y niet-inferieur ten opzichte van een standaardmiddel X. Dit komt overeen met situatie A, B en C in figuur 1. In deze drie gevallen ligt het gehele betrouwbaarheidsinterval onder de gedefinieerde marge en mag worden gesteld dat de nieuwe behandeling niet-inferieur is.5 25 Van alle non-inferioriteitsonderzoeken wordt in 80 tot 90% van de gevallen geconcludeerd dat de onderzochte nieuwe behandeling niet-inferieur is.3 6 In uitzonderlijke gevallen komt het voor dat een behandeling niet-inferieur is (het gehele betrouwbaarheidsinterval ligt beneden de non-inferioriteitsmarge) en tegelijkertijd significant slechter is dan de referentiebehandeling (gehele betrouwbaarheidsinterval boven de grens van geen verschil) (situatie C). In dit geval is sprake van een zeer smal betrouwbaarheidsinterval bij een relatief ruime non-inferioriteitsmarge.5
D en E laten een situatie zien waarbij het betrouwbaarheidsinterval de non-inferioriteitsmarge insluit. De nulhypothese mag niet worden verworpen en er is geen sprake van non-inferioriteit. Bij situatie F ligt zelfs het gehele betrouwbaarheidsinterval aan de verkeerde kant van de marge.5
Superioriteits- en non-inferioriteitsonderzoeken gebruiken dus op vergelijkbare wijze een betrouwbaarheidsinterval voor het statistisch toetsen van de onderzoekshypothese. Het verschil is dat in een superioriteitsonderzoek tweezijdig wordt getoetst ten opzichte van een standaardmarge (in de onderstaande figuur µ: RR 1,0, RV 0) terwijl in non-inferioriteitsonderzoek wordt getoetst ten opzichte van een door de onderzoekers vooraf gedefinieerde non-inferioriteitsmarge.

Figuur 2. Weergave van een tweezijdige statistische toets.


Door éénzijdig te toetsen, wordt in theorie afbreuk gedaan aan de onzekerheid die aan een statistische toets is verbonden. Ofschoon het wel mogelijk is om in een non-inferioriteitsonderzoek vervolgens superioriteit te toetsen, mits dit in het protocol is vastgelegd, is het verlaten van de onzekerheid van de statistische toets onwenselijk. Het is onderwerp van discussie in hoeverre het gerechtvaardigd is om na het toetsen voor non-inferioriteit in een tweede stap te toetsen voor eventuele superioriteit.

Kwaliteitsaspecten van non-inferioriteitsonderzoek.
In een analyse van 116 non-inferioriteitsonderzoeken en 46 equivalentieonderzoeken (een type onderzoek dat is bedoeld om te bewijzen dat een nieuw middel even werkzaam is als een andere behandeling) in de periode 2003 en 2004 bleek dat bij een derde van de publicaties geen steekproefberekening was gedaan, bij de helft onjuiste statistische toetsen waren verricht, bij een derde de betrouwbaarheidsintervallen niet-consistent waren en dat slechts bij 4% van de onderzoeken een verantwoording voor de keuze van de non-inferioriteitsmarge was gedaan.21 Zelfs conclusies in artikelen die wel voldeden aan deze voorwaarden, waren soms misleidend.21 Andere onderzoekers doorzochten de wetenschappelijke literatuur van januari 2012 tot en met juni 2014 en vonden 344 non-inferioriteitsonderzoeken gepubliceerd in 338 artikelen.26 In 340 publicaties (98,8%) werd de non-inferioriteitsmarge vermeld, maar in slechts 95 (27,6%) werd de keuze voor deze marge onderbouwd: in 46 publicaties was die keuze gebaseerd op eerder onderzoek, in 43 gevallen op de mening van deskundigen. Via clinicaltrials.gov kon van slechts 99 onderzoeken (28,8%) in het protocol worden teruggevonden dat het een non-inferioriteitsonderzoek was, van 15 onderzoeken (4,4%) was in het register de marge terug te vinden, en van negen onderzoeken (2,6%) was dit vooraf bij registratie vastgelegd. De auteurs van dit onderzoek maken zich zorgen over de kwaliteit van de registratie van non-inferioriteitsonderzoeken en zijn van mening dat die sterk kan worden verbeterd.26

Het RECORD-onderzoek
In het ’Rosiglitazone Evaluated for Cardiac Outcomes and Regulation of glykemia in Diabetes’ (RECORD)-onderzoek zijn 4.447 patiënten met diabetes mellitus type 2 die metformine of een sulfonylureumderivaat gebruikten, gerandomiseerd naar een combinatiebehandeling van metformine/sulfonylureumderivaat (controlegroep) of naar de bestaande behandeling waaraan rosiglitazon werd toegevoegd.26 Het onderzoek was opgezet om non-inferioriteit te bewijzen, maar de onderzoekers onderbouwden die keuze niet. Het primaire eindpunt van het onderzoek was een combinatie van cardiovasculaire eindpunten en cardiovasculaire mortaliteit. De onderzoekers hadden voorafgaand aan het onderzoek de non-inferioriteitsmarge vastgesteld op RR 1,20. Dit betekent dat een toename van 20% in het primaire eindpunt door de onderzoekers nog verenigbaar werd geacht met non-inferioriteit. Ongeveer 4.500 patiënten werden gemiddeld 5,5 jaar gevolgd. Er werd geen toename gezien in het primaire eindpunt (RR 0,99). Omdat het gehele 95% betrouwbaarheidsinterval binnen de gestelde marge viel (0,85 tot 1,16) werd geconcludeerd dat rosiglitazon niet-inferieur was ten opzichte van de standaard toegevoegde behandeling voor diabetes mellitus.27 De onderzoekers hadden beter een superioriteitsonderzoek kunnen verrichten.
Vanwege een verhoogd cardiovasculair risico is rosiglitazon inmiddels van de markt gehaald (Gebu 2010; 44: 132).

 

Het bepalen van de non-inferioriteitsmarge   | terug naar boven |

Bij het vaststellen van de non-inferioriteitsmarge moeten onderzoekers in de eerste plaats duidelijk maken dat de onderzochte behandeling in ieder geval werkzamer is dan placebo. In de tweede plaats moeten onderzoekers aangeven hoeveel slechter een te onderzoeken behandeling in vergelijking met een standaardbehandeling mag zijn om als niet-inferieur te mogen worden geclassificeerd. Deze twee aspecten worden hieronder in een voorbeeld toegelicht.
Een non-inferioriteitsonderzoek heeft als doel te tonen dat middel Y niet minder werkzaam is dan middel X, bijvoorbeeld ter voorkoming van een myocardinfarct. Middel X moet in ieder geval bewezen werkzamer zijn dan placebo (assay sensitivity). De grootte van dat effect kan worden vastgesteld door, als dat mogelijk en ethisch verantwoord is, een placebogroep in het non-inferioriteitsonderzoek op te nemen.19 In veel gevallen zal dit echter om ethische redenen niet mogelijk zijn. De grootte van het effect kan worden vastgesteld door een meta-analyse uit te voeren van alle onderzoeken van middel X ten opzichte van placebo. Stel dat uit de meta-analyse blijkt dat het RR op een myocardinfarct met middel X 0,68 (95%BI=0,40-0,80) is, dan is de meest conservatieve schatting dat middel X 20% beter beschermt tegen myocardinfarcten dan placebo (gerekend vanaf de bovengrens (0,80) van het betrouwbaarheidsinterval).
Vervolgens kiezen de onderzoekers voor een percentage van dat beschermende effect (20%) dat middel Y ten opzichte van placebo moet hebben. De Food and Drug Administration (FDA) stelt in zijn richtlijn voor non-inferioriteitsonderzoek dat dit ten minste 50% moet zijn van het effect van referentiemiddel X ten opzichte van placebo.20 Deze marge voor het RR kan vervolgens worden berekend met de formule (1/M1)(1 – percentage beschermend effect), waarin M1 staat voor het beschermende effect van referentiemiddel X (0,80) en het ’percentage beschermend effect’ in dit voorbeeld is 50% ofwel 0,5. Ze komen dan uit op een marge van 1,12 ((1/0,8)(1-0,5) ofwel 1,250,5 = 1,12).2 Als het hele betrouwbaarheidsinterval voor de vergelijking van middel Y met X binnen de 1,12 valt, mag worden geconcludeerd dat middel Y niet minder werkzaam is dan middel X. Bovendien is dan aannemelijk gemaakt dat middel Y beter werkt dan placebo. Dat geldt alleen als het non-inferioriteitsonderzoek vergelijkbaar is, onder meer wat betreft de ingesloten patiënten (bv. hetzelfde uitgangsrisico op cardiovasculaire aandoening), met de onderzoeken waarop de aannamen voor het berekenen van de marge zijn gebaseerd. Dit heet de ’constancy assumption’. Als de onderzoekers willen dat middel Y meer dan 50% heeft van het beschermende effect van middel X ten opzichte van placebo, dan is de marge voor non-inferioriteit kleiner en is het moeilijker om non-inferioriteit te laten zien.2

Keuze non-inferioriteitsmarge.
In een onderzoek werden 2.856 patiënten die volgens hun behandelend arts een verhoogde kans hadden om een tromboserecidief te krijgen, gerandomiseerd naar een behandeling met dabigatran 2 dd 150 mg of met het niet in Nederland geregistreerde warfarine (streefwaarde INR: 2-3).28 In de dabigatrangroep kwam een recidief trombo-embolie voor bij 26 van de 1.430 patiënten (1,8%) en in de warfarinegroep bij 18 van de 1.426 patiënten (1,3%) (RR met dabigatran 1,44 [0,78-2,64]). Dabigatran was daarmee volgens de criteria van de onderzoekers niet minder werkzaam dan warfarine. Zij hadden de bovengrens van het relatieve risico voor non-inferioriteit van dabigatran te voren vastgesteld op kleiner dan 2,85. De onderzoekers concluderen dat dabigatran bij deze indicatie voor late profylaxe na veneuze trombo-embolie niet minder werkzaam is dan warfarine.28 Deze directe vergelijking van dabigatran met warfarine geeft weinig zekerheid of het nieuwe middel werkelijk niet minder werkzaam is, omdat de bovengrens voor non-inferioriteit voor die conclusie vrij ruim lijkt te zijn gekozen en de effectschatter van het relatieve risico met 1,44 in het nadeel van dabigatran uitvalt (Gebu 2013; 47: 58-59).
In de discussieparagraaf geven de onderzoekers aan dat de marge ruim is gekozen: ’The prespecified noninferiority margin for the hazard ratio of 2.85 is large, since it allows an increase in risk by a factor of nearly 3 to be accepted as noninferior. This is a limitation of the trial design.’ Ze besloten daarnaast dat een absolute risicotoename van 2,8% ook als niet-inferieur kon worden beschouwd. De marges waren gekozen op basis van eerder gepubliceerde onderzoeken naar de behandeling van veneuze trombo-embolie met onder meer DOAC’s waarin soortgelijke ruime marges waren gekozen.28 Men kan zich afvragen of een dergelijke risicotoename van een ernstige uitkomst, namelijk een (fatale) trombo-embolie, acceptabel is.14

 

Non-inferioriteitsmarge: vatbaarheid voor manipulatie?   | terug naar boven |

Mogelijkheid tot manipulatie van de marge. Het is duidelijk dat wanneer een non-inferioriteitsmarge na afloop van een onderzoek kan worden vastgelegd, een middel altijd niet-inferieur kan zijn. Onderzoekers zouden dan in eerste instantie naar het betrouwbaarheidsinterval van een effect kunnen kijken en vervolgens een marge kiezen waaronder zich het gehele betrouwbaarheidsinterval bevindt. Is bijvoorbeeld de bovengrens van het betrouwbaarheidsinterval van een effect 1,4, dan zou met een marge van 1,45 non-inferioriteit zijn gewaarborgd. Hoewel aantrekkelijk, is er vooralsnog geen bewijs uit onderzoek om aan te nemen dat onderzoekers een dergelijke post-hocmargebepaling, of post-hocmargemanipulatie, toepassen. De marge in de registraties van gerandomiseerde onderzoeken wordt echter slechts in enkele gevallen gerapporteerd.29 Hiermee is de vrees voor post-hocmargemanipulatie30 dus niet weggenomen.
Subjectiviteit van de marge. Er kleeft aan de bepaling van de marge een zekere mate van subjectiviteit die er bij het statistisch toetsen in superioriteitsonderzoeken niet is. Er is immers in principe geen bovengrens aan een marge, terwijl de spelregels voor het toetsen in superioriteitsonderzoeken altijd dezelfde zijn. Er zijn weliswaar handvatten voor het definiëren van een marge, maar uiteindelijk bepalen de onderzoekers zelf de hoogte van de marge. In een overzichtsartikel werden de marges van verschillende non-inferioriteitsonderzoeken naar tromboseprofylaxe bij patiënten die een orthopedische ingreep hebben ondergaan, onderzocht.2 In de onderzoeken werden verschillende behandelingen gebruikt, maar wel dezelfde referentiebehandelingen met enoxaparine. Ondanks het feit dat de non-inferioriteitsonderzoeken min of meer hetzelfde eindpunt onderzochten met dezelfde vergelijkende behandeling, waren de gekozen non-inferioriteitsmarges niet identiek.
Deze overwegingen maken ook duidelijk waarom in een superioriteitsonderzoek bij een niet-significant resultaat niet zonder meer kan worden geprobeerd om ook non-inferioriteit te toetsen. Aangezien superioriteitsonderzoeken geen marge a priori definiëren en de marge a posteriori altijd passend kan worden gemaakt, is er voor non-inferioriteitstesten geen plaats. De omgekeerde situatie komt wel vaak voor: eerst éénzijdig testen voor non-inferioriteit en in tweede instantie ook voor superioriteit. Deze tweetrapsbenadering is in theorie verdedigbaar. Ten eerste gaat men pas over naar superioriteitstesten nadat non-inferioriteit is aangetoond en ten tweede liggen de spelregels voor een superioriteitstoets vast. Zoals echter al is aangegeven, verlaat men met het éénzijdig toetsen de onzekerheidsprincipes van de statistiek en zijn conclusies van superioriteit van een middel op basis van een non-inferioriteitsonderzoek onwenselijk.
Welke marge is redelijk of acceptabel? Voor de lezer is het belangrijk om vast te stellen of de marge acceptabel is. Hoe groter de marge, hoe makkelijker het immers is om non-inferioriteit vast te stellen. Maar een onderzoek waarbij onderzoekers non-inferioriteit claimen op basis van een marge die een 50% toename in mortaliteit accepteert, is moeilijk verdedigbaar. Maar ook als die marge bij 2, 5, 10 of 20% wordt gelegd, wie zal dan accepteren dat een dergelijke toename van sterfgevallen moet worden beschouwd als niet-inferieur?14 De mediane marge in non-inferioriteitsonderzoeken ligt bij RR 1,3. In hoeverre een dergelijke marge acceptabel is, zal voor elk onderzoek individueel moeten worden beoordeeld. Ook zullen de overwegingen voor de keuze van de marge in het onderzoeksprotocol duidelijk moeten worden weergegeven.

 

Additionele overwegingen   | terug naar boven |

De keuze van de controlegroep. Naast de vraag of een nieuw middel niet-inferieur is, en of is gewaarborgd dat het middel waarmee wordt vergeleken ook daadwerkelijk beter is dan placebo, is het ook belangrijk om na te gaan of de optimale vergelijking is gemaakt. Als middel Y niet-inferieur is ten opzichte van middel X ter preventie van myocardinfarcten, dan zal de vergelijking van weinig waarde zijn wanneer middel X niet (meer) de optimale behandeling voor de preventie van een myocardinfarct blijkt te zijn. Dit geldt ook wanneer middel Y niet met de optimale dosering van middel X is vergeleken. Wat dit betreft komen in non-inferioriteitsonderzoeken dezelfde methodologische problemen en tekortkomingen voor als in superioriteitsonderzoeken.
Intention-to-treatanalyse en per-protocolanalyse. Veel onderzoeken kennen het probleem dat deelnemers overstappen naar de andere behandeling, of de onderzoeksmedicatie geheel niet nemen of de behandeling staken. In een superioriteitsonderzoek wordt het resultaat van de intention-to-treatanalyse beschouwd als de standaard voor het aantonen van een behandeleffect. In een non-inferioriteitsonderzoek daarentegen geeft de analyse volgens het per-protocolprincipe een conservatievere schatting van het effect, omdat alleen patiënten worden meegenomen in de analyse die het onderzoeksprotocol hebben gevolgd. De per-protocolpopulatie is kleiner dan de intention-to-treatpopulatie, en geeft dus bredere betrouwbaarheidsintervallen. Een breder betrouwbaarheidsinterval maakt het waarschijnlijker dat de non-inferioriteitsmarge wordt overschreden. Deze analysemethode mag daarom als strenger worden beschouwd voor non-inferioriteitsonderzoek.11

Intention to treat of per protocol?
Als direct na de randomisatie tussen middel X en middel Y alle patiënten de medicatie niet innemen, dan zal het onmogelijk zijn om te tonen dat er een verschil in effect is. Het wordt echter wel heel makkelijk om te tonen dat middel Y in ieder geval niet slechter is dan middel X. Daarom wordt geadviseerd om in een non-inferioriteitsonderzoek niet alleen de intention-to-treatanalyse uit te voeren, maar eveneens de per-protocolanalyse. De eerste analyse is conservatiever in een superioriteitsonderzoek, de tweede in een non-inferioriteitsonderzoek.

 

Plaatsbepaling

In de afgelopen jaren is sprake van een duidelijke toename van het aantal non-inferioriteitsonderzoeken. Anders dan bij het superioriteitsonderzoek is het doel van dit onderzoek om te tonen dat een nieuw geneesmiddel niet minder werkzaam is dan een bestaand geneesmiddel.
Nog steeds is er discussie over de wenselijkheid van non-inferioriteitsonderzoek. Voorstanders van non-inferioriteitsonderzoek zijn van mening dat het in sommige situaties is gerechtvaardigd om dit type onderzoek te verrichten. Dat geldt bijvoorbeeld voor een middel waarvan dezelfde werkzaamheid wordt verwacht, maar dat minder bijwerkingen heeft, dat gemakkelijker in het gebruik is (bv. lagere doseerfrequentie) of dat goedkoper is. De kritische vraag is echter of dergelijke vermeende voordelen niet eigenlijk ook (in een superioriteitsonderzoek) zouden moeten worden onderzocht en worden bewezen. Ook kan non-inferioriteitsonderzoek worden ingezet om het therapeutisch arsenaal uit te breiden. Voor sommige levensbedreigende indicaties kan het voldoende zijn om te bewijzen dat middelen niet slechter werken dan de standaardbehandeling.
Sommige tegenstanders beschouwen non-inferioriteitsonderzoeken als onethisch. Patiënten worden in dat type onderzoek immers blootgesteld aan potentiële bijwerkingen, terwijl men geen winst hoeft te verwachten van het nieuwe geneesmiddel. Vrijwel alle relevante onderzoeksvragen ten aanzien van nieuwe geneesmiddelen dienen in een superioriteitsonderzoek te worden bepaald, namelijk of deze nieuwe geneesmiddelen beter werken dan de standaardtherapie van dat moment. Voor het onderzoeken van een middel dat geen enkel ander doel heeft dan te bewijzen dat het niet slechter werkt dan de standaardbehandeling, zou om ethische en financiële redenen geen plaats moeten zijn. Onderzoekers zullen dus in hun publicatie zo helder mogelijk moeten uitleggen in hoeverre de keuze voor de non-inferioriteitsopzet is te rechtvaardigen. Medisch-ethische toetsingscommissies en registratieautoriteiten zouden hier ook kritischer naar moeten kijken.
De opzet en analyse van non-inferioriteitsonderzoek onderscheidt zich van die van superioriteitsonderzoek. Het non-inferioriteitsonderzoek kent enkele methodologische bezwaren, zoals de arbitraire keuze voor de non-inferioriteitsmarge (delta: δ of ∆), ofwel het maximaal negatieve effect waarbinnen mag worden vastgesteld dat een middel niet minder werkzaam is. Hoe groter de marge, hoe makkelijker het is om non-inferioriteit vast te stellen.
Bij het lezen en beoordelen van non-inferioriteitsonderzoek dienen artsen, apothekers en registratieautoriteiten daarom rekening te houden met de aandachtspunten zoals die in het kader hieronder zijn aangegeven. Als niet wordt voldaan aan één of meerdere van deze aandachtspunten dient men voorzichtig te zijn met de interpretatie van de onderzoeksuitkomsten.

Aandachtspunten voor het beoordelen van non-inferioriteitsonderzoeken.

1. Wordt de keuze voor een non-inferioriteitsonderzoek onderbouwd?
Is het gerechtvaardigd om patiënten in onderzoek bloot te stellen aan een middel dat mogelijk minder werkzaam is, ook al wordt een voordeel zoals een verbeterd gebruiksgemak of minder bijwerkingen verondersteld? Onderzoekers moeten die keuze altijd onderbouwen en lezers van deze onderzoeken en registratieautoriteiten moeten hier altijd kritisch over zijn.

2. Wordt de keuze voor de non-inferioriteitsmarge onderbouwd?
De keuze voor de non-inferioriteitsmarge is ten dele arbitrair. Gebleken is dat deze marges soms te ruim worden gekozen, zodat ze klinisch betekenisloos zijn. Als in het non-inferioriteitsonderzoek op harde eindpunten wordt getoetst, welk aantal infarcten of sterfgevallen wordt dan beschouwd als klinisch irrelevant of verwaarloosbaar?14 Te vaak wordt niet beargumenteerd waarom voor een bepaalde marge is gekozen. Een onderbouwing van de keuze moet altijd worden vermeld.

3. Is de non-inferioriteitsmarge a priori vastgesteld?
Omdat de keuze voor de marge gevoelig is voor manipulatie verdient het aanbeveling om te controleren of deze marge van tevoren protocollair is vastgelegd, bijvoorbeeld in een register voor klinisch onderzoek (bv. www.clinicaltrials.gov).

4. Is de controlebehandeling de optimale behandeling?
Bij een non-inferioriteitsonderzoek dient de referentiebehandeling werkzamer te zijn dan placebo en optimaal te worden toegepast. Als de behandeling waarmee wordt vergeleken niet werkzamer is dan placebo onderzoekt men in feite of de nieuwe behandeling niet minder werkzaam is dan placebo.

5. Welke analysemethode is gebruikt?
Bij non-inferioriteitsonderzoek is de per-protocolanalyse de aanwezen analysemethode. De analyse volgens het intention-to-treatprincipe geeft eerder een te positief effect.

Trefwoorden: non-inferioriteitsonderzoek, superioriteitsonderzoek, equivalentieonderzoek, statistiek, methodologie, non-inferioriteitsmarge 


 


Literatuurreferenties   | terug naar boven |
1. D’Agostino RB, Massaro JM, Sullivan LM. Non-inferiority trials: design concepts and issues – the
encounters of academic consultants in statistics. Stat Med 2003; 22: 169-186.
2. Wangge G, Roes KC, Boer A de, Hoes AW, Knol MJ. The challenges of determining noninferiority margins : a case study of noninferiority randomized controlled trials. CMAJ 2013; 185: 222-227.
3. Soonawala D, Middelburg R, Egger M, Vandenbroucke JP, Dekkers OM. Efficacy of experimental treatments compared with standard treatments in non-inferiority trials: a meta-analysis of randomized controlled trials. Int J Epidemiol 2010; 39: 1567-1581.
4. Sterne JAC, Smith GD. Sifting the evidence ─what’s wrong with significance tests? BMJ 2001; 322: 226-231.
5. Soonawala D, Dekkers OM. ’Non-inferiority’-studies: mogelijkheden en kanttekeningen. Ned Tijdschr Geneeskd. 2012; 156: A4665.
6. Wangge G, Klungel OH, Roes KCB, Boer A de, Hoes AW, Knol MJ. Room for improvement in conducting and reporting non-inferiority randomized controlled trials on drugs: a systematic review. PloS One 2010; 5: e13550.
7. Garattini S. Bertele V. Ethics in clinical research. J Hepatol 2009; 51: 792-797.
8. Dühmke E, Franklin J, Pfreundschuh M, Sehlen S, Willich N, Rühl U, et al. Low-dose radiation is sufficient for the noninvolved extended-field treatment infavorable early-stage Hodgkin’s disease: long-term results of a randomized trial of radiotherapy alone. J Clin Oncol 2001; 19: 2905-2914.
9. Inagaki N, Atsumi Y, Oura T, Saito H, Imaoka T. Efficacy and safety profile of exenatide once weekly compared with insulin once daily in Japanese patients with type 2 diabetes treated with oral antidiabetes drug(s): results from a 26-week, randomized, open-label, parallel-group, multicenter, noninferiority trial. Clin Ther 2012; 34: 1892-1908.
10. Stolpman DR, Solem C A, Eastlick D, Adlis S, Shaw MJ. A randomized controlled trial comparing a low-residue diet versus clear liquids for colonoscopy preparation: impact on tolerance, procedure time, and adenoma detection rate. Journal of Clin Gastroenterol 2014; 48: 851-855.
11. Powers JH, Cooper CK, Lin D, Ross DB. Sample size and the ethics of non-inferiority trials. Lancet 2005; 366: 24-25.
12. Tauber E, Kollaritsch H, Korinek M, Rendi-Wagner P, Jilma B, Firbas C, et al. Safety and immunogenicity of a Vero-cell-derived, inactivated Japanese encephalitis vaccine: a non-inferiority, phase III, randomised controlled trial. Lancet 2007; 370: 1847-1853.
13. Garattini S, Bertele V, Bassi L li. How can research ethics committees protect patients better? BMJ 2003; 326: 1199-1201.
14. Garattini S, Bertele V. Non-inferiority trials are unethical because they disregard patients’ interests. Lancet 2007; 370: 1875-1877.
15. Anoniem. Tests for equivalence or non-inferiority–why? Drug Ther Bull 2008; 46: 55-56.
16. Aberegg S. Reporting noninferiority trials. JAMA 2013; 309: 1584-1585.
17. Center for Drug Evaluation and Research (CDER) Center for Biologics Evaluation and Research (CBER). Guidance for industry antibacterial drug products: use of non-inferiority trials to support approval [document op het internet]. US Food and Drug Administration. Via: fda.gov/downloads/drugs/guidancecomplianceregulatoryinformation/guidances/ucm070951.pdf.
18. Discussion paper on the clinical investigation of medicines for the treatment of Alzheimer’s disease and other dementias [document op het internet]. European Medicines Agency. Via: ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2014/10/WC500176827.pdf.
19. Guideline on the choice of the non-inferiority margin [document op het internet]. European Medicines Agency. Via: ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2009/09/WC500003636.pdf.
20. Center for Drug Evaluation and Research (CDER) Center for Biologics Evaluation and Research (CBER). Draft guidance: guidance for industry non-inferiority clinical trials [document op het internet]. US Food and Drug Administration. Via: fda.gov/downloads/drugs/guidancecomplianceregulatoryinformation/guidances/UCM202140.pdf.
21. Henanff AL, Giraudeau B, Baron G, Ravaud Ph. Quality of reporting of noninferiority and equivalence randomized trials. JAMA 2006; 295: 1147-1151.
22. Wangge G, Klungel OH, Roes KC, Boer A de, Hoes AW, Knol MJ. Interpretation and inference in noninferiority randomized controlled trials in drug research. Clin Pharmacol Ther 2010; 88: 420-423.
23. Wangge G, Boer A de, Klungel OH, Hoes AW, Knol MJ. Expert-opinion on non-inferiority margin: a case study of oral anti-coagulant agents for prophylaxis of venous thromboembolic events after orthopedic surgery. Thromb Res 2013; 131: 368-371.
24. Wangge G, Klungel OH, Roes KC, Boer A de, Hoes AW, Knol MJ. Should non-inferiority drug trials be banned altogether? Drug Discov Today 2013; 18: 601-604.
25. Piaggio G, Elbourne DR, Pocock SJ, Evans SJW, Altman DG. Reporting of noninferiority and equivalence randomized trials: extension of the CONSORT 2010 statement. JAMA 2012; 308: 2594-2604.
26. Gopal AD, Desai NR, Tse T, Ross JS. Reporting of noninferiority trials in ClinicalTrials.gov and corresponding publications. JAMA 2015; 313: 1163-1165.
27. Home PD, Pocock SJ, Beck-Nielsen H, Curtis PS, Gomis R, Hanefeld M, et al. Rosiglitazone evaluated for cardiovascular outcomes in oral agent combination therapy for type 2 diabetes (RECORD): a multicentre, randomised, open-label trial. Lancet 2009; 373: 2125-2135.
28. Schulman S, Kearon C, Kakkar AK, Schellong S, Eriksson H, Baanstra D, et al. Extended use of dabigatran, warfarin or placebo in venous thromboembolism. N Engl J Med 2013; 368: 709-718.
29. Dekkers OM, Soonawala D, Vandenbroucke JP, Egger M. Reporting of noninferiority trials was incomplete in trial registries. Journal of Clinical Epidemiology 2011; 64: 1034-1038.
30. Gøtzsche PC. Lessons from and cautions about noninferiority and equivalence randomized trials. JAMA 2006; 295: 1172-1174.