Onder de positieve ‘toptrials’ van homeopathische middelen bevindt zich een onderzoek van neusdruppels tegen bijholteontsteking. Hoewel het een van de acht grootste onderzoeken is die Shang et al. met ‘high quality’ betitelen, illustreert het artikel van Weiser en Clasen de povere kwaliteit van veel van dit onderzoek, ten minste als je goed leest.
door Jan Willem Nienhuys (06/03/2011)
The English summary is at the end.
Het werd aanvankelijk gepubliceerd in het Duits:
Later werd een Engelse versie afgedrukt onder de titel ‘Controlled Double-Blind Study of a Homeopathic Sinusitis Medication’ in Biological Therapy: Journal of Natural Medicine, vol. 13, no 1 (1995), p.1-11 (zie ook Heels site met wetenschappelijke artikelen).
Biological Therapy is een tijdschrift (thans getiteld Journal of Biomedical Therapy) dat wordt uitgegeven door het Duitse homeopathische bedrijf Biologische Heilmittel Heel GmbH. Heel is opgericht door de bekende homeopaat Reckeweg. Het gebruikte middel is dan ook een middel van de firma Heel. Het correspondentieadres van hoofdauteur Michael Weiser MBChB is ook per adres Heel. Bij het artikel van Rottey zagen we ook al zoiets: onderzoek van een middel van een farmaceutisch bedrijf dat helemaal gesponsord is door dat bedrijf. Dat komt wel vaker voor, ook in de reguliere geneeskunde, maar dat de auteur het bedrijf als adres opgeeft en in het bedrijfsblad publiceert is ongebruikelijk.
Er waren uiteindelijk 155 proefpersonen volgens het toeval verdeeld over drie groepen. Allemaal hadden ze chronische bijholteontsteking (sinusitis), maar niet in een acute fase. De groep die werd toegelaten was een merkwaardig allegaartje: om te beginnen moest er naar het oordeel van de dokter nog een conservatieve behandeling nodig zijn en de patiënten moesten zowel subjectief als objectief last van hun sinusitis hebben. Voorts moesten ze hetzij meer dan drie acute aanvallen in de afgelopen drie jaar of ten minste drie in het afgelopen ene jaar gehad hebben, dan wel een druipneus hebben. Bovendien was er een waslijst aan uitsluitingscriteria, onder meer wie een behandelbare vorm van sinusitis had, noch rokers of zwangeren (?) mochten mee doen. Druipneuzen duiden op allergie zoals hooikoorts, wat een seizoensziekte is. Het is niet duidelijk wat de reden is om die er ook bij te betrekken. Hoe langer je naar de toelatingscriteria kijkt, des te vreemder lijken ze. Zijn ze echt precies zo van tevoren opgesteld?
Verrassingen
De eerste verrassing van het onderzoek is dat in een van de twee verumgroepen de mediane tijd sinds de laatste acute fase veel minder was dan 72 en 89 dagen bij de overige groepen, namelijk maar 47 dagen. De auteurs merken hier helemaal niets over op. (Een mediane tijd van 85 dagen is wat je zou verwachten als de personen gemiddeld drie maal per jaar een aanval hadden.)
Waarom waren er twee verumgroepen? De ene groep kreeg het gewone middel van Heel, en de andere groep een vereenvoudigd middel. Het ging bij beide verums om een zogeheten complexmiddel: een mengsel van verschillende verdunde middelen in een fysiologische zoutoplossing met een snufje conserveermiddel. De stichter van de homeopathie, Hahnemann, verbood het combineren van zelfs twee middelen ten strengste (Organon, paragraaf 273). Bovendien druist het idee om iedereen met een specifieke klacht precies hetzelfde te geven ook helemaal in tegen de gedachte dat men met elke patiënt een lang gesprek moet voeren om het juiste middel (in de juiste potentie!) vast te stellen.
Niet alle middelen waren trouwens hoogverdund. De opgave van de samenstelling is nogal vaag, maar naar schatting bevat een liter middel ongeveer 0,1 milligram plantenextract. Van de plant die voor de naam van het middel zorgt, zit er nog 200 maal zo weinig in (foto). Het placebomiddel was gewoon de zoutoplossing met conserveermiddel.
De tweede verrassing is dat er vrijwel niets verteld wordt over de tweede verumgroep, behalve het uiteindelijke resultaat dat het verschil met het placebo niet-significant uitkwam (p=0,26 tweezijdig). Te oordelen naar de summiere gegevens zat de uitkomst van de tweede verumgroep ongeveer midden tussen de beide andere groepen.
Dit is niet in orde. Het idee van statistische significantie is dat je zegt: ‘Gesteld dat eigenlijk alleen toeval een rol heeft gespeeld, dan is de kans dat bij een dergelijke proef een dergelijk resultaat optreedt maar 1 op 20. Dat is zo ontzettend klein, dat we die veronderstelling voorlopig wel kunnen vergeten’. De grens om bij kans 1 op 20 te doen alsof er een onverklaarbaar wonder heeft plaatsgehad is al belachelijk laag, maar als je eigenlijk twee proeven doet, moet je per afzonderlijke proef de lat hoger leggen (bij p=0,0253) om voor de totale proef op 0,05 te komen.
Het volgende punt van kritiek is de keuze van het uitkomstcriterium. De proef bestond erin dat patiënten viermaal daags twee pufjes in elk neusgat moesten verstuiven. In het begin, midden en eind van de eerste vier weken werden ze uitvoerig onderzocht en ondervraagd. Daarna gingen ze nog vier maanden of tot de eerste acute aanval door met sproeien, waarna ze nog eens gevraagd werd wat ze van de behandeling vonden. Merkwaardig genoeg wordt er verder niets verteld over de klinisch belangrijke groep personen die het eerder dan vier maanden weer te kwaad kregen, zelfs niet hoeveel het er waren.
Het verslag zegt dat de randomisatiecode pas verbroken werd aan het begin van de evaluatie. De vraag is nu of het uitkomstcriterium voor of na die verbreking werd opgesteld. Het is een vreselijk ingewikkeld en nogal onbegrijpelijk criterium. Voor elk van ongeveer vijftien subjectieve en objectieve aspecten werd een cijfer gegeven met betekenis ongeveer: 1=niets te voelen of te zien, 2=iets, terwijl 3 en 4 op ernstiger toestanden konden slaan. Al deze deelcriteria werden gemiddeld, zodat (zeggen de auteurs) de einduitkomst tussen 1 en 2,6 ligt. Het cijfer 1 betekent dan ‘geen enkele klacht’. Merkwaardig genoeg hebben de auteurs de resultaten van ‘endoscopie van de neus’ weggelaten, dat hebben ze secundaire uitkomstmaat genoemd. De uitkomst is het verschil tussen het beginonderzoek en het onderzoek na vier weken, wat de vraag opwerpt wat het nut was van dat onderzoek halverwege. Als ze dit opstellen van het uitkomstcriterium na het verbreken van de code hebben gedaan, dan stelt het onderzoek niets voor. Het idee van goed blinderen is onder meer dat je ongewenste selectieve waarneming door de beoordelaars probeert uit te sluiten. Dat houdt in dat al het rekenwerk zoveel mogelijk gedaan moet zijn zonder kennis van de randomisatiecode.
In het uitkomstcriterium ontbreekt ook de evaluatie van patiënt en behandelaar na vier maanden. Daar vertellen de auteurs wel wat over, maar het had voor de hand gelegen die gewoon in de score te betrekken. Deze evaluatie is de derde verrassing. Patiënt en behandelaar waren het behoorlijk eens en er was eigenlijk geen onderscheid tussen de verschillende groepen, dit in contrast met de zogenaamde uitkomst van het onderzoek. Numerieke waarden worden niet verstrekt, de lezer moet het met een staafdiagram stellen. Bij de placebogroep vond 36% de therapie ‘uitstekend’, en dat was bij ongeveer half zoveel (20%) het geval bij de verumgroep.
Het verschil der dalingen
Men bepaalde de volgende gegevens voor de placebogroep (51 personen) en voor de eerste verumgroep (53 personen). Ik geef telkens een gemiddelde score en een schatting voor de fout (standard error of the mean) in dat gemiddelde
A: beginonderzoek placebogroep: 1,71 s.e.m. 0,039
B: eindonderzoek placebogroep: 1,44 s.e.m. 0,048
C: beginonderzoek verumgroep: 1,75 s.e.m. 0,040
D: eindonderzoek verumgroep: 1,37 s.e.m. 0,041
Het is duidelijk dat er bij beide groepen een daling plaats vindt. De auteurs spreken van dalingen van 14,3% (placebo) en 21,1% (verum), waarbij ze kennelijk van iets preciezere waarden zijn uitgegaan, en zich niet realiseren dat de betekenis van 1 is: helemaal geen symptomen. Als ze de meer logische keuze van 0 voor ‘geen symptomen’ hadden genomen, waren de symptomen veel meer gedaald, namelijk respectievelijk 34% en 49%. De auteurs vragen zich af of het verschil tussen de neus sproeien met zout water of met homeopathisch zout water van klinisch belang is. Dit gevonden verschil is niet van belang, zelfs wanneer het reëel zou zijn. (NB: Sproeien of druppelen met een fysiologische zoutoplossing is wel een goed idee, en als men het niet zelf klaar wil maken, kan men ook kant-en-klaarverstuivers krijgen die aanzienlijk voordeliger zijn dan zo’n homeopathisch flesje.)
Hoe komt men nu van deze gegevens naar één uitkomstmaat? Men berekent daling verum min daling placebo, in formule (D − C) − (B − A) = 0,11. De standaardfout in dit getal is 0,084. Men ziet met het blote oog dat dit niet significant afwijkt van 0. Daarvoor moet de uitkomst namelijk ongeveer tweemaal de standaardfout zijn. De auteurs beweren echter dat het verschil der dalingen significant is (p= 0,016), maar ze verstrekken geen gegevens waarmee men hun uitkomst kan narekenen. Ik vermoed dat ze per patiënt het verschil genomen hebben, en de standaardfout in al die verschillen hebben berekend.
Tabellen 4 en 6 in het stuk geven een andere methode om iets over de uitkomsten te zeggen. De eerste tabelregel van Tabel 4 leert ons dat er in de verumgroep 73,6%, dus 39 van de 53 personen waren die overdag last hadden van belemmering van de ademhaling. Van die 39 had 41,1% daar na vier weken nog steeds last van, dus 16 personen. Kennelijk waren er 23 (=39–16) personen die in die vier weken dit symptoom waren kwijtgeraakt. Het opschrift ‘present or improved’ boven de kolom is wat raadselachtig, maar het Engels van het stuk vertoont wel meer curiositeiten. Op die manier kan men voor alle regels de percenten terugrekenen naar aantallen personen.
Men kan de resultaten daarna als volgt samenvatten. Er werden twaalf objectieve symptomen onderzocht. In de verumgroep daalde het aantal symptomen met 168, dat is 3,17 per persoon. In de placebogroep ging het aantal symptomen met 158 omlaag, dat is 3,10 per persoon. Er is geen wezenlijk verschil.
Bij de subjectieve symptomen waren de gemiddelde dalingen 2,85 (verum) tegen 2,33 (placebo). De daling bij de verums was wat meer, maar de cijfers suggereren dat deze subjectieve symptomen nogal wat variatie vertonen: tegenover de bovengenoemde daling van 39 naar 16 staat ‘loopneus ’s nachts’: van 23 naar 11, een daling van 12. Wat de auteurs precies hebben gedaan om deze subjectieve symptomen op te waarderen, is onduidelijk, maar het effect daarvan is wel te kwantificeren. Bij het symptoom ‘hoofdpijn ’s nachts’ is de daling bij de verums van 21 naar 6, en bij de placebo’s van 23 naar 7. Lood om oud ijzer, zou men zeggen, en Fisher’s exacte test zegt hetzelfde: p=0,578 (eenzijdig!). De auteurs rapporteren p=0,0760.
Op pagina 7 (eind van sectie 3.3) vermelden de auteurs nog de uitkomst van een extra berekening die naar hun zeggen ‘post hoc’ is gedaan. Ze hebben apart de subjectieve scores voor de drie groepen vergeleken. Die komt nog een beetje geprononceerder uit dan hun hoofdresultaat. Bij die methode is ook het tweede verum significant verschillend van het placebo. Kortom, de rekenmethode van de auteurs legt sterk de nadruk op de subjectieve symptomen.
Conclusie: geen verschil, prutswerk
Dus de vermindering van symptomen volgens een kunstig samengestelde uitkomstmaat en volgens een in het vage gelaten berekening was bij één verumgroep wat meer dan in de placebogroep. De objectieve symptomen gaven nauwelijks enig onderscheid tussen de groepen te zien. Bij de subjectieve symptomen was er meer verschil, maar de patiënten zelf en hun artsen waren ongeveer even tevreden; dat laatste hadden de onderzoekers niet in hun uitkomstmaat verwerkt. Er was bovendien van tevoren al een verschil tussen de groepen.
Er zijn nog wel meer rariteiten in het artikel te vinden. Zo bleek een van de deelnemende KNO-artsen helemaal geen ‘originele data’ te hebben ingezonden. Die patiënten werden weggelaten, op zich natuurlijk verstandig, maar het blijft curieus. Er waren wat gevallen van ernstige bijwerkingen, sommige zo ernstig dat men de code moest verbreken om na te gaan of de betrokkenen zout water of homeopathisch zout water gekregen had. Van regulier standpunt maakt dat niets uit. De betrokken artsen konden, zo zeggen de auteurs, geen causaal verband vinden met de toegediende medicatie. Dat is een vreemde opmerking. Als men de oordelen van artsen over causale werking serieus neemt, dan hoeft men verder geen onderzoek meer te doen naar homeopathie. Het vaststellen van causaliteit is in afzonderlijke gevallen trouwens heel lastig. Als men echter concludeert dat er kennelijk werking van het homeopathische middel uitgaat, moet men niet zo luchtig doen en het een middel met laag risico noemen.
Al met al laden de auteurs de verdenking op zich dat ze na het verbreken van de code erg hebben zitten prutsen om de uitkomst als significant voor te stellen: een vreemd inclusiecriterium, een raar uitkomstcriterium waarin één objectieve en één subjectieve maat is weggelaten en verder is de niet-significante uitkomst van een hele verumgroep verdonkeremaand, en lijken er diverse relevante gegevens onderbelicht te zijn gebleven. Ik begrijp niet waarom dit onderzoek bij Shang et al. te boek stond als van hoge kwaliteit.
Ik leg hier de nadruk op, omdat dit geknutsel met de gegevens wel vaker voorkomt in onderzoek van de homeopathie. Daarbuiten trouwens ook, en als de onderzoekers in dienst zijn van farmaceutische bedrijven en bewijzen moeten produceren voor producten die al op de markt zijn, dan moet men er goed op letten of men voor de verleiding bezweken is om na het verbreken van codes nog te gaan modderen met de berekening.
Met dank aan Wim Betz, Martijn ter Borg en Dick Zeilstra.
English summary
A paper by Weiser and Clasen (1994, 1995) on the efficacy of homeopathic nosedrops is analysed.
It belonged to the eight largest ‘high quality’ homeopathy investigations of Shang et al. The paper claims a significant difference (p=0,016) between placebo and verum, but this is achieved by choosing a very strange primary endpoint in which one subjective criterion is overemphasized, another contradictory subjective criterion is omitted and one objective criterion is demoted to secondary endpoint. The nonsignificance of the investigation with respect to a second verum is downplayed. A more natural version of the criteria shows that placebo and verum actually hardly differ. Moreover the authors present too little details of their computations and also they don’t comment on a striking difference between the verum and the placebo group. It is incomprehensible that Shang et al. rated this as a high level paper.
Oorspronkelijk was dit artikel gepubliceerd op het (oude) Skepsis-blog en bestond de mogelijkheid om daaronder in discussie te gaan, waar geregeld uitvoerig gebruik van werd gemaakt. De discussie onder dit bericht kan de geïnteresseerde teruglezen in deze pdf (18 pagina’s).