Vaikuttavuustutkimus: Miten arvioida harhaa satunnaistetuissa vertailukokeissa?

Artikkeli on jatkoa numerossa 2/2021 julkaistulle artikkelille Vaikuttavuustutkimus: Satunnaistettu vertailukoe tulee suunnitella huolella ja numerossa 1/2022 julkaistulle artikkelille Vaikuttavuustutkimus: Satunnaistetun vertailukokeen laadukkaan raportoinnin edellytykset.

Satunnaistamattomien vertailukokeiden harha johtaa usein uusien interventioiden vaikutusten yliarviointiin.
Satunnaistetun vertailukoeasetelman käyttö ei takaa tutkimuksen ja siitä kirjoitetun artikkelin luotettavuutta ja laatua.
Yleisimmät harhan lähteet voidaan luokitella viiteen luokkaan:
1) valinta-, 2) toiminta-, 3) hiertymis-, 4) havaitsemis- ja 5) raportointiharha.
Harhalla on suora vaikutus tutkimustulosten luotettavuuteen.
Cochranen harhan riski -työkalulla voidaan arvioida artikkelin luotettavuutta ja laatua.

Mielenterveyden tukemiseen tarkoitettujen psykososiaalisten menetelmien – aivan kuten muidenkin interventioiden – vaikuttavuuden osoittamisen kultainen standardi on satunnaistettu vertailukoe. Satunnaistettujen vertailukokeiden malleja on lukuisia ja ne voivat olla hyvinkin erilaisia esimerkiksi koeasetelmaltaan ja tilastolliselta metodologialtaan. Tämä luo haasteen lukijalle: miten lukija pystyy artikkelin perusteella tekemään oman arvionsa tulosten luotettavuudesta, merkitsevyydestä ja yleistettävyydestä, kun olemassa on useita satunnaistetun vertailukokeen malleja? Mihin mahdollisiin harhan lähteisiin lukijan pitäisi kiinnittää huomiota? Miten lukija voi vakuuttua, että artikkeli on riittävän laadukas, jotta sen tulokset ovat yleistettävissä? On tärkeää pitää mielessä, että satunnaistetun vertailukoeasetelman käyttö ei takaa tutkimuksen ja siitä kirjoitetun artikkelin luotettavuutta ja laatua.

Mitä on harha?

Harha kuvataan tavallisesti mittaustuloksen järjestelmälliseksi taipumukseksi poiketa tiettyyn suuntaan todellisesta arvosta. Järjestelmällinen poikkeaminen todellisesta arvosta voi johtaa intervention vaikutusten yli- tai aliarviointiin. Yleensä olemme kiinnostuneita osoittamaan, että koeryhmälle annettu interventio on vertailuryhmälle annettua interventiota parempi, tehokkaampi ja turvallisempi.

Uuden intervention vaikuttavuutta saatetaan yliarvioida, jos sitä on tutkittu vain satunnaistamattomin vertailukokein (Jadad & Enkin, 2007; Hróbjartsson ym., 2014). Ei kuitenkaan ole syytä päätellä, että tutkijat ja tutkimusten rahoittajat muokkaisivat tahallaan tutkimustuloksia mieleisekseen. Vaikka näinkin voidaan joskus tehdä, todennäköisesti yleisemmin tutkimusten harha on tahatonta, ja se jää usein jopa tutkijoilta huomaamatta (Jadad & Enkin, 2007).

Satunnaistetun vertailukokeen suurin vahvuus on tutkittavien tutkimusryhmiin valikoitumisesta aiheutuvan harhan hallitseminen (Hinkka-Yli-Salomäki, 2021). Hallitsemisella tarkoitetaan tässä yhteydessä eri harhalähteiden minimoimista tai jopa poistamista. Satunnaistamisella pyritään siihen, että tutkittavat ryhmät ovat mahdollisimman samankaltaisia tutkimuksen alussa. Näin tutkijan on lopuksi mahdollista eristää ja määrittää tutkittavan intervention vaikutus vertaamalla koeryhmää vertailuryhmään.

”Satunnaistetun vertailukokeen suurin vahvuus on tutkimusryhmiin valikoitumisesta aiheutuvan harhan hallitseminen.”

Millään muulla koeasetelmalla emme pysty tasapainottamaan tuntemattomia ennustavia tekijöitä tutkimuksen lähtötilanteessa. Tutkimukseen osallistuvien satunnainen kohdentaminen eri ryhmiin ei kuitenkaan suojaa satunnaistettuja vertailukokeita muun tyyppisiltä harhan lähteiltä. Ne voivat liittyä tutkimuksen suunnitteluun, toteutukseen tai raportointiin tai tiedon levittämiseen.

Miksi harhalla on merkitystä?

Mielenterveyden tukemiseen tarkoitettujen psykososiaalisten interventioiden todellisia vaikutuksia ei tunneta, kuten ei muidenkaan interventioiden. Tutkimuksessa harhaa koitetaan hallita, havaita, ennakoida ja määrittää, jotta tutkimustulokset olisivat mahdollisimman lähellä todellisuutta ja johtopäätökset voitaisiin näin ollen yleistää koskemaan laajaa kohdeväestöä.

On kuitenkin mahdotonta tietää varmasti, ovatko tietyn tutkimuksen tulokset harhaisia. Tämä johtuu yksinkertaisesti siitä, että on mahdotonta selvittää, eroavatko tutkimustulokset järjestelmällisesti siitä, mitä olisivat todelliset tulokset – joista ei voida saada tarkkaa tietoa. Tiedämme kuitenkin, että tietyt valinnat aiheuttavat harhaa toisia valintoja todennäköisemmin, ja näitä tutkimuksen eri osa-alueita on mahdollista arvioida (Sterne ym., 2019). Voimme tarkastella muun muassa:

tutkittavien määrää ja valintaa
vertailuryhmälle annetun intervention valintaa
vaikuttavuuden mittaamiseen käytettyjä mittareita
satunnaistamisen toteuttamista
sokkoutuksen tasoa
käytettyjä tilastollisia menetelmiä.

Vertailemalla tutkimuksesta kieltäytyneiden ja tutkimuksen keskeyttäneiden määriä koe- ja vertailuryhmissä voimme lisäksi arvioida tutkimustulosten yleistettävyyttä ja soveltuvuutta kohderyhmään ja mahdollisesti myös laajempaan joukkoon. Satunnaistetuissa vertailukokeissa yleiset harhan lähteet voidaan jakaa viiteen luokkaan: 1) valinta-, 2) toiminta-, 3) havaitsemis-, 4) hiertymis- ja 5) raportointiharha (taulukko 1). Näiden ulkopuolelle jäävät harhalähteet yhdistetään usein omaan luokkaansa muut harhat.

Valintaharha

Todellisessa satunnaistamisessa kaikilla tutkimukseen osallistuvilla on yhtäläinen mahdollisuus tulla valituksi mihin tahansa tutkimusryhmään. Toisin sanoen, jos tutkimuksessa on kaksi ryhmää, koe- ja vertailuryhmä, jokaisella osallistujalla on 50 prosentin todennäköisyys tulla satunnaistetuksi koeryhmään (ja vastaavasti 50 prosentin todennäköisyys tulla satunnaistetuksi vertailuryhmään). Usein tämä kuitenkin toteutuu vajavaisesti

Valintaharhaa (selection bias) voi syntyä tutkittavien rekrytointitavasta. Esimerkiksi, jos tutkija tietää tai arvaa satunnaistamisen puutteellisen toteutuksen vuoksi seuraavaksi satunnaistettavan henkilön ryhmän, hän voi jättää osallistujaksi täysin kelvollisen henkilön tutkimuksen ulkopuolelle. Erityisesti tämä koskee avoimia (open) eli sokkouttamattomia tutkimuksia, kuten eri terapiamuotojen tutkimuksia, sekä tilanteita, joissa tutkija tietää satunnaistamisen sekvenssin eli lohkokoon. Lohkokoko tarkoittaa lukumäärää, jonka jälkeen koe- ja vertailuryhmän koot ovat samat. Jos esimerkiksi lohkokoko on neljä, tutkimuksen koe- ja vertailuryhmien koot ovat samat jokaisen neljän rekrytoidun tutkittavan jälkeen. Toisin sanoen ensimmäisten neljän rekrytoidun jälkeen koe- ja vertailuryhmässä on molemmissa kaksi tutkittavaa satunnaistettuna (kuvio 1).

”On mahdotonta selvittää, eroavatko tutkimustulokset järjestelmällisesti siitä, mitä olisivat todelliset tulokset.”

Valintaharhaa voi esiintyä myös vaiheessa, jossa jo tutkimukseen mukaan otettuja ollaan allokoimassa koe- ja vertailuryhmiin, jos tutkija tietää satunnaistamisessa käytetyn lohkokoon. Tällöin on mahdollista, että tutkija vaihtaa tutkimushenkilöiden satunnaistamisen järjestystä yrittäen saada esimerkiksi vaikeammin oireilevan henkilön vertailuryhmään, jotta koeryhmässä saataisiin paremmat tulokset lievempien tapausten ansiosta.

Schulz ja hänen tutkimusryhmänsä osoittivat jo vuonna 1995, että tutkimuksissa, joissa tutkijat tietävät satunnaistamiskoodin – eli heillä on tieto siitä, mitä interventiota kukin tutkittava saa – tai satunnaistamisen lohkokoon, tutkittavalle interventiolle saadaan keskimäärin 40 prosenttia suurempi vaikuttavuus kuin tutkimuksissa, joissa edellä mainitut seikat eivät ole tutkijoiden tiedossa (Schulz ym., 1995).

Satunnaistamiskoodin salaaminen on yksinkertaista, joten on erikoista, että sitä ei tutkimuksissa aina tehdä. Koodi voidaan ottaa käyttöön osana mitä tahansa koetta. Jos artikkelissa mainitaan, että satunnaistamiskoodi ja lohkokoko salattiin niiltä tutkimusta tekeviltä henkilöiltä, jotka olivat suorassa yhteydessä tutkittaviin, lukija voi vakuuttua, että valintaharha on mahdollisimman pieni. Läheskään aina tätä ei mainita, jolloin lukijan on mahdotonta tietää, toteutettiinko salaaminen vai ei.

Satunnaistetun vertailukokeen raportoinnin CONSORT 2010 -tarkistuslistan mukaan satunnaistamisen yksityiskohtainen kuvaus, joka sisältää muun muassa satunnaistamislistan tekemiseen käytetyn menetelmäkuvauksen, on tärkeä osa tutkimuksen raportointia (Hinkka-Yli-Salomäki, 2021). Esimerkiksi kuvion 1 kaltaisessa tilanteessa satunnaistamislistassa on kaksi saraketta: ensimmäisessä sarakkeessa on tutkittavan tutkimusnumero (1–20) ja toisessa sarakkeessa tieto tutkittavan ryhmästä, eli joko koeryhmä (= A) tai vertailuryhmä (= B). Tämän osion puuttuminen tai puutteellinen kuvaus artikkelissa kertoo lukijalle tutkimuksen mahdollisesta valintaharhasta.

Kuvio 1. Esimerkki satunnaistetusta lohkokokeesta, jossa lohkokoko on neljä

A ja B ovat koe- ja vertailuryhmille annettavat interventiot.

Toimintaharha

Toimintaharhaa (performance bias) saattaa esiintyä, jos tutkija tai tutkittava tietää, mihin tutkimusryhmään tutkittava on satunnaistettu. Toimintaharhalle alttein satunnaistetun vertailukokeen tyyppi on täysin sokkouttamaton tutkimus, jossa sekä tutkija että tutkittava tietävät, mitä interventiota tutkittavalle annetaan.

”Intervention vaikutuksen raportoitu suuruus oli riippuvainen sokkoutuksen tasosta.”

Yksöissokkokokeessa (single-blind trial) tutkittava ei tiedä mitä interventiota saa, mutta interventiota antava henkilö sen sijaan on tietoinen siitä, mihin ryhmään tutkittava on satunnaistettu. Kaksoissokkokokeessa (double-blind trial) intervention toteuttaja ja tutkittava eivät tiedä, mitä interventiota tutkittava saa. Kaikkein tehokkaimmin toimintaharha minimoidaan kolmoissokkokokeessa (triple-blind trial). Siinä satunnaistamiskoodia ei tiedä tutkittava, interventiota antava eikä tutkimusaineistoa analysoiva henkilö. Käytännössä tämä toteutetaan yleensä niin, että tilastotieteilijä analysoi päävasteen sokkona, jonka jälkeen satunnaistamiskoodi avataan myös hänelle (http://www.ema.europa.eu/en/ich-e9-statistical-principles-clinical-trials).

Kaksois- ja kolmoissokkokokeissa toimintaharhaa ei ole tai se on hyvin pieni. Psykososiaalisen menetelmän vaikuttavuustutkimus on kuitenkin usein mahdotonta toteuttaa kaksois- tai kolmoissokkokokeena. Esimerkiksi verrattaessa internetin välityksellä annettavaa terapiaa kasvokkain tapahtuvaan ryhmäterapiaan molemmat osapuolet, sekä osallistuja että terapeutti, tietävät, kummasta interventiosta on kyse.

Harha saattaa suurentaa intervention tulkittua vaikutusta, erityisesti jos tutkimuksen vasteet ovat subjektiivisesti arvioitavia eivätkä esimerkiksi mittalaitteella mitattavia arvoja (Savović ym., 2012). Eräässä systemaattisessa katsauksessa käytiin läpi 33 meta-analyysia, joissa oli mukana 250 satunnaistetun vertailukokeen julkaisut. Tutkijat havaitsivat, että intervention vaikutuksen raportoitu suuruus oli riippuvainen sokkoutuksen tasosta ja riippuvuus oli tilastollisesti merkitsevä. Julkaisut, joissa ei kerrottu tutkimuksessa käytetyn kaksoissokkoutusta, raportoivat intervention vaikutukset keskimäärin 17 prosenttia suuremmiksi verrattuna julkaisuihin, joissa kerrottiin kaksoissokkoutusta käytetyn (Schulz ym., 1995).

Jos tutkimusta ei ole mahdollista sokkouttaa, tutkija voi käyttää muita keinoja harhan pienentämiseksi. Mikäli tutkimuksessa käytetään subjektiivisesti arvioitavia vasteita, toimintaharhaa voidaan pienentää sokkouttamalla arvioija. Esimerkiksi kognitiivisen käyttäytymisterapian (CBT) vaikutusta kartoittaneessa tutkimuksessa tutkittavan antamien vastausten arvioijana ei ollut interventiota antava tutkija, vaan toinen henkilö. Toisessa esimerkissä kaksi tutkimusryhmän ulkopuolista tutkijaa analysoivat ja pisteyttivät tutkijan videoimat tallenteet äidin ja vastasyntyneen vuorovaikutustilanteista.

Miten usein tutkimuksissa sitten mainitaan sokkoutuksesta tai siitä, ettei sitä käytetty? Tutkiessaan sokkoutuksen raportoinnin laatua Montori ym. (2002) arvioivat viiden arvostetun julkaisusarjan tulosjulkaisuja satunnaistetuista vertailukokeista. Tutkimusryhmä selvitti, oliko julkaisuissa mainintaa sokkoutuksesta ja siitä, ketkä olivat sokkona ja kuinka pitkän aikaa. Mahdollisia sokkoutettavia ryhmiä olivat tutkittavat, terveydenhuollon ammattihenkilöt, aineiston kerääjät, vasteiden arvioijat, tilastotieteilijät ja julkaisun kirjoittajat. Jonkin edellä mainitun ryhmän sokkouttamisesta mainittiin ainoastaan 25 prosentissa tutkituista satunnaistetuista vertailukokeista.

On tärkeää ymmärtää valinta- ja toimintaharhan välinen ero, eli mikä johtuu siitä, että satunnaistamiskoodia ei salata tutkimuksessa osallisina olevilta henkilöiltä, ja mikä taas sokkoutuksen puutteesta. Satunnaistamiskoodin salaaminen on aina mahdollista, sokkouttaminen ei.

Havaitsemisharha

Havaitsemisharhalla (detection bias) tarkoitetaan järjestelmällisiä eroja tutkimusryhmien välillä siinä, miten vasteet mitataan tai arvioidaan. Sokkouttamattomissa tutkimuksissa tätä harhaa voidaan pienentää samalla tavalla kuin toimintaharhaa, eli käyttämällä tutkittavan raportoimien vastausten arvioijana toista henkilöä kuin interventiota antanutta tutkijaa. Arvioitsijoiden sokkouttaminen on erityisen tärkeää subjektiivisten tuntemusten, kuten tutkittavan ahdistuksen määrän, arvioinnissa (Philips ym., 2022).

”Arvioitsijoiden sokkouttaminen on erityisen tärkeää subjektiivisten tuntemusten arvioinnissa.”

Satunnaistetun vertailukokeen raportoinnin CONSORT 2010 -tarkistuslistan mukaan sokkoutuksen yksityiskohtainen kuvaus on osa laadukasta tutkimuksen raportointia (Hinkka-Yli-Salomäki, 2021). Kuvauksen tulee sisältää tiedot henkilöistä, jotka olivat tutkimuksen aikana sokkona, sekä siitä, kuinka sokkoutuksen säilyminen taattiin. Tiedon puuttuminen tai sen puutteellinen kuvaus kertoo lukijalle tutkimuksen mahdollisesta valinta- tai havaitsemisharhasta.

Hiertymisharha

On aina mahdollista, että osa satunnaistettuun vertailukokeeseen rekrytoiduista jää pois tutkimuksesta ennen sen päättymistä. Tavallisimpia tutkimuksesta poisjäämisen syitä ovat keskeyttäminen ja se, että tutkittavaan ei saada enää yhteyttä. Tutkittava voi jäädä pois esim. motivaation puutteen, avioeron, sairastumisen tai lähiomaisen sairastumisen tai kuoleman vuoksi. Joskus taas osallistuminen keskeytyy esimerkiksi tutkijan tekemään lastensuojeluilmoitukseen. Poisjääntejä voi tapahtua järjestelmällisesti tietyssä tutkittavien osajoukossa. Jos koe- ja vertailuryhmien keskeyttäneiden suhteellinen määrä on hyvin erilainen, hiertymisharhalla (attrition bias) on vaikutusta tutkimuksen tuloksiin ja raportointiin (Philips ym., 2021).

Satunnaistetun vertailukokeen raportoinnin CONSORT 2010 -tarkistuslistan mukaan jokaisen laadukkaan julkaisun pitäisi kuvata tutkimuksen osallistujavirta, eli kuinka monta tutkittavaa satunnaistettiin ja mihin ryhmiin sekä analyyseihin osallistuneiden määrä päävasteen osalta. Lisäksi pitäisi kuvata tutkittavien keskeyttämisten ja poissulkemisten määrät ja syyt kussakin ryhmässä (Hinkka-Yli-Salomäki, 2021). Tavallisesti luvut esitetään julkaisuissa vuokaavioina. Tietojen puuttuminen tai puutteellinen kuvaus kertoo lukijalle tutkimuksen mahdollisesta hiertymisharhasta.

Raportointiharha

Raportointiharhalla (reporting bias) tarkoitetaan järjestelmällistä valintaa, mitä raportoidaan ja mitä jätetään raportoimatta. Satunnaistetusta vertailukokeesta tehtyä julkaisua lukiessaan jokainen voi arvioida mahdollista raportointiharhaa. Valikoiva raportoiminen on raportointiharhan yleisin muoto. Tämä johtuu siitä, että houkutus julkaista vain tilastollisesti merkitseviä tuloksia voi olla tutkijalle suuri. Lukija voi havaita valikoinnin vertaamalla julkaisua tutkimusrekisteriin ilmoitettuihin tietoihin vasteista. Toisin sanoen, lukija voi selvittää, miten yhtenevät tutkimusrekisterin tiedot päävasteista ja toissijaisista vasteista ovat julkaisun tietojen kanssa. Tällä hetkellä käytetyin kaikille avoin ei-kaupallinen tutkimusrekisteri on ClinicalTrials.gov (https://clinicaltrials.gov/).

CONSORT 2010 -tarkistuslistan mukaan kaikissa satunnaistetun vertailukokeen julkaisuissa tulisi mainita tutkimusrekisterin nimi ja rekisteröintinumero sekä tieto siitä, missä tutkimussuunnitelma on kokonaisuudessaan luettavissa, mikäli se on saatavilla (Hinkka-Yli-Salomäki, 2021). Tietojen puuttuminen kertoo lukijalle tutkimuksen mahdollisesta raportointiharhasta. Harha on vähäisintä satunnaistetuissa vertailukokeissa, joissa tutkittavien määrä on suuri, ja tutkimuksissa, joissa intervention vaikutus tutkittaviin vasteisiin on suuri verrattuna vertailuintervention vaikutuksiin.

Tulosten raportoimatta jättäminen, erityisesti päävasteiden osalta, on puutteellisesti tunnistettu ongelma. Ongelman vaikutus kertautuu systemaattisissa katsauksissa: Kirkhamin ym. (2009) mukaan yli 55 prosentissa julkaistuista systemaattisista katsauksista oli puutteita päävasteen raportoinnissa tai päävastetta ei ollut raportoitu lainkaan.

Muut harhat

Edellä mainittujen harhojen ulkopuolelle jää lukuisia tutkimuksen eri vaiheisiin liittyviä harhoja, joista tässä mainitaan muutama.

Esiinkaivuharhalla (ascertainment bias) tarkoitetaan otantaharhaa, joka liittyy aineiston hankintaan jonkin erityispiirteen tai ilmiasun perusteella (Mansournia ym. 2018). Toisin sanoen, tutkimukseen rekrytoidaan lähdeaineistoista joillakin erityispiirteillä valikoitunut otos huomioiden tutkimushenkilöitä koskevat sisäänotto- ja poissulkukriteerit. Esiinkaivuharhaa voi esiintyä myös rekrytoinnin jälkeisissä tutkimuksen vaiheissa ja sitä voi aiheuttaa mikä tahansa tutkimusprosessiin osallinen ryhmä.

Harhaa voi tuottaa:
1) interventiota antava henkilö: esimerkiksi tutkimushoitaja, perhevalmentaja tai terapeutti haluaa nähdä uudella interventiolla todellisuutta suuremman vaikutuksen
2) interventiota saava tutkittava: esimerkiksi yläkoululaisen (tai vastaavasti hänen huoltajansa) tietoinen oireiden aliarviointi tutkimukseen päästyä (”plasebovaikutus”)
3) vasteita arvioiva tutkija: esimerkiksi intervention vaikutuksen ylikorostaminen arvioitaessa videotallennetta lapsen ja äidin vuorovaikutustilanteesta
4) tutkimusaineistoa analysoiva tilastotieteilijä: esimerkiksi tilastollisen mallin tai menetelmän valinta puuttuvan tiedon käsittelemiseksi siten, että se ylikorostaa intervention vaikutusta
5) tutkimusraportin kirjoittaja tutkimuskuvauksessaan.

Paras tapa esiinkaivuharhan minimoimiseksi on pitää tutkimukseen osallistuvat henkilöt tietämättöminä annetusta interventiosta mahdollisimman kauan. Satunnaistaminen ja sokkoutus ovat siis tämänkin harhan minimoimisessa avainasemassa.

Muodikkuusharhaa (hot stuff bias) voi esiintyä tilanteessa, jossa tutkimusaihe on noussut tutkijoiden keskuudessa muodikkaaksi. Tällöin tutkijat voivat olla vähemmän kriittisiä ja artikkelit voidaan saada julkaistua nopeammin ja helpommin. Esimerkkinä tästä ovat koronapandemian alussa tehdyt lukuisat tapausartikkelit ja artikkelit, joissa mainitaan tekoäly tai koneoppiminen sovellusalasta riippumatta. Julkisuudella pystytään muokkaamaan nopeasti ja tehokkaasti muoti-ilmiöiksi nousevia aiheita.

”Kirjoittajan ja lukijan kannattaa käyttää raportoinnin CONSORT 2010 -tarkistuslistaa ja Cochranen harhan riski -työkalua.”

Rahoittamisharhaa (funding bias) voi esiintyä tilanteissa, joissa tutkija pyrkii analysoimaan ja raportoimaan tutkimuksensa puolueellisesti tukien rahoittajan tarpeita. Historiasta tunnetaan tupakka- ja lääketeollisuuden rahoittamia hyvinkin harhaisia tutkimuksia. Satunnaistetun vertailukokeen raportoinnin CONSORT 2010 -tarkistuslistan mukaan rahoituslähteet ja muu tuki sekä rahoittajien rooli tulisi mainita jokaisessa satunnaistetun vertailukokeen julkaisussa (Hinkka-Yli-Salomäki, 2021). Lisäksi tavallisesti artikkelin julkaisemisen edellytyksenä on, että kirjoittajat raportoivat taloudelliset ja muut sidonnaisuudet. Tietojen puuttuminen kertoo lukijalle tutkimuksen mahdollisesta rahoittamisharhasta.

Otoskokoharhalla (wrong sample size bias) viitataan sattumalöydöksiin otoskooltaan pienissä tutkimuksissa ja toisaalta suurten tutkimusten tilastollisesti merkitseviin tuloksiin, joilla ei kuitenkaan ole kliinistä käytännön merkitystä. CONSORT 2010 -tarkistuslistan mukaan otoskoon määrittely ja päävasteen ja mahdollisten toissijaisten vasteiden efektikokoko (ts. vaikutuksen koko) tulisi mainita satunnaistetun vertailukokeen julkaisussa (Hinkka-Yli-Salomäki, 2021).

Taulukko 1. Yhteenveto tutkimusharhoista

Harhan arvioiminen Cochranen harhan riski -työkalulla

Satunnaistettujen vertailukokeiden harhojen lähteitä ja suuruutta arvioidaan systemaattisissa katsauksissa yleisesti Cochranen harhan riski -työkalulla. Ensimmäinen versio työkalusta on vuodelta 2008. Tätä nykyä käytössä on päivitetty versio vuodelta 2019 (Cochrane Risk of Bias Tool; Sterne ym., 2019). Työkalu sisältää viisi osa-aluetta, joilla mahdollinen harha voi vaikuttaa tutkimuksen tuloksiin (taulukko 2). Harhan riskiä kullakin osa-alueella arvioidaan asteikolla:

pieni tai todennäköisesti pieni riski
suuri tai todennäköisesti suuri riski
ei tietoa tai ei sovellettavissa

Harhan riski arvioitavassa tutkimuksessa saadaan arvioimalla kutakin viittä osa-aluetta. Näin tutkimukset saadaan luokiteltua harhan riskin mukaan. Jos riski arvioidaan kaikilla osa-alueilla pieneksi, kokonaisriski on pieni. Jos taas riski arvioidaan suureksi edes yhdellä osa-alueella, kokonaisriski on suuri. Jos riski on suurentunut vähintään yhdellä osa-alueella, mutta ei yllä suurimmalle tasolle yhdelläkään osa-alueella, kokonaisriskiksi saadaan ”jonkin verran”.

”Kliinisten tutkijoiden ja epidemiologien käyttämä terminologia on erilaista.”

Satunnaistetusta vertailukokeesta tehtyä artikkelia lukiessa kannattaa arvioida edellä esitettyjen harhojen riskejä. On kuitenkin hyvä muistaa, ettei täysin harhatonta tutkimusta ole olemassa. Harhalla on suora vaikutus siihen, miten luotettavina tuloksia voidaan pitää. Lukija arvioi tutkimuksen harhaa yleensä vain artikkelin perusteella, joten huonolaatuinen raportointi voi herättää epäilykset, vaikka itse tutkimus olisi toteutettu lähes harhattomasti (https://training.cochrane.org/handbook/current). Tämän vuoksi artikkelien kirjoittajien kannattaa käyttää sekä satunnaistetun vertailukokeen raportoinnin CONSORT 2010 -tarkistuslistaa että Cochranen harhan riski -työkalua.

Taulukko 2. Satunnaistettujen vertailukokeiden harhan arvioiminen Cochranen harhan riski -työkalulla

Satunnaistetun vertailukokeen ja epidemiologisen havaintotutkimuksen eroja

Satunnaistettuja vertailukokeita ja havaintotutkimuksia käytetään interventioiden kausaalisten vaikutusten selvittämiseen. Näiden kahden lähestymistavoissa on kuitenkin useita eroja. Kuten nimikin kertoo, yksi eroista on se, että satunnaistetussa vertailukokeessa käytetään valintaharhan minimoimiseksi satunnaistamista. Parhaimmillaan aineisto analysoidaan hoitoaieperiaatteen (ts. ITT-periaate, intention-to-treat) mukaisesti. Tällöin mukaan analyysiin otetaan kaikki satunnaistetut tutkittavat, myös ne, jotka keskeyttivät tutkimuksen tai syystä tai toisesta saivat eri intervention kuin heille oli lähtöryhmän mukaisesti allokoitu.

”Mikään tilastollinen menetelmä ei pysty poistamaan analyysia edeltävissä vaiheissa syntynyttä harhaa.”

Toinen satunnaistetun vertailukokeen ja havaintotutkimuksen ero on sokkouttaminen. Sokkouttaminen ja hoitoaieperiaatteen mukainen analysointi alkoivat levitä laaja-alaiseen käyttöön vasta 1990-luvun lopulla viranomaisohjeiden myötä (http://www.ema.europa.eu/en/ich-e9-statistical-principles-clinical-trials). Ohjeet koskevat uusien lääke- ja diagnostiikkalaitteiden maailmanlaajuisia rekisteröintejä, mutta niitä on alettu soveltaa enenevässä määrin myös psykososiaalisten menetelmien vaikuttavuutta selvittävissä satunnaistetuissa vertailukokeisissa.

Kliinisten tutkijoiden ja epidemiologien käyttämä terminologia on erilaista, mikä voi mutkistaa keskustelua satunnaistettujen vertailukokeiden ja havaintotutkimusten välisistä eroista. Kliiniset tutkijat luokittelevat harhat usein viiteen luokkaan. Epidemiologit sen sijaan käyttävät käsitteitä sekoittuminen, valintaharha ja mittausharha. Raportointiharhan nimitys ja merkitys ovat samat sekä epidemiologisessa että kliinisessä tutkimuksessa (Mansournia ym., 2018). Termien vastaavuudet on kuvattu taulukossa 3.

Valintaharha voi vaikuttaa sekä hoitoaikeen että tutkimussuunnitelman mukaisen (per-protocol, PP) vaikutuksen estimaattiin (taulukko 3). Tutkimussuunnitelman mukaisessa aineistossa sisäänotto- ja poissulkukriteerien täyttyminen huomioidaan koko tutkimuksen ajan ja tutkittavat osallistuvat kaikkiin suunnitelman mukaisiin vaiheisiin. Kuviossa 2 on havainnollistettu, miten tutkimussuunnitelman mukainen aineisto sisältyy aina hoitoaieperiaatteen mukaiseen aineistoon. PP- ja ITT-periaatteiden välinen ero tutkimushenkilöiden lukumäärässä vaihtelee tutkimuksesta toiseen, mutta toisinaan se voi olla useita prosentteja.

Valintaharhaa ilmenee, jos koe- ja vertailuryhmien alkumittaukset eroavat merkitsevästi toisistaan. Tällöin tutkittavien ennustetekijät (prognostic factors) ovat vaikuttaneet tutkittavien allokointiin koe- ja vertailuryhmään (Mansournia ym., 2018).

Toimintaharhaa, eli epidemiologisin termein sekoittumista, ei ole hoitoaieperiaatteen mukaisessa analyysissa (taulukko 3). Havaitsemis-, hiertymis- ja raportointiharha sen sijaan ovat mahdollisia niin ITT- kuin PP-periaatteen mukaisissa analyyseissa. Yhteenvetona voidaan todeta, että satunnaistettu vertailukoe kannattaa analysoida ottamalla mukaan kaikki satunnaistetut tutkittavat ITT-periaatteen mukaisesti. Tämä minimoi toimintaharhan. Kuvio 3 havainnollistaa hoitoaikeen ja tutkimussuunnitelman mukaista vasteen arvioinnin eroa.

”Sokkouttaminen ja satunnaistamisessa käytetyn lohkokoon salaaminen ovat yleisimpiä keinoja minimoida harhaa.”

Taulukko 3. Kliinisten kokeiden harhatyyppien ja epidemiologisten termien vastaavuus

¹https://training.cochrane.org/handbook/current

Kuvio 2. Hoitoaikeen (Intention-to-treat) ja tutkimussuunnitelman mukaisen (per-protocol) aineiston havainnollistus

Lopuksi

On hyvä muistaa, että täysin harhatonta satunnaistettua vertailukoetta ei ole, eikä mikään tilastollinen menetelmä pysty poistamaan harhaa, jos sitä on esiintynyt analyysia edeltävissä vaiheissa. Satunnaistetun vertailukokeen suurin vahvuus on tutkittavien tutkimusryhmiin valikoitumisesta aiheutuvan harhan hallitseminen. Sokkouttaminen ja satunnaistamisessa käytetyn lohkokoon salaaminen tutkimusta suorittavilta ja analysoivilta henkilöiltä sekä tutkittavilta ovat yleisimpiä keinoja minimoida harhaa. Mahdollisimman monen tahon sokkouttaminen pienentää harhaa, ja vähintään analysointivaiheen voi aina tehdä sokkona.

Sokkouttamattomien tutkimusten tulosten tulkinnassa on hyvä olla tarkkana. Niin avoimissa kuin sokkoutetuissakin vertailukokeissa objektiivisten ja luotettavien vasteiden ja mittareiden käyttö sekä vertailuryhmälle annetun intervention standardoiminen lisää tutkimuksen laatua. Standardoimisella tarkoitetaan tässä laadun varmistamista: esimerkiksi kaikkien interventiota antavien yhtäläistä kouluttamista samalla koulutusmateriaalilla ja intervention pitämistä täysin samanlaisena tutkimuksen alusta loppuun jokaisella tutkimushenkilöllä.

Lukija voi arvioida julkaistujen tulosten luotettavuutta, merkitsevyyttä ja yleistettävyyttä satunnaistetun vertailukokeen raportoinnin CONSORT 2010 -tarkistuslistan (Hinkka-Yli-Salomäki, 2021) sekä Cochranen harhan riski -työkalun avulla (taulukko 1). Satunnaistetun vertailukokeen toteuttamisen vuokaavio, joka esittää osallistujavirran yksityiskohtaisesti, auttaa tulosten yleistettävyyden arvioinnissa (Hinkka-Yli-Salomäki, 2021).

Kuvio 3. Hoitoaikeen (intention-to-treat) ja tutkimussuunnitelman mukaisen (per-protocol) vaikutuksen ero vasteen arvioinnissa

Sidonnaisuudet

Sanna Hinkka-Yli-Salomäki
VTL, MSc, DLSHTM, johtaja, biostatistiikka ja tiedonhallinta, Lastenpsykiatrian tutkimuskeskus, Turun yliopisto
Ei sidonnaisuuksia.

Artikkeli on jatkoa Kasvun tuki -aikakauslehdessä 2/2021 julkaistulle artikkelille Vaikuttavuustutkimus: Satunnaistettu vertailukoe tulee suunnitella huolella.

Satunnaistetun vertailukokeen toteuttaminen on suuri ponnistus, joka vaatii käytännön asioiden järjestelemistä ja perehtymistä tutkimuksen laadukkaaseen raportointiin.
Tutkimusartikkelin kirjoittamisessa auttaa CONSORT 2010 -tarkistuslistan noudattaminen.
Yli puolessa raportoiduista satunnaisista vertailukokeista on käytetty kahden rinnakkaisryhmän koeasetelmaa.
Ennen vertailukokeen toteuttamista kannattaa tehdä pilottitutkimus.
Tulokset esitetään ITT-periaatteen (intention-to-treat) mukaisesti, eli kaikki satunnaistetut tutkimushenkilöt pidetään mukana.

Satunnaistettu vertailukoe määritellään tavallisesti tutkimukseksi, jossa joukko tutkittavia jaetaan satunnaisesti kahteen tai useampaan ryhmään. Yksi näistä ryhmistä saa tutkittavaa interventiota ja muut ryhmät muuta hoitoa, kuten olemassa olevaa tavallista hoitoa, tai eivät mitään. Kun halutaan tutkia intervention vaikutusta (esimerkiksi tehoa, sopivuutta tai paremmuutta yleensä) tietyssä kohdejoukossa, on tärkeää verrata interventiota saavia heihin, jotka saavat muuta hoitoa tai eivät saa mitään. Satunnaistetun vertailukokeen suurin vahvuus on tutkittavien tutkimusryhmiin valikoitumisesta aiheutuvan harhan hallitseminen (Hinkka-Yli-Salomäki, 2021). Siksi tämä koeasetelma on jo pitkään ollut vaikuttavuustutkimusten ns. kultainen standardi.

Pilotointivaihe

Satunnaistetun vertailukokeen tekeminen on tutkimusryhmälle suuri ponnistus. Tutkimussuunnitelman huolellisen kirjoittamisen lisäksi tarvitaan monien käytännön asioiden järjestelemistä sekä riittävää perehtymistä tutkimuksen raportointiin.

Ennen kokeen läpiviemistä se kannattaa pilotoida. Pilotointivaiheessa voidaan esimerkiksi:

1. Tarkastella vertailukokeeseen suunniteltavien mittareiden ja
kysymysten sopivuutta sekä mahdollisten toimenpiteiden
toteutettavuutta ja hyväksyttävyyttä:

Onko kysely ajallisesti sopivan mittainen?
Saadaanko kysymyksillä tarvittava tieto tutkimuksen tavoitteisiin vastaamiseksi?
Onko kysymyksiä liikaa?
Ovatko kysymysajankohdat oikein valitut ja onko ajankohtien aikaikkuna käytännössä toimiva?
Onko suunnitellut toimenpiteet mahdollista toteuttaa niille varatussa ajassa?

2. Arvioida käytännön toteutusta:

Onko tutkittava interventio riittävän hyvin määritelty ja miten varmistetaan, että se pysyy samana koko tutkimuksen ajan?
Toimiiko rekrytointi?
Onnistuvatko rekrytoinnit suunnitellussa aikataulussa?
Kerätäänkö prosessista riittävästi tietoa, jotta tutkimusta voidaan seurata?
Ovatko henkilöresurssit ja muut mahdolliset tutkimukseen liittyvät resurssit (kuten laite- ja säilytysresurssit) riittävät?

3. Kerätä tietoa satunnaistetun vertailukokeen otoskoon
määrittämiseen:

Mitkä ovat päävasteen ja toissijaisten vasteiden kuvailevat tunnusluvut? Otoskoko suositellaan laskettavaksi päävastetta käyttäen, joten esimerkiksi päävasteen hajonnasta on tärkeää saada tietoa. Näin on erityisesti silloin, kun kirjallisuudessa on hyvin vähän tietoa päävasteen jakautumisesta kohdejoukossa.
Onko satunnaistetulle vertailukokeelle jo laskettu otoskoko riittävä tai onko se liian suuri?

4. Tarkastella verkkosivujen tai mobiililaitteille suunniteltujen
sovellusten toimivuutta ja ominaisuuksia, mikäli
tutkimuksessa on tarkoitus tällaisia käyttää

Onko tutkimushenkilöiden kirjautuminen sovellukseen tai sivustolle riittävän vaivatonta?
Onko sovelluksen/sivuston sisältö tarpeeksi selkeä, informatiivinen ja houkutteleva?
Onko tunnistettavissa jokin tietty vaihe, jossa tutkittavat usein keskeyttävät, ja voisiko tämä johtua sovelluksen tai sivuston muotoilusta ja/tai toimivuudesta?
Voidaanko kyseistä kohtaa muokata keskeyttävien määrän minimoimiseksi?

Ennen varsinaisen kokeen aloittamista kannattaa miettiä rekrytointinopeuden lisäksi sitä, millä tavoin ja kuinka tiiviisti tutkimuksen etenemistä voidaan seurata. Tätä varten on hyvä käyttää esimerkiksi vuokaaviota tai muuta vastaavaa prosessikuvausta, jotta mahdollisista ongelmakohdista saadaan ajantasaista tietoa. Näin säästetään tutkimusresursseja, kun mahdollisia korjausliikkeitä voidaan tehdä nopeasti.

Pilotteja voidaan tehdä useampia, ja niissä voidaan keskittyä joko yhteen tai useampaan edellä mainituista neljästä esimerkkikohdasta. Tarvittava tutkittavien määrä on riippuvainen pilotin tarkoituksesta, mutta useimmiten se on 10–50.

CONSORT-ryhmä ja -lausunto

Vuonna 1993 joukko asiantuntijoita, joka koostui lääketieteellisten lehtien toimittajista, kliinisistä tutkijoista, epidemiologeista ja metodologeista, tapasi Ottawassa, Kanadassa. Tavoitteena oli kehittää väline satunnaistettujen vertailukokeiden raporttien laadun arvioimiseksi. Tapaaminen johti CONSORT-ryhmän (Consolidated Standards of Reporting Trials) perustamiseen ja niin sanotun CONSORT-lausunnon julkaisemiseen.

CONSORT-lausunto on väline, jota päivitetään säännöllisesti kokemuksen ja uuden empiirisen näytön perusteella. Se sisältää useita CONSORT-ryhmän kehittämiä aloitteita, joiden tarkoituksena on ratkaista satunnaistettujen vertailukokeiden puutteellisesta raportoinnista aiheutuvia ongelmia. Avainjäsenet kokoontuvat säännöllisesti tarkastelemaan, onko lausuntoa tarvetta tarkentaa.

Satunnaistetun vertailukokeen toteuttamisen vuokaavio

Satunnaistettua vertailukoetta raportoitaessa mukaan on liitettävä tavallisesti kuviossa 1 esitetty CONSORT 2010 -vuokaavio sekä taulukossa 1 esitetty CONSORT 2010 -tarkistuslista täytettynä (CONSORT 2010). Eri tieteellisillä lehdillä voi olla hieman näistä poikkeavia vaatimuksia – usein kyse on lähinnä tarkentavista lisäkysymyksistä. Satunnaistettua vertailukoetta raportoitaessa suositellaan käytettävän Template for Intervention Description and Replication (TIDieR) -tarkistuslistaa CONSORT 2010 -tarkistuslistan lisäksi (Hoffman ym., 2014).

Kuviossa 1 on esitetty kaavion perusmalli kahden rinnakkaisen ryhmän satunnaistettuun tutkimukseen. Malli on helposti sovellettavissa myös tilanteeseen, jossa on useampi ryhmä. Vuokaaviossa on neljä eri vaihetta: 1) kohdejoukon arviointi, 2) kohdentaminen, 3) seuranta ja 4) analysointi. Raportoitaessa on tärkeää kirjata tutkimukseen rekrytoitujen henkilöiden määrät. Tämä koskee myös tutkimuksesta kieltäytyneitä ja henkilöitä, jotka eivät täytä sisäänottokriteereitä.

Kuvio 1. Satunnaistetun vertailukokeen toteuttamisen vuokaavio (CONSORT 2010).

CONSORT 2010 -tarkistuslista

Tarkistuslistassa on ohjeita kaikentyyppisten satunnaistettujen vertailukokeiden raportoimiseen, mutta erityisesti se keskittyy yleisimpiin eli yksilösatunnaistettuihin, kahden ryhmän rinnakkaisiin vertailukokeisiin. CONSORT-ryhmän julkaisemat ohjeet ovat luettavissa CONSORT-sivustolla (http://www.consort-statement.org/), missä on ladattavissa myös englanninkielinen tarkistuslista (word- ja pdf-muodossa).

Muut kokeet, kuten satunnaistetut klusterikokeet (cluster-randomized trials) (Campbell ym., 2012), esitutkimus- ja toteutettavuuskokeet (pilot and feasibility trials) (Eldridge ym., 2016) sekä huonommuudettomuuskokeet (non-inferiority trials) (Piaggio ym., 2012), vaativat vaihtelevan määrän lisätietoja tai muutoksia rinnakkaisryhmille tehtyyn tarkistuslistaan. Esimerkiksi satunnaistetuissa klusterikokeissa lisätiedot liittyvät niin yksilö- kuin klusteritason tuloksia esitettäessä seuraaviin seikkoihin: klusterien määrittely, otoskoon laskemisessa käytetty klusterien sisäinen korrelaatiokerroin, satunnaistamisen toteuttaminen ja käytetyt tilastolliset menetelmät. CONSORT-ryhmä on julkaissut klusteri-, esitutkimus- ja toteutettavuus- sekä huonommuudettomuuskokeille erilliset tarkistuslistat, jotka ovat niin ikään ladattavissa sivustolta (http://www.consort-statement.org/downloads/extensions).

Tarkistuslista kattaa tutkimuksen kulun suunnittelusta raportointiin. Sitä noudattamalla tutkijan on helppo kirjoittaa laadukas tutkimusartikkeli. Tarkistuslista toimii lisäksi hyvänä työkaluna raportoinnin selkeyttä, täydellisyyttä ja läpinäkyvyyttä arvioitaessa. Selkeät kuvaukset palvelevat parhaiten lukijoiden etua.

”Tarkistuslistan tavoitteena on ohjata tutkijoita kokeiden parempaan suunnitteluun, toteutukseen ja raportointiin.”

CONSORT 2010 -lausunto ei sisällä suosituksia liittyen kokeiden suunnitteluun, toteuttamiseen tai analysointiin, vaan se koskee raportoimista: mitä tehtiin ja mitä löydettiin. Siitä huolimatta tarkistuslista vaikuttaa epäsuorasti kokeiden suunnitteluun ja toteuttamiseen. Läpinäkyvä raportointi paljastaa tutkimuksen mahdolliset puutteet. Jos laadultaan riittämättömiä kokeita sisältävä tutkimus raportoidaan avoimesti, sen ei pitäisi pystyä läpäisemään julkaisuprosessia ilman, että tutkimuksen puutteet tulevat esiin.

Tarkistuslistan tavoitteena onkin ohjata tutkijoita kokeiden parempaan suunnitteluun, toteutukseen ja raportointiin. Lista koostuu kuudesta osa-alueesta: 1) otsikko ja tiivistelmä, 2) johdanto, 3) menetelmät, 4) tulokset, 5) pohdinta ja 6) muu tieto. Seuraavassa keskitytään niihin CONSORT 2010 -tarkistuslistan kohtiin, jotka usein jäävät huomioimatta ensimmäistä kertaa satunnaistettua vertailukoetta raportoitaessa. Suluissa olevat numerot viittaavat taulukon 1 kohtiin 1–25.

Taulukko 1. Satunnaistetun vertailukokeen raportoinnin tarkistuslista (CONSORT 2010) (Lataa taulukko pdf-muodossa).

Otsikko ja tiivistelmä

Jotta satunnaistetusta vertailukokeesta raportoiva artikkeli olisi tunnistettavissa sähköisestä tietokannasta, sen otsikon tulee kertoa, millaisesta tutkimuksesta on kyse (Moher ym., 2010). Otsikossa kannattaa käyttää ”satunnaistettu”-sanaa osoittamaan, että osallistujat jaettiin satunnaisesti ryhmiin (kohta 1a). Ohjeen mukainen otsikko on esimerkiksi “The Effectiveness of the Bullying Prevention Program in Finland: Results from a Randomized Controlled Trial”.

Johdanto

Tavoitteet (Objectives) ovat kysymyksiä, joihin kokeen oli tarkoitus vastata. Ne liittyvät esimerkiksi tietyn terapeuttisen tai ennaltaehkäisevän intervention tehokkuuteen. Hypoteesit ovat ennalta määritettyjä kysymyksiä, joita testataan tavoitteiden saavuttamiseksi. Hypoteesit ovat tarkempia kuin tavoitteet, ja niitä voidaan arvioida tilastollisesti. Useimmat satunnaistetuista vertailukokeista tehdyt julkaisut raportoivat tavoitteet ja hypoteesit riittävän selkeästi (kohta 2b).

Menetelmät

Kohdassa 3a (koeasetelman kuvaus) ”design”-sanaa käytetään usein laajassa merkityksessä viittaamaan kaikkiin koejärjestelyihin liittyviin asioihin, mukaan lukien satunnaistaminen ja sokkoutus. Kaksi viimeksi mainittua liittyvät kuitenkin tutkimuksen tyyppiin eivätkä koeasetelmaan. Yleisin koeasetelma on rinnakkaisten ryhmien koeasetelma, mutta myös ristikkäiskaavio- ja faktorikokeet ovat mahdollisia. Näiden laajempien kokeiden suunnittelun erityisnäkökohtia, kuten satunnaistamisen ja sokkoutuksen yksityiskohtia, käsitellään kohdissa 8–11.

CONSORT-lausunto keskittyy kuitenkin pääasiassa kokeisiin, joissa osallistujat satunnaistetaan yksittäin toiseen kahdesta ”rinnakkaisesta” ryhmästä. Itse asiassa hieman yli puolessa maailmalla julkaistuista satunnaisista vertailukokeista on käytetty rinnakkaisryhmä-asetelmaa (Chan & Altman, 2005).

”Tarkistuslistan tavoitteena on ohjata tutkijoita kokeiden parempaan suunnitteluun, toteutukseen ja raportointiin.”

Kokeen osallistujien valinnassa käytetyistä kelpoisuuskriteereistä tarvitaan kattava kuvaus. Kriteerien ymmärtäminen on tärkeää, jotta voidaan arvioida, keitä tutkimuksen tulokset koskevat. Tutkimuksen yleistettävyyttä (sovellettavuutta) ja merkitystä kliinisen tai kansanterveyden kannalta on mahdollista arvioida vain, kun tutkimusjoukko on ymmärrettävästi määritelty (kohta 4a) (Moher ym., 2010).

Tutkijan on kuvattava koeryhmälle ja vertailuryhmälle annetut interventiot yksityiskohtaisesti (kohta 5). Esimerkiksi jos kyse on terapiasta, tulee kuvata, kuinka usein ja pitkään terapiaa on annettu. Jos verrokkiryhmä saa ”tavallista hoitoa” (treatment as usual), on tärkeää kuvata, mitä se tarkoittaa. Jos vertailuryhmä tai interventioryhmä saa interventioiden yhdistelmän, tutkijan on kuvattava jokainen interventio erikseen. Samoin tulee kuvata järjestys, jossa yhdistelmän interventiot otetaan käyttöön tai lopetetaan, ja tarvittaessa niiden käyttöönoton alkamiseen vaikuttavat tekijät.

Tutkijan on varmistettava, etteivät koeryhmälle tai vertailuryhmälle annettavat interventiot muutu tutkimuksen aikana. Tämä on erityisen tärkeää pitkäkestoisissa (kuukausien tai vuosien pituisissa) tutkimuksissa, joissa interventiot ovat terapiamuotoisia. Varmistusmenetelmät on hyvä raportoida riittävän yksityiskohtaisesti. Mikäli interventiot ovat esimerkiksi tablettimuotoisia lääkehoitoja tai täysin strukturoituja internet-pohjaisia ohjelmia, niiden muuttumattomuus on huomattavasti helpompi varmistaa.

Päävaste (primary outcome) määritellään ennalta tutkimussuunnitelmassa. Sen katsotaan olevan tutkimuksen tärkein vaste asianomaisille sidosryhmille (kuten kohderyhmälle tai potilaille, poliittisille päättäjille, kliinikoille tai rahoittajille), ja sitä käytetään yleensä otoskoon laskennassa. Päävasteen tulokset on ilmoitettava selkeästi sellaisinaan satunnaistetun vertailukokeen raportissa (European Medicines Agency, 1998; Moher ym., 2010). Muut kiinnostavat vasteet ja tulokset ovat toissijaisia tai muita vasteita (secondary outcomes, additional outcomes) (kohta 6a).

Kohdan 6b mukaan kirjoittajien tulee raportoida kaikista merkittävistä muutoksista protokollaan. Tällaisia ovat myös kelpoisuuskriteereihin, interventioihin, tutkimuksiin, tiedonkeruuseen, analyysimenetelmiin ja tuloksiin liittyvät odottamattomat muutokset. Tutkimuksen otoskoko on tieteellisistä ja eettisistä syistä suunniteltava huolellisesti siten, että lääke-, hoito- ja tilastotieteelliset näkökohdat ovat tasapainossa (Hinkka-Yli-Salomäki, 2021).

Ihannetapauksessa tutkimuksen otoskoon tulisi olla riittävän suuri, jotta todennäköisyys (voima) havaita tietyn kokoinen kliinisesti tärkeä ero tilastollisesti merkitsevänä on riittävä – jos tällainen ero on olemassa. Tärkeänä pidetyn vaikutuksen koko on kääntäen verrannollinen sen havaitsemiseen tarvittavaan otoskokoon; pienten erojen havaitsemiseksi tarvitaan suuria otoskokoja.

”Otsikon tulee kertoa, millaisesta tutkimuksesta on kyse.”

Otetaan esimerkiksi tilanne, jossa tutkija pyrkii osoittamaan uuden masennusintervention tehon olemassa olevaan tavalliseen hoitoon verrattuna ja päävasteena on Edinburgh Depression Scale (EPDS) -kysely. Tutkija arvioi, että pisteen ero yhteispistemäärässä on jo kliinisesti merkittävä hoitojen välinen ero. Tällöin kirjallisuudesta poimittua keskimääräistä hajontaa (SD) käyttäen tarvittavaksi otoskooksi saadaan 400 tutkittavaa molemmissa ryhmissä. Tarvittaisiin siis yhteensä 800 tutkimushenkilön EPDS-tiedot, jotta havaittaisiin tilastollisesti merkitsevä ero uuden masennusintervention ja tavallisen hoidon välillä, mikäli ryhmien välillä on todellisuudessa eroa. Jos taas tutkija arvioisi, että uuden masennusintervention vaikutus EPDS-kyselyn tulokseen on keskimäärin 3 pistettä suurempi käypään hoitoon verrattuna, tarvittavaksi otoskooksi riittäisi 100 tutkittavaa kummassakin ryhmässä.

Otoskoon laskemiseen tarvitaan:
1) arvioidut tulokset kussakin ryhmässä (kliinisesti tärkeä tavoite-ero interventio- ja vertailuryhmien välillä)
2) α eli tyypin I -virhetaso (tavallisesti 0,05)
3) tilastollinen voima [1–β (β = tyypin II -virhetaso), tyypillisesti 0,80–0,95, mikä ilmoitetaan usein prosentteina eli 80–95 %]
4) jatkuvien tulosten osalta mittausten keskihajonnat (7a).

Tarkistuslistan kohdat 8–10 käsittelevät satunnaistamista. Satunnaistamisprosessissa on kolme vaihetta: satunnaistamisjonojen luominen (sequence generation), kohdentamisen salaaminen (allocation concealment) ja toteutus (implementation). Samat henkilöt voivat suorittaa useamman kuin yhden vaiheen, mutta satunnaistamisjonojen tekemiseen ja kohdentamisen salaamiseen osallistuvien tulisi olla eri henkilöitä kuin tutkimuksen toteuttamiseen osallistuvien. Suositeltavaa siis on, että henkilöt, jotka ovat mukana satunnaistamisprosessin kahdessa ensimmäisessä vaiheessa eivät ole mukana toteutusvaiheessa.

”Kokeen osallistujien valinnassa käytetyistä kelpoisuuskriteereistä tarvitaan kattava kuvaus.”

Itse olen statistikkona tehnyt satunnaistamislistoja ja kehittänyt kohdentamisen salaamisen prosesseja lukuisiin satunnaistettuihin vertailukokeisiin, mutten ole ollut suorassa yhteydessä tutkittaviin datan keräämisvaiheessa, eli en ole osallistunut tutkimuksen toteuttamiseen. Teknisen satunnaistamisen eli satunnaistamiskoodin liittämisen tutkittavaan voi tehdä esimerkiksi data manager -tyyppisessä tehtävässä oleva henkilö, jolla ei tarvitse olla satunnaistamisjonoista kuin kooditason tiedot (esimerkiksi A, B). Valinnasta johtuvan harhan minimoimiseksi satunnaistamiskoodien merkitykset (eli esimerkiksi A = vertailuryhmälle annettava interventio ja B = koeryhmälle annettava interventio) tuntevien henkilöiden määrä kannattaa pitää mahdollisimman pienenä.

Hyvä periaate on kuvata tilastolliset menetelmät riittävän yksityiskohtaisesti, jotta asiantunteva lukija, jolla on pääsy alkuperäisiin aineistoihin, voi tarkistaa tulosten oikeellisuuden.

Tulokset

Seuraavaksi tarkastellaan CONSORT 2010 -tarkistuslistan Tuloksetosiota. Kuvion 1 osallistujavirtaa kuvaavien lukujen on oltava yhtenevät analyyseissä käytettävien aineistojen tutkimushenkilöiden lukumäärien kanssa. Yleisesti ottaen, mikäli on kyse rinnakkaisten ryhmien vertailukokeesta, tulokset esitetään siten, että mukana ovat kaikki satunnaistetut tutkimushenkilöt ITT-periaatteen mukaisesti (intention-to-treat principle).

Esimerkiksi jos viisi tutkimushenkilöä keskeytti tutkimuksen ennen päävasteena olevan kyselyn täyttämistä, ITT-periaatteen mukaan heidät on kuitenkin otettava mukaan analysoitavaan aineistoon. Toisena esimerkkinä on tilanne, jossa yksi koeryhmään satunnaistetuista tutkimushenkilöistä päätyykin inhimillisen virheen vuoksi saamaan vertailuryhmälle tarkoitettua interventiota. ITT-periaatteen mukaan kyseinen henkilö otetaan mukaan analysoitavaan aineistoon alkuperäisen satunnaistamisjärjestyksen perusteella, eli hän on mukana koe- eikä vertailuryhmän tuloksissa.

Erityistapauksissa tutkittavia voidaan poistaa analysoitavasta aineistosta harhan mahdollisuutta lisäämättä.

Tällöin seuraavien ehtojen tulee täyttyä:
1) tutkimuksen sisäänottokriteeri mitattiin ennen satunnaistamista
2) tutkimuksen kelpoisuusrikkomusten (eligibility violations) havaitseminen voidaan tehdä täysin objektiivisesti
3) kaikki henkilöt saavat yhtäläisen tarkastelun kelpoisuusrikkomusten osalta
4) kaikki havaitut tietyn osallistumiskriteerin rikkomukset suljetaan pois (European Medicines Agency, 1998).

Joidenkin satunnaistettujen vertailukokeiden suunnittelu ja toteuttaminen on yksinkertaista, ja osallistujavirtaa voidaan kuvata riittävästi muutamalla lauseella. Näin on varsinkin silloin, kun seurannassa ei tule menetyksiä (lost to follow-up) tai poissulkemisia (exclusions). Monimutkaisemmissa tutkimuksissa lukijoiden voi olla vaikeaa havaita, saivatko kaikki osallistujat heille osoitettua interventiota, menetettiinkö osa seurattavista tai jätettiinkö osa heistä analyysin ulkopuolelle tutkimusryhmän toimesta.

”Pienten erojen havaitsemiseksi tarvitaan suuria otoskokoja.”

Nämä tiedot (määrät ja syyt) ovat tärkeitä useista syistä. Osallistujat, jotka suljetaan pois satunnaistamisen jälkeen, eivät todennäköisesti edusta kaikkia tutkimuksen osallistujia (Moher ym., 2010). Seurantavaiheessa ”luonnollisesti” tapahtuvista menetyksistä johtuva, usein väistämätön, tutkimusjoukon pieneneminen on erotettava tutkijan tekemästä aktiivisesta poissulkemisesta. Aktiivinen poissulkeminen voi liittyä esimerkiksi tutkimushenkilöiden kelpoisuuteen, hoidosta vetäytymiseen tai tutkimussuunnitelman puutteelliseen noudattamiseen. Jos tutkittavia jätetään analyysin ulkopuolelle ilman pätevää syytä, voidaan päätyä tekemään virheellisiä johtopäätöksiä. Näin voi tapahtua erityisesti, jos poissulkemiset keskittyvät joko interventio- tai vertailuryhmään.

Raportin tuloksiin sisällytetään päivämäärät, jotka määrittelevät rekrytointi- ja seurantajaksot (kohta 14a). Kun tiedetään, milloin tutkimus tehtiin ja milloin osallistujia rekrytoitiin, tutkimus asettuu historialliseen kontekstiin. Kelpoisuuskriteerit määrittävät, ketkä ovat sopivia osallistumaan kokeeseen, mutta on myös tärkeää saada olennaiset tiedot todellisuudessa mukana olleiden osallistujien ominaisuuksista. Satunnaistettujen vertailukokeiden tarkoituksena on vertailla osallistujaryhmiä, jotka eroavat toisistaan vain interventioiden suhteen. Oikein tehty satunnaistaminen estää valintaharhan, mutta se ei takaa, että ryhmät ovat lähtökohtaisesti samanlaisia. Tällöin mahdolliset erot ryhmien osallistujien ominaisuuksissa lähtötilanteessa ovat kuitenkin seurausta sattumasta eivätkä harhaanjohtamisesta. Tutkittavia ryhmiä tulisi verrata tärkeiden demografisten ja muiden ominaisuuksien suhteen lähtötilanteessa, jotta lukijat voivat arvioida, kuinka samanlaisia ryhmät olivat. Myös vasteiden perustasot (ns. baseline-mittaus) tulee mitata ennen satunnaistamista.

CONSORT 2010 -tarkistuslistan kohta 16 ”jokaisen ryhmän osalta kuhunkin analyysiin kuuluvien osallistujien määrä, ja tieto siitä, että tehtiinkö analyysit alkuperäisten määrättyjen ryhmien mukaan” on olennaista raportoida kunkin vasteen osalta. Erityisesti kyselytutkimuksissa lukumäärät voivat olla interventio- ja vertailuryhmissä eri vasteille erilaisia. Osallistujat eivät aina saa täydellistä tai koko interventiota, ja joskus tutkimukseen kelpaamattomia (ineligible) tutkittavia on voitu satunnaisesti kohdentaa ryhmiin virheellisesti. Suositeltu tapa käsitellä tällaisia ongelmia on analysoida kaikki tutkittavat heidän alkuperäisen satunnaistamiskoodinsa mukaisesti riippumatta siitä, mitä myöhemmin on tapahtunut.

”Tilastollisen merkitsevyyden ja kliinisen merkityksen välinen ero on hyvä pitää mielessä.”

Aiemmin esitettyä analysointistrategiaa ”kaikki satunnaistetut tutkimushenkilöt ITT-periaatteen mukaisesti mukaan” ei siis ole aina yksinkertaista toteuttaa. Tutkimustulokset tulee raportoida yhteenvetona kunkin ryhmän tuloksista jokaisen vasteen osalta (esimerkiksi tutkittavien määrä yhdessä tutkittavan tapahtuman kanssa tai ilman sitä; numeerisen vasteen tapauksessa keskiarvo ja keskihajonta) sekä ryhmien välisestä vaikutuksen suuruuden erosta (effect size).

Vaikutuksen suuruuden laskeminen riippuu vasteen tyypistä:

Kaksiluokkaisissa vasteissa vaikutuksen suuruus voidaan esittää riskisuhteena (suhteellinen riski), vetosuhteena (odds ratio, OR) tai riskien välisenä erona (risk difference). Kohtuullisen yleisissä sairauksissa suhteellinen riski lähellä yhtä saattaa viitata kliinisesti merkittäviin eroihin kansanterveyden kannalta. Sitä vastoin harvinaisissa sairauksissa suuri suhteellinen riski ei välttämättä ole yhtä tärkeä kansanterveyden kannalta (vaikka se voi olla tärkeä niiden henkilöiden kannalta, jotka kuuluvat suuren riskin ryhmään).
Tarkasteltaessa tutkimushenkilöiden eloonjäämisaikatietoja, eli aikaväliä tutkimuksen aloittamisesta (tavallisesti satunnaistaminen) päätetapahtumaan, vaikutuksen suuruutta kuvaa vaarasuhde (hazard ratio) tai ero mediaanieloonjäämisajan välillä. Analysointimenetelmä on nimeltään elinaika-analyysi ja päätetapahtuma voi olla esimerkiksi sairaudesta parantuminen tai sairauden uusiutuminen.
Jatkuvissa vasteissa vaikutuksen suuruus voidaan esittää ryhmien välisenä keskiarvojen (tai hyvin vinojen jakaumien kohdalla mediaanien) erona.
Ryhmien välisten vertailujen luottamusvälit tulee esittää kaikissa vastetyypeissä.

Yleinen virhe on esittää kunkin ryhmän tulokselle erilliset luottamusvälit hoidon vaikutuksen sijaan. Otetaan esimerkiksi kahden rinnakkaisryhmän tutkimus, jossa koeryhmän interventiona on internet-pohjainen ohjausohjelma aggressiivisen käytöksen hallitsemiseksi. Vertailuryhmä jää ilman hoitoa. Vertailtaessa aggressiivisen käytöksen hallintaa koeryhmässä ennen ja jälkeen intervention saadaan tulos, että interventio on tilastollisesti merkitsevästi parantanut aggressiivisuuden hallintaa [keskiarvo 1,8 (SD 0,2), p-arvo 0,045, ja alkumittauksen ja loppumittauksen välisen eron luottamusväli 1,2–2,3].

”Tilastollisen merkitsevyyden ja kliinisen merkityksen välinen ero on hyvä pitää mielessä.”

Tämä ei vielä kerro intervention vaikutuksesta, sillä saman suuntainen aggressiivisuuden hallinnan parantuminen on voinut tapahtua myös vertailuryhmässä. Tutkijan on esitettävä ryhmien välinen vertailu esimerkiksi vähentämällä interventioryhmän loppumittauksen keskiarvosta vertailuryhmän loppumittauksen keskiarvo. Keskiarvojen erolle lasketaan 95 %:n luottamusväli. Jos saatu luottamusväli sisältää keskiarvoja vertailtaessa luvun 0, saatu tulos ei ole tilastollisesti merkitsevä. Tämä tarkoittaa sitä, että tutkimus ei tue intervention vaikuttavuutta verrattuna kontrolliin.

Jos ryhmien välillä ei havaita tilastollisesti merkitsevää eroa, luottamusväli saattaa antaa tukea esimerkiksi kliiniselle vaikuttavuudelle. Tuloksia ei pitäisi raportoida pelkästään p-arvoina, mutta p-arvot voidaan raportoida luottamusvälien lisäksi. Tulokset tulee raportoida kaikkien suunniteltujen päävasteiden ja toissijaisten vasteiden osalta – ei vain niiden, jotka olivat tilastollisesti merkitseviä. Valikoiva raportointi tutkimuksissa on laajalle levinnyt ja tiedostettu ongelma (Chan ym. 2004).

Tutkimussuunnitelmaan kirjattujen päävasteiden sekä toissijaisten ja muiden vasteiden analyysien lisäksi julkaisussa on selkeästi ilmoitettava muut tehdyt lisäanalyysit. Tällaisia ovat esimerkiksi osajoukkoanalyysit ja vakioidut analyysit (adjusted analyses) (kohta 18). Useiden analyysien tekeminen samasta tiedosta aiheuttaa väärien positiivisten löydösten riskin (multiplicity problem), mitä on syytä välttää. Tutkimussuunnitelmassa ennalta määritellyt analyysit ovat huomattavasti luotettavampia kuin jälkikäteen aineiston perusteella nousseet analyysit. Tämän vuoksi tutkijan tulee rekisteröidä satunnaistettu vertailukoe johonkin tutkimusrekisteriin jo ennen tutkimuksen aloittamista (esimerkiksi ClinicalTrials.gov) (Hinkka-Yli-Salomäki, 2021).

”Tutkimussuunnitelman ennakkorekisteröinti pienentää todennäköisyyttä, että muutoksia tehdään tutkimuksen jo käynnistyttyä.”

Tutkimusrekisterissä listataan tutkimusten vähimmäisominaisuudet, kuten käytettävä koeasetelma, ryhmien kuvaukset, pää- ja toissijaiset vasteet sekä suunnitellut tutkimusryhmien koot. Mikäli osajoukkoanalyyseja tehdään, tutkijan tulee raportoida, mitä alaryhmiä tutkittiin ja miksi, ja mitkä analyyseista oli ennalta määritettyjä. Osajoukkoanalyysien valikoiva raportointi voi johtaa suureenkin harhaan.

Sama suositus koskee myös vakioituja analyyseja, joissa vasteiden tuloksia vakioidaan lähtötason tiedoilla tai demografisilla tiedoilla. Jos näitä selittäviä muuttujia (kovariaatteja) käytetään tilastollisissa malleissa, on raportoitava sekä vakioimattomat (unadjusted) että vakioidut (adjusted) tulokset. Tutkimussuunnitelmassa tulee ilmoittaa, tehdäänkö vastemuuttujille vakiointi muuttujan lähtötason arvoilla kovarianssianalyysin avulla. Jos vastemuuttujan arvot eroavat lähtötasolla ja tehdään kovarianssianalyysi, joka korjaa lähtötilanteen eron, intervention arvioitu vaikuttavuus on todennäköisesti vääristynyt (Moher ym., 2010).

”Tutkimussuunnitelman ennakkorekisteröinti pienentää todennäköisyyttä, että muutoksia tehdään tutkimuksen jo käynnistyttyä.”

Tilastollisen merkitsevyyden ja kliinisen merkityksen välinen ero on hyvä pitää mielessä. Tutkijan tulee erityisesti välttää sitä yleistä virhettä, että tulkitaan tilastollisesti ei-merkitsevä tulos osoituksena tutkittavan interventio- ja vertailuryhmän vastaavuudesta (Hinkka-Yli-Salomäki, 2021). Interventio- ja vertailuryhmän vastaavuus jonkin vasteen suhteen voidaan todentaa päättämällä etukäteen sallittu ala- ja yläraja eron luottamusvälille ja katsomalla jälkikäteen, sijoittuuko tutkimuksesta laskettu 95 %:n luottamusväli sallitun ala- ja ylärajan välille.

Ei-merkitsevä tulos voi johtua myös liian pienestä otoskoosta. Todellisuudessa ryhmien välillä voi olla ero tutkittavassa vasteessa, mutta tutkittavien määrä on liian pieni osoittamaan sitä. Erityisen varovainen tulee olla arvioitaessa yksittäisten vertailujen tuloksia monivertailutilanteessa. Monivertailutilanne voi johtua esimerkiksi useista rinnakkaisryhmistä, päävasteista, aikapisteistä tai osajoukkoanalyyseistä. Tällaisissa tapauksissa osa tuloksista voi olla tilastollisesti merkitseviä jo pelkästään sattumalta.

Pohdinta

CONSORT 2010 -tarkistuslistan Pohdinta-osiossa tutkijaa pyydetään pohtimaan tutkimuksen rajoituksia, mahdollisia harhan lähteitä ja monivertailuongelmaa (kohta 20).
Tutkimustulosten ulkoista validiteettia eli sitä, missä määrin tulokset voidaan yleistää muihin olosuhteisiin, kutsutaan myös yleistettävyydeksi tai sovellettavuudeksi. Ulkoisen validiteetin edellytyksenä on sisäinen validiteetti eli se, että tutkimuksen suunnittelu ja toteutus auttavat poistamaan harhan mahdollisuuden (kohta 21). Tutkijalle esitetään pohdittavaksi esimerkiksi seuraavat kysymykset:
– Voidaanko tulokset yleistää koskemaan yksittäisiä henkilöitä tai ryhmiä, jotka poikkeavat tutkimukseen osallistuneista esimerkiksi iän, sukupuolen, sairauden vaikeusasteen tai muiden sairauksien osalta?
– Voidaanko samanlaisia tuloksia odottaa esimerkiksi perus- ja erikoissairaanhoidon tasolla?
– Mikä on niiden tekijöiden vaikutus vasteisiin, joita tutkimuksessa ei arvioitu tai ei pystytty arvioimaan?
– Millainen merkitys on seurannan pituudella ja hoidon/hoito-ohjelman kestolla?

Ulkoisen validiteetin toteutuminen on aina harkittava tapauskohtaisesti. Se on riippuvainen tutkittavien ominaisuuksista, tutkimusympäristöstä, interventiosta ja valitusta vertailuryhmästä sekä vasteista. Siksi on erittäin tärkeää raportoida kelpoisuuskriteerit ja tutkimusympäristö sekä kuvata annetut interventiot ja verrokit (mitä interventiota mikin ryhmä kussakin vaiheessa sai).

Satunnaistetun vertailukokeen raportissa tulee ilmoittaa rekisterin nimi ja numero (kohta 23), esimerkiksi näin: “Tutkimus on rekisteröity osoitteessa ClinicalTrials.gov, numero NCT00244842.” Tutkimussuunnitelma on tärkeä kirjoittaa kokonaisuudessaan, koska rekisteröinnissä kysyttävä tieto kattaa vain osan satunnaistetun vertailukokeen ominaisuuksista (mm. otoskoko, tutkimuspaikka, pää- ja toissijaiset vasteet, tutkittava interventio) (kohta 24).

Kokonaisten tutkimussuunnitelmien saattaminen lukijoiden saataville on tärkeää tutkimuksen laadun kannalta, ja sille on useita tapoja. Jotkut aikakauslehdet (kuten Trials) julkaisevat myös pelkkiä tutkimussuunnitelmia. Tällaiseen julkaisuun on helppo viitata, kun raportoidaan tutkimuksen tärkeimmistä tuloksista. Tämän lisäksi tutkimustuloksia julkaisevat lehdet voivat laittaa tuloksista raportoivan artikkelin yhteyteen verkkosivulleen kyseisen tutkimuksen suunnitelman. Tutkimussuunnitelman ja -tulosten saatavuus paranevat, kun käytetään avointa julkaisufoorumia (open access).

”Ei-satunnaistetuissa tutkimuksissa saadaan yleensä suurempia arvioituja hoitovaikutuksia kuin satunnaistetuissa.”

Sekä tutkimuksen rekisteröinti että tutkimussuunnitelman julkaiseminen pienentävät todennäköisyyttä, että muutoksia tehdään tutkimuksen jo käynnistettyä, ja ehkäisevät toivottavasti myös valikoivaa raportointia. Satunnaistetun vertailukokeen rekisteröinti varmistaa myös, että monet tutkimusprotokollan tiedot ovat saatavilla tietokannasta. Tutkijan on ilmoitettava myös tutkimuksen rahoituslähteet, sillä tämä on tärkeää tietoa arvioinnin kannalta (25). On osoitettu, että ainakin lääketeollisuuden rahoittama tutkimus tuottaa todennäköisemmin tutkimusta sponsoroivan yrityksen tuotetta suosivia tuloksia kuin muista lähteistä rahoitetut tutkimukset (Moher ym., 2010).

Hyvinvointia lisäävien toimenpiteiden arviointi voi olla harhaanjohtavaa, elleivät tutkijat varmista, että vertailut ovat mahdollisimman harhattomia ja puolueettomia. Tutkittavien satunnaistaminen tutkittaviin ryhmiin on ainoa menetelmä, joka poistaa valikoitumisesta ja mahdollisista muista muuttujista johtuvat harhat. Ei-satunnaistetuissa tutkimuksissa saadaan yleensä suurempia arvioituja hoitovaikutuksia kuin satunnaistetuissa tutkimuksissa.

Myös huonosti toteutetut satunnaistetut vertailukokeet ovat alttiita tutkimustulosten luotettavuuden vaarantaville harhoille. Tutkimukset, joissa on käytetty riittämättömästi tai epäselvästi kuvattua menetelmää satunnaistamiskoodin salaamiseksi, tuottivat 31 % suuremmat arviot vaikutuksesta kuin ne, joissa on käytetty riittävää menetelmää koodin salaamiseksi (Wood ym., 2008). Vastaavasti avoimet satunnaistetut vertailukokeet (open studies), tuottivat 25 % suurempia arvioita hoidon vaikuttavuudesta (Wood ym., 2008).

Lopuksi

Satunnaistetun vertailukokeen suunnittelu ja toteuttaminen edellyttävät metodologista ja kliinistä asiantuntemusta, huolellista työtä ja valppautta odottamattomien vaikeuksien varalta. Raportti on kirjoitettava huolella: menetelmäkuvausten pitää olla riittävän yksityiskohtaisia ja läpinäkyviä, jotta lukijat voivat vakuuttua, että harhojen mahdollisuus on minimoitu ja tulokset ovat mahdollisimman puolueettomia. Laadukas raportointi on osa laadukasta tiedettä.

Sidonnaisuudet

Sanna Hinkka-Yli-Salomäki
VTL, MSc, DLSHTM, Johtaja, biostatistiikka ja tiedonhallinta, Lastenpsykiatrian tutkimuskeskus, Turun yliopisto
Ei sidonnaisuuksia.

Cookie	Duration	Description
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Mitä on harha?

Miksi harhalla on merkitystä?

Valintaharha

Toimintaharha

Havaitsemisharha

Hiertymisharha

Raportointiharha

Muut harhat

Harhan arvioiminen Cochranen harhan riski -­työkalulla

Satunnaistetun vertailukokeen ja epidemiologisen ­havaintotutkimuksen eroja

Lopuksi

Sidonnaisuudet

Pilotointivaihe

CONSORT-ryhmä ja -lausunto

Satunnaistetun vertailukokeen toteuttamisen vuokaavio

CONSORT 2010 -tarkistuslista

Otsikko ja tiivistelmä

Johdanto

Menetelmät

Tulokset

Pohdinta

Lopuksi

Sidonnaisuudet

Harhan arvioiminen Cochranen harhan riski -työkalulla

Satunnaistetun vertailukokeen ja epidemiologisen havaintotutkimuksen eroja