Statistinis reikšmingumas ir galia - per paprastą pavyzdį

Paaiškinsime statistikos sąvokas per pavyzdį, kuris nereikalauja išankstinių žinių. Kalbėsime apie dvi kertines (bet dažnai nesuprastas) sąvokas: statistinį reikšmingumą ir galią.

Supratus jas, bus aiškiau kaip interpretuoti mokslinių tyrimų rezultatus. Pavyzdžiui, jei mokslininkai tyrė vaisto efektyvumą ir sako, kad “skirtumai tarp grupių nebuvo statistiškai reikšmingi”. Ką tai reiškia? Kada galime daryti išvadą, kad vaistas neveikia?

Įrašas ilgas ir susideda iš keturių dalių:

Įžanga

Norime išsiaiškinti, kas labiau mėgsta bulves - kauniečiai ar vilniečiai. Tie patys principai galioja lyginant bet kokius dydžius tarp dviejų grupių.

Jei galėtume apklausti kiekvieną miesto gyventoją, viskas būtų paprasta (nereikėtų ir statistinių įrankių). Tačiau visus gyventojus apklausti būtų labai brangu ir užtruktų daug laiko, o mums rūpi sužinoti atsakymą kuo greičiau - tai yra, norime iš imties spręsti apie visą populiaciją.

Tarkim, kad turim gyventojų sąrašą ir kompiuteriui parinktus kelis gyventojus iš sąrašo galim su jais susisiekti ir sužinoti, ar mėgsta bulves (turim super-galių!). Tokiu atveju nereikia pergyventi dėl imties reprezentatyvumo.

Tai kas gi tas statistinis reikšmingumas?

  1. Tarkim, kad apklausėm po 10 žmonių. Kaune 6 iš 10 (60%) pasakė, kad mėgsta bulves, o Vilniuje 5 iš 10 (50%). Ar galime daryti išvadą, kad Kaune bulves mėgsta labiau negu Vilniuje? Daugelio intuicija sakytų, kad ne.
  2. O jeigu apklausėm po 100 žmonių, ir Kaune mėgo 60/100, o Vilniuje 50/100?
  3. O jeigu po 1000, ir Kaune mėgo 600/1000, o Vilniuje 500/1000?

Paskutiniu atveju intuicija sako, kad Kaune bulves mėgsta labiau. O antru… sunkoka pasakyti.

Statistikai tokiu atveju kelia tokį klausimą:

Tarkim kad tarp miestų skirtumų nėra! Kiek tikėtina, kad paėmus tokį imties dydį kaip mūsų, atsitiktinai pamatysim didesnius skirtumus negu užfiksuoti (šiuo atveju ≥10%)?

Ši tikimybė dar vadinama p-reikšme. Darant prielaidą, kad populiacijos nesiskiria, koks šansas su mūsų imties dydžiu pamatyti didesnius skirtumus negu matėm? Jei jis didelis - rezultatas nėra “statistiškai reikšmingas”. Dar galima sakyti: “skirtumai yra paklaidos ribose”, arba “skirtumą sunku atskirti nuo triukšmo”.

Kaip suskaičiuoti tokį dydį? Nenaudojant formulių, vienas iš būdų yra įsivaizduoti, kad turim du maišus - kiekvienam po kelis šimtus tūkstančių kamuoliukų. Abiejuose maišuose ant pusės kamuoliukų užrašyta “mėgstu”, ant pusės “nemėgstu” (prisiminkim, kad apskaičiuotume reikšmingumą žiūrim, kas būtų, jei skirtumų iš tiesų nėra! ).

Mūsų apklausa yra kaip traukimas iš to maišo. Galime ištraukti po 10 kamuoliukų, užrašyti rezultatą ir įdėti juos atgal - ir tai pakartoti daug daug kartų. Tada pažiūrėti kaip dažnai užfiksuotas skirtumas tarp maišų buvo didesnis negu kažkoks skaičius (šiuo atveju, ≥10%).

Teks pasitikėti, kad traukiant 10 kamuoliukų tikimybė, kad skirtumas ≥10% yra 0.65 (užtenka, kad skirtųsi vienu kamuoliuku!), traukiant šimtą - 0.16, o traukiant tūkstantį - mažiau nei 0.0001.

Daugelyje mokslo sričių (ypač socialiniuose moksluose) reikšmingumo riba yra 0.05. Jeigu p-reikšmė didesnė nei 0.05, sakom, kad “sunku atskirti skirtumus nuo paklaidos”. Jeigu mažesnė - rezultatas “statistiškai reikšmingas”.

Mūsų pavyzdžiuose tik trečiu atveju sakytume, kad skirtumai tarp Kauno ir Vilniaus statistiškai reikšmingi.

Sąvoka atrodo paprasta ir ji labai plačiai naudojama. Tačiau dažnai yra neteisingai interpretuojama. Apie tai plačiau kiek vėliau.

Statistinė galia - kas gi tai?

Statistinė galios sąvoka naudinga, kad suprastume, koks imties dydis pakankamas. Statistinio reikšmingumo atveju kėlėm klausimą:

Tarkim, kad populiacijoj tarp grupių skirtumų nėra, koks šansas, kad savo imtyje gausim didesnius skirtumus, negu gavom? (vien dėl atsitiktinumo)

Galios atveju keliam kitą klausimą:

Tarkim, kad skirtumai tarp grupių yra X%, kokia tikimybė, kad su esamu imties dydžiu galėsim užfiksuoti statistiškai reikšmingus rezultatus?

Abiem atvejais keliama hipotezė ir skaičiuojama tikimybė, jeigu ta hipotezė būtų teisinga:

Praktikoje, dažniausiai daroma prielaida apie skirtumų dydį, kurį norim pastebėti, ir tuomet skaičiuojamas minimalus imties dydį, kad statistinė galia būtų bent jau 80% (kuo daugiau tuo didesnis šansas, kad pastebėsim skirtumus, jei išties jie yra).

Galia priklauso nuo kelių kintamųjų:

  1. skirtumų, kuriuos norim pastebėti
  2. imties dydžio
  3. kiek varijuoja dydis, kurį matuojam

Kuo didesni skirtumai ir imties dydis - tuo didesnė galia. Kuo mažesnė variacija - tuo didesnė galia.

Skirtumų dydžio įtaka galiai:

Suvokus “galios” sąvoka, pasidaro aišku, kad jei rezultatas nėra “statistiškai reikšmingas”, nereiškia, kad “efekto nėra”. Svarbu žinoti, kokia buvo statistinė galia. Teisinga interpretacija yra:

Jeigu galia buvo labai didelė (tarkim, apklausėm 10,000 žmonių, ir su tokia imtimi, didelė tikimybė, kad pastebėsim net ir 1% skirtumus), tuomet žinom, kad jei skirtumai tarp grupių išties būtų dideli - greičiausiai būtume juos užfiksavę.

Norintiems paskaityti plačiau

Prieš kelis metus tarp mokslininkų prasidėjo judėjimas, siekantis permąstyti “statistinio reikšmingumo” sąvokos naudojimą (vietoj “reikšmingumo” naudoti kitus įrankius neapibrėžtumui parodyti).

Tam, kad mokslinis straipsnis būtų išspausdintas, dažnai reikalaujama, kad rezultatai būtų “statistiškai reikšmingi” naudojant 0.05 p-vertės reikšmingumo kriterijų. Per didelis šio skaičiaus sureikšminimas privedė prie to, kad mažiau dėmesio skiriama kitiems kokybės aspektams (pradedant tiesiog geru tyrimo dizainu).

Nature straipsnis - “Scientists rise up against statistical significance” - apie statistinį reikšmingumą ir dažnai pasitaikančias neteisingas jo interpretacijas.

Nature cituoja tyrimus, kur peržiūrėjus 791 mokslinius straipsnius 402 iš jų buvo padaryta statistinio reikšmingumo interpretacijos klaidų. Ypač, kad “reikšmingumo nebuvimas” tolygus “efekto nebuvimui”.

Taip pat, įdomus Amerikos statistikos asociacijos atsakas į judėjimą “atsisakyti statistinio reikšmingumo sąvokos” - “ASA Statement on p-Values”.

Asociacija sutinka, kad rezultatai neturėtų būti vertinami pagal vieną kriterijų (statistinį reikšmingumą), bet jų pozicija labiau balansuota - sąvokos atsisakymas savaime neišspręs kokybės klausimo.

Pabaiga.


Facebook įrašas, jei norite palikti komentarą