Uh! Uostalom, nema 'krize repliciranja' u psihološkoj znanosti

Kada imate istraživački projekt - Open Science Collaboration (OSC) - koji uključuje 270 znanstvenika koji rade na probojnoj znanosti, nadali biste se da će neke od osnova ispraviti. Poput dizajniranja randomizirane studije koja je bila metodološki ispravna i mogla je podnijeti nadzor svojih vršnjaka.

No, čini se da je revolucionarni članak objavljen u kolovozu 2015. od strane 44 istraživača, „Procjena ponovljivosti psihološke znanosti“ (Nosek i sur., 2015.) imao nekoliko značajnih nedostataka. Novi članak sugerira da zapravo u psihologiji zapravo nema 'krize ponovljivosti'.

Četiri istraživača sa Sveučilišta Harvard i Sveučilišta Virginia (Gilbert i sur., 2016.) objavili su svoja otkrića u Znanost (na njihovoj internetskoj stranici o replikacijama psihologije nalaze se svi podaci i materijali). Vjeruju da su u izvornoj studiji pronašli tri velike statističke pogreške koje dovode u pitanje njegova otkrića. Novi istraživači tvrde: "Doista, dokazi su u skladu sa suprotnim zaključkom - da je obnovljivost psihološke znanosti prilično visoka i da se, zapravo, statistički ne razlikuje od 100%."

Ups.

Izvorna studija (Nosek i sur., 2015.) pokušala je reproducirati nalaze iz 100 pokusa objavljenih u radovima objavljenim 2008. u tri visoko rangirana psihološka časopisa. Prva kritika studije je što ovo nije bio slučajni odabir studija psihologije. Umjesto toga, skupina Nosek ograničila je svoj izbor studija na samo tri časopisa koji predstavljaju bijedne dvije psihološke discipline, izostavljajući glavna područja poput razvojne i kliničke psihologije. Tada su Nosek i sur. upotrijebili složeni skup proizvoljnih pravila i kriterija koji su zapravo diskvalificirali više od 77 posto studija iz tri časopisa koja su ispitivali.

Istraživanje koje započinje pristranim uzorkom sigurno će imati problema. Ne započinjući s randomiziranim uzorkom, istraživači su već pomogli u postavljanju pozornice za svoja razočaravajuća otkrića.

Promijenimo (značajno) studije koje repliciramo

Još je gore od započinjanja pristranog, nerandomiziranog uzorka bilo to kako su istraživači zapravo provodili replikacije. Prvo, istraživači su pozvali „određene timove da repliciraju određene studije ili su timovima dopustili da odaberu studije koje su željeli ponoviti“. Umjesto da nasumce dodijele istraživače studijama koje će se replicirati, dopuštaju istraživačima da odaberu - uvodeći pristranosti svakog istraživača, kako bi možda odabrali studije za koje su mislili da će najmanje biti replicirane.

Nove studije ponekad su se značajno razlikovale od starih studija koje su pokušavali ponoviti. Evo samo jednog (od najmanje desetak) primjera kako je ponovljena studija dovela do značajnih komplikacija:

U drugoj studiji, bijeli studenti sa Sveučilišta Stanford pogledali su videozapis četvorice drugih studenata Stanforda koji raspravljaju o upisnim politikama na svom sveučilištu (Crosby, Monin i Richardson, 2008). Troje diskutanata bili su bijeli, a jedan crnac. Tijekom rasprave jedan od bijelih učenika dao je uvredljive komentare o potvrdnoj akciji, a istraživači su otkrili da su promatrači znatno duže gledali u crnog učenika kad su vjerovali da može čuti komentare ostalih nego kad nije mogao. Iako su sudionici studije replikacije bili studenti Sveučilišta u Amsterdamu, gledali su isti video snimak studenata Stanforda koji su razgovarali (na engleskom!) O prijamnim pravilima Stanforda.

Bi li studenti na amsterdamskom sveučilištu zaista mogli razumjeti koja je afirmativna akcija u Americi uopće bila, s obzirom na značajne kulturne razlike između američkog i amsterdamskog društva? Začudo, istraživači koji su proveli replikaciju rekli su da su studije "gotovo identične" (i, naravno, pristrani su da to kažu, jer je njihov studija). Ipak, izvorni istraživači, prepoznajući značajne kulturne razlike u dvije populacije, nisu podržali novu studiju replikacije.

Gilbert i njegovi kolege pronašli su ovakav problem ne samo u jednom, već u mnogim studijama replikacije. Čini se čudnim da su Nosek i sur. osjećali su da ovakve nedosljednosti neće utjecati na kvalitetu studije (ili "vjernost", kako to znanstvenici nazivaju). Ipak, očito su to značajne kvalitativne razlike koje bi zasigurno utjecale na ponovljivost studije.

Trebamo više snage!

Studija može stajati ili pasti na svom dizajnu. I ključni dio dizajna istraživačke studije je njegov vlast, Studija replikacije koristila je dizajn koji je vjerojatno od početka bio osuđen na propast. Dizajni male snage ne mogu pokupiti veličine efekata koje mogu imati studije veće snage. Odabirom dizajna male snage, Nosek i kolege gotovo su osigurali svoja negativna otkrića prije nego što su prikupili jednu podatkovnu točku.

Nosek i kolege iznijeli su nekoliko argumenata za izbor dizajna, koje su Gilbert i sur. oboreni jedan po jedan u njihovom odgovoru. Zaključak Gilberta i njegovih kolega?

Ukratko, niti jedan od argumenata [koje su iznijeli istraživači replikacije] ne osporava činjenicu da su autori [nove studije] koristili dizajn s malim pogonom i da je (kao što pokazuju naše analize podataka ML2014) to vjerojatno dovelo do bruto potcjenjivanje stvarne stope replikacije u njihovim podacima.

Drugi istraživači psihologije proveli su sličan eksperiment replikacije još 2014. (Klein i sur., 2014). Koristeći snažni dizajn, otkrili su da se većina studija psihologije koje su ispitivali ponovi - 11 od 13 ponovljenih eksperimenata. Kako bi testirali utjecaj slabijeg dizajna Noseka i suradnika, Gilbert i sur. procijenio je da bi stopa replikacije studije iz 2014. pala s 85 posto na 34 posto. Značajna i znakovita razlika.

Pa što zapravo znamo o ponovljivosti psihološke znanosti?

Više nego što smo mislili. S obzirom na kritike Gilberta i drugih i neugodan odgovor izvornih istraživača, izgleda vjerojatnije da su Nosek i sur. studija je bila kritički manjkava.

Čini se da je psihološka znanost ponovljivija nego što smo mislili - dobre vijesti i za znanost i za psihologiju.

Reference

Gilbert, D., King, G., Pettigrew, S. i Wilson, T. (2016). Komentar na ‘Procjena ponovljivosti psihološke znanosti’. Znanost, 351, 1037a-1037b.

Gilbert i sur. (2016). Odgovor na odgovor našeg tehničkog komentara na temu „Procjena ponovljivosti psihološke znanosti“.

Klein, RA, Ratliff, M Vianello, RB Adams Jr, Š Bahník, MJ Bernstein, et al. (2014). Istraživanje varijacija replikabilnosti: Projekt replikacije "Mnogo laboratorija". Socijalna psihologija, 45, 142-152

Nosek i sur. & Otvorena znanstvena suradnja. (2015). Procjena ponovljivosti psihološke znanosti. Znanost, 349, DOI: 10.1126 / science.aac4716

Nosek i sur. (2016). Odgovor na komentar na temu „Procjena ponovljivosti psihološke znanosti“. Znanost, 351, 1037. DOI: 10.1126 / science.aad9163

!-- GDPR -->