Vitenskapelig regresjon: Big Science Is Broken!

Del denne historien!

TN Merk: En observant og kritisk analyse av vitenskapens tilstand avslører indirekte kilden til feil i falsk vitenskap som den som er forbundet med global oppvarming. Den siste setningen er en god konklusjon: "De største vennene til Cult of Science er de verste fiender av vitenskapens faktiske praksis."

Problemet med vitenskap er at så mye av det rett og slett ikke er det. I fjor sommer kunngjorde Open Science Collaboration at det hadde forsøkt å gjenskape hundre publiserte psykologiske eksperimenter prøvetatt fra tre av de mest prestisjefylte tidsskriftene i feltet. Vitenskapelige påstander hviler på ideen om at eksperimenter som ble gjentatt under nesten identiske forhold burde gi omtrent de samme resultatene, men inntil ganske nylig var det svært få som gidder å sjekke på en systematisk måte om dette faktisk var tilfelle. OSC var det største forsøket på å sjekke resultatene i et felt, og det mest sjokkerende. I mange tilfeller hadde de brukt originale eksperimentelle materialer, og noen ganger til og med utført eksperimentene under veiledning av de originale forskerne. Av studiene som opprinnelig hadde rapportert om positive resultater, klarte ikke en forbløffende 65 prosent å vise statistisk betydning for replikasjon, og mange av de resterende viste sterkt reduserte effektstørrelser.

Funnene deres gjorde nyheten, og ble raskt en klubb å basere samfunnsvitenskapene med. Men problemet er ikke bare med psykologi. Det er en uuttalt regel i legemiddelindustrien at halvparten av all akademisk biomedisinsk forskning til slutt vil vise seg å være usann, og i 2011 bestemte en gruppe forskere ved Bayer seg for å teste den. Når de ser på seksti-syv nylige medisinske funnprosjekter basert på preklinisk kreftbiologisk forskning, fant de ut at i mer enn 75 prosent av tilfellene stemte ikke de publiserte data opp med deres interne forsøk på å replikere. Dette var ikke studier publisert i fly-by-night onkologitidsskrifter, men blockbuster-forskning omtalt i Science, Nature, Cell og lignende. Bayer-forskerne druknet i dårlige studier, og det var til dels at de tilskrev de mystisk synkende utbyttene av medikamentledninger. Kanskje så mange av disse nye stoffene ikke klarer å ha effekt fordi den grunnleggende forskningen som deres utvikling var basert på ikke er gyldig.

Når en studie ikke klarer å gjenskape, er det to mulige tolkninger. Den første er at ukjent for etterforskerne, var det en reell forskjell i eksperimentell oppsett mellom den opprinnelige etterforskningen og den mislykkede replikasjonen. Disse kalles vanligvis “bakgrunnseffekter”, og spøken var at eksperimentet ble påvirket av fargen på tapetet i rommet. Dette er den lykkeligste mulige forklaringen på manglende reproduksjon: Det betyr at begge eksperimentene har avslørt fakta om universet, og vi har nå muligheten til å lære hva forskjellen var mellom dem og å innlemme en ny og subtilere distinksjon i teoriene våre.

Den andre tolkningen er at det opprinnelige funnet var falsk. Dessverre viser et genialt statistisk argument at denne andre tolkningen er langt mer sannsynlig. Først formulert av John Ioannidis, professor ved Stanford University's School of Medicine, fortsetter dette argumentet med en enkel anvendelse av Bayesiansk statistikk. Anta at det er hundre og en stein i et bestemt felt. En av dem har en diamant inni seg, og heldigvis har du en diamantregistrerende enhet som annonserer nøyaktighet på 99 prosent. Etter en drøy times tid med å flytte enheten rundt, undersøke hver stein i sving, blinker plutselig alarmer og sirener jamrer mens enheten peker på en lovende stein. Hva er sannsynligheten for at steinen inneholder en diamant?

De fleste vil si at hvis enheten annonserer 99 prosent nøyaktighet, så er det en 99 prosent sjanse for at enheten skiller en diamant riktig, og 1 prosent sjanse for at den har gitt en falsk positiv avlesning. Men tenk på: Av de hundre og en steinene i feltet er det bare en diamant. Gitt, maskinen vår har en veldig stor sannsynlighet for å korrekt erklære at den er en diamant. Men det er mange flere diamantfrie steiner, og selv om maskinen bare har en 1 prosent sjanse for falskt å erklære hver av dem for å være en diamant, er det hundre av dem. Så hvis vi skulle vinke detektoren over hver stein i åkeren, ville den i gjennomsnitt høres to ganger - en gang for den virkelige diamanten, og en gang når en falsk avlesning ble utløst av en stein. Hvis vi bare vet at alarmen har hørt, er disse to mulighetene omtrent like sannsynlige, noe som gir oss en omtrent 50 prosent sjanse for at steinen virkelig inneholder en diamant.

Dette er en forenklet versjon av argumentet som Ioannidis gjelder for selve vitenskapens prosess. Steinene i feltet er settet med alle mulige testbare hypoteser, diamanten er en antydet tilkobling eller effekt som tilfeldigvis er sant, og den diamantdetekterende enheten er den vitenskapelige metoden. En enorm mengde avhenger av andelen mulige hypoteser som viser seg å være sanne, og av nøyaktigheten som et eksperiment kan skille sannhet fra usannhet. Ioannidis viser at for en lang rekke vitenskapelige innstillinger og felt, er ikke verdiene for disse to parameterne i det hele tatt gunstige.

Tenk for eksempel på et team av molekylærbiologer som undersøker om en mutasjon i et av de mange tusen menneskelige gener er knyttet til en økt risiko for Alzheimers. Sannsynligheten for en tilfeldig valgt mutasjon i et tilfeldig valgt gen med nettopp den effekten er ganske lav, så akkurat som med steinene i feltet er det mer sannsynlig at et positivt funn ikke er falsk — med mindre eksperimentet er utrolig vellykket med å sortere hveten fra agnet. Faktisk finner Ioannidis at det i mange tilfeller er ufattelig nøyaktighet å nærme seg til og med 50 prosent sanne positive forhold. Derav den iøynefallende tittelen på papiret: "Hvorfor de fleste publiserte forskningsresultater er usanne."

Les hele historien her ...

Abonner!
Varsle om
gjest

0 kommentarer
Inline tilbakemeldinger
Se alle kommentarer