Et algoritmebasert system som identifiserer språklige signaler i falske nyheter, kan gi nyhetsaggregatorer og sosiale mediesider som Google Nyheter et nytt våpen i kampen mot feilinformasjon, ifølge ny forskning.
Forskerne som utviklet systemet demonstrerte at det er sammenlignbart med og noen ganger bedre enn mennesker ved å identifisere falske nyhetssaker.
I en fersk studie fant systemet suksess opp til 76 prosent av tiden, sammenlignet med en menneskelig suksessrate på 70 prosent. I tillegg kunne deres språklige analysetilnærming brukes til å identifisere falske nyhetsartikler som er for nye til å bli debunkert ved å krysse henvisning til fakta med andre historier.
Rada Mihalcea, en datavitenskap og ingeniørprofessor ved University of Michigan som står bak prosjektet, sier en automatisert løsning kan være et viktig verktøy for nettsteder som sliter med å håndtere et angrep med falske nyhetshistorier, som folk ofte lager for å generere klikk eller å manipulere opinionen.
Å fange falske historier før de får reelle konsekvenser kan være vanskelig, ettersom aggregator- og sosiale mediesider i dag er avhengige av menneskelige redaktører som ofte ikke kan følge med på tilstrømningen av nyheter. I tillegg avhenger aktuelle debunkingsteknikker ofte av ekstern verifisering av fakta, noe som kan være vanskelig med de nyeste historiene. Ofte, når en historie er bevist som en forfalskning, har skaden allerede blitt gjort.
Språklig analyse tar en annen tilnærming og analyserer kvantifiserbare attributter som grammatisk struktur, ordvalg, tegnsetting og kompleksitet. Det fungerer raskere enn mennesker, og det kan brukes med en rekke forskjellige nyhetstyper.
"Du kan forestille deg et hvilket som helst antall applikasjoner for dette på fronten eller på baksiden av et nettsted for nyheter eller sosiale medier," sier Mihalcea. "Det kan gi brukerne et estimat av påliteligheten til individuelle historier eller et helt nyhetsnettsted. Eller det kan være en første forsvarslinje på baksiden av et nyhetsnettsted, som flagger mistenkelige historier for videre gjennomgang. En suksessrate på 76 prosent etterlater en ganske stor feilmargin, men det kan fortsatt gi verdifull innsikt når den brukes sammen med mennesker. "
Språklige algoritmer som analyserer skriftlig tale er ganske vanlige i dag, sier Mihalcea. Utfordringen med å bygge en falsk nyhetsdetektor ligger ikke i å bygge algoritmen i seg selv, men i å finne de riktige dataene for å trene den algoritmen.
Falske nyheter vises og forsvinner raskt, noe som gjør det vanskelig å samle inn. Det kommer også i mange sjangre, noe som ytterligere kompliserer innsamlingsprosessen. Satiriske nyheter, for eksempel, er enkle å samle på, men bruken av ironi og absurditet gjør det mindre nyttig for å trene en algoritme for å oppdage falske nyheter som er ment å villede.
Til slutt skapte teamet til Mihalcea sine egne data, og samlet et online team som omvendt konstruerte bekreftet ekte nyheter i forfalskninger. Slik skapes de fleste falske nyheter av enkeltpersoner som raskt skriver dem til gjengjeld for en økonomisk belønning, sier Mihalcea.
Forskere rekrutterte deltakere ved hjelp av Amazon Mechanical Turk og betalte dem for å gjøre korte, faktiske nyhetsartikler om til lignende, men falske nyheter, og etterlikte den journalistiske stilen til artiklene. På slutten av prosessen hadde forskerteamet et datasett med 500 virkelige og falske nyheter.
De matet deretter disse merkede parene med historier til en algoritme som utførte en språklig analyse, og lærte seg selv å skille mellom ekte og falske nyheter. Til slutt forvandlet teamet algoritmene til et datasett med ekte og falske nyheter trukket direkte fra nettet, og netting av suksessraten på 76 prosent.
Detaljene om det nye systemet og datasettet som teamet brukte for å bygge det er fritt tilgjengelig, og Mihalcea sier at nyhetsnettsteder eller andre enheter kan bruke dem til å bygge sine egne falske nyhetsdeteksjonssystemer. Hun sier at å inkludere metadata som koblinger og kommentarer knyttet til en gitt nyhetsartikkel på nettet, kan ytterligere sone fremtidige systemer.
Forskerne vil detaljere systemet i en artikkel de vil presentere på 27th International Conference on Computational Linguistics i Santa Fe, New Mexico.