Babyer lærer å snakke ved å høre andre mennesker - for det meste foreldrene deres - gjentatte ganger produsere lyder. Sakte, gjennom repetisjon og oppdage mønstre, begynner spedbarn å koble disse lydene til mening. Gjennom mye øvelse klarer de etter hvert å produsere lignende lyder som mennesker rundt dem kan forstå.
Maskinlæring Algoritmer fungerer mye på samme måte, men i stedet for å ha et par foreldre å kopiere fra, bruker de data, møysommelig kategorisert av tusenvis av mennesker som manuelt må gjennomgå dato og fortell maskinen hva det betyr.
Denne kjedelige og tidkrevende prosessen er imidlertid ikke det eneste problemet med data fra den virkelige verden som brukes til å trene maskinlæringsalgoritmer.
Ta svindeloppdagelse i forsikringskrav. For at en algoritme nøyaktig skal kunne fortelle et tilfelle av svindel bortsett fra legitime påstander, må den se begge deler. Tusener på tusener av begge. Og fordi AI systemene er ofte levert av tredjeparter - så ikke drevet av forsikringsselskapet selv - disse tredjepartene må gis tilgang til alle de sensitive dataene. Du får hvor dette går, for det samme gjelder helsejournaler og økonomiske data.
Mer esoterisk, men like bekymrende er alle algoritmene som er trent på tekst, bilder og videoer. Bortsett fra spørsmål om opphavsrett, mange skaperne har gitt uttrykk for uenighet med at arbeidet deres blir sugd inn i et datasett for å trene en maskin som til slutt kan ta (en del av) jobben deres. Og det forutsetter at deres kreasjoner ikke er rasistiske eller problematiske på andre måter – som igjen kan føre til problematiske utganger.
Også, hva om det rett og slett ikke er nok data tilgjengelig til å trene en AI på alle eventualiteter? I en 2016 RAND Corporation-rapport, beregnet forfatterne hvor mange miles, "en flåte på 100 autonome kjøretøy som kjører 24 timer i døgnet, 365 dager i året, med en gjennomsnittshastighet på 25 miles per time," ville måtte kjøre for å vise at feilraten deres (som resulterer i dødsfall eller skader), var pålitelig lavere enn for mennesker. Svaret deres? 500 år og 11 milliarder miles.
Du trenger ikke å være et superhjernet geni for å finne ut at den nåværende prosessen ikke er ideell. Så hva kan vi gjøre? Hvordan kan vi lage nok, personvernrespekterende, ikke-problematiske, alle-eventualitetsdekkende, nøyaktig merket data? Du gjettet riktig: mer AI.
Falske data kan hjelpe AI-er med å håndtere ekte data
Allerede før RAND-rapporten var det helt klart for selskaper som jobber med autonom kjøring at de var sørgelig underutstyrt til å samle nok data til pålitelig å trene algoritmer til å kjøre trygt under alle forhold eller omstendigheter.
Ta Waymo, Alphabets autonome kjøreselskap. I stedet for å stole utelukkende på kjøretøyene i den virkelige verden, skapte de en totalt simulert verden, der simulerte biler med simulerte sensorer kunne kjøre rundt i det uendelige og samle inn ekte data på deres simulerte måte. I følge selskapet, innen 2020 hadde den samlet inn data om 15 milliarder miles med simulert kjøring - sammenlignet med sølle 20 millioner miles med kjøring i den virkelige verden.
På AI-språket kalles dette syntetiske data, eller "data som gjelder en gitt situasjon som ikke oppnås ved direkte måling," hvis du ønsker å bli teknisk. Eller mindre teknisk: AI-er produserer falske data slik at andre AI-er kan lære om den virkelige verden i et raskere tempo.
Et eksempel er Task2Sim, en AI-modell bygget av MIT-IBM Watson AI Lab som lager syntetiske data for treningsklassifiserere. I stedet for å lære klassifisereren å gjenkjenne ett objekt om gangen, lager modellen bilder som kan brukes til å lære flere oppgaver. De skalerbarheten til denne typen modell gjør innsamling av data mindre tidkrevende og rimeligere for datahungrige bedrifter.
I tillegg til dette, Rogerio Feris, an IBM forsker som var medforfatter av artikkelen på Task2Sim sa,
Det fine med syntetiske bilder er at du kan kontrollere parametrene deres - bakgrunnen, lyssettingen og måten objekter er posert på.
Takket være alle bekymringene som er oppført ovenfor, har produksjonen av alle slags syntetiske data økt de siste årene, med dusinvis av startups i feltet som blomstrer og plukke opp hundrevis av millioner dollar i investeringer.
De syntetiske dataene som genereres spenner fra "menneskelige data" som helse- eller økonomiske poster til syntetiserte bilder av et mangfold av menneskelige ansikter - til mer abstrakte datasett som genomiske data, som etterligner strukturen til DNA.
Hvordan lage virkelig falske data
Det er et par måter denne syntetiske datagenereringen skjer, den vanligste og veletablerte av disse kalles GAN eller generative adversarial networks.
I en GAN blir to AI-er satt opp mot hverandre. En AI produserer et syntetisk datasett, mens den andre prøver å fastslå om de genererte dataene er ekte. Tilbakemeldingene fra sistnevnte går tilbake til at den tidligere "trener" den til å bli mer nøyaktig i å produsere overbevisende falske data. Du har sikkert sett en av de mange denne-X-eksisterer-ikke nettsteder – alt fra mennesker til katter til bygninger – som genererer bildene deres basert på GAN-er.
I det siste har flere metoder for å produsere syntetiske data vunnet terreng. De første er kjent som diffusjonsmodeller, der AI-er er opplært til å rekonstruere visse typer data mens mer og mer støy – data som gradvis ødelegger treningsdataene – legges til de virkelige dataene. Etter hvert kan AI mates tilfeldig data, som den fungerer tilbake til et format som den opprinnelig ble trent på.
Falske data er som ekte data uten, vel, realiteten
Syntetiske data, uansett hvordan de produseres, gir en rekke helt konkrete fordeler fremfor å bruke virkelige data. For det første er det lettere å samle mye mer av det, fordi du ikke trenger å stole på at mennesker lager det. For det andre kommer de syntetiske dataene perfekt merket, så det er ikke nødvendig å stole på arbeidsintensive datasentre for å (noen ganger feil) merke data. For det tredje kan den beskytte personvern og opphavsrett, ettersom dataene er syntetiske. Og til slutt, og kanskje viktigst, kan det redusere forutinntatte utfall.
Med AI som spiller en stadig større rolle i teknologi og samfunn, er forventningene rundt syntetiske data ganske optimistiske. Gartner har kjent anslått det 60 % av treningsdataene vil være syntetiske data innen 2024. Markedsanalytiker Cognilytica verdsatte markedet av syntetisk datagenerering til 110 millioner dollar i 2021, og vokser til 1.15 milliarder dollar innen 2027.
Data har blitt kalt den mest verdifulle varen i den digitale tidsalderen. Big tech har sittet på fjell av brukerdata som ga den en fordel i forhold til mindre utfordrere i AI-området. Syntetiske data kan gi mindre spillere muligheten til å snu bordet.
Som du kanskje mistenker, er det store spørsmålet angående syntetiske data rundt den såkalte fidelity - eller hvor tett det samsvarer med virkelige data. Juryen er fortsatt ute på dette, men forskning ser ut til å vise seg at å kombinere syntetiske data med reelle data gir statistisk gode resultater. I år viste forskere fra MIT og MIT-IBM AI Watson Lab at en bildeklassifiserer som var forhåndstrenet på syntetiske data i kombinasjon med ekte data, utført samt en bildeklassifiserer trent utelukkende på ekte data.
Alt i alt ser syntetiske og virkelige stopplys ut til å være grønne for den nære fremtidige dominansen av syntetiske data i trening av personvernvennlige og sikrere AI-modeller, og med det er en mulig fremtid med smartere AI-er for oss like over horisonten .
[…] Technocracy.news […]
[...] https://www.technocracy.news/training-ai-fake-data-is-cheaper-than-real-data/ [...]
[…] Trenings-AI: Falske data er billigere enn ekte data […]