Vještačka inteligencija procjenjuje karakteristike živog svijeta

Marija Brbić, Institut Ruđer Bošković, IRB
Uloga tima s IRB-a jest primjena novih algoritama na problemima molekularne biologije (Ustupljeno Al Jazeeri)

Nedavno objavljen rad znanstvenika sa zagrebačkog Instituta “Ruđer Bošković” u kojem su opisali tehnologije umjetne inteligencije koje samostalno “čitaju” znanstvenu literaturu iz područja mikrobiologije, pa i “uče” iz nje, već je privukao pažnju znanstvene zajednice.

Prema stranici altmetric.com, koja broji komentare istraživača po društvenim mrežama – pri čemu je Twitter u ovom slučaju najvažniji – njihov rad, objavljen u uglednom časopisu Nucleic Acids Research, koji se bavi najnovijim dostignućima u molekularnoj biologiji, nalazi se u gornjih šest posto znanstvene produkcije.

U nekoliko minuta obavljen višegodišnji posao

Naime, tim istraživača, koji čine voditelj istraživanja Frano Supek, znanstvena novakinja Maria Brbić, suradnici sa Zavoda za elektroniku te Anita Kriško s Mediteranskog instituta za istraživanje života (MedILS) u Splitu, osmislio je algoritme koji “uče” kako raspoznavati značajke različitih vrsta bakterija analizom tekstova s Wikipedije, studentskih radova te stručnih izvora.

Poželjan ‘izvoz’ u druga područja

Dostignuće znanstvenika s IRB-a ne može se “izvoziti” u komercijalnom smislu zato što su svi podaci dostupni i na raspolaganju svakome. I publikacija koja opisuje njihovu metodu i predviđanja koja su proizveli, navode Supek i Brbić, dostupna je u skladu s načelom “otvorenog pristupa”, koji sve više i više prakticiraju znanstveni časopisi. Za lakši pristup podacima razvijeno je web sučelje protraits.irb.hr, na kojem su podatke učinili javno dostupnima te omogućili jednostavniju pretragu.

“A ako govorimo o ‘izvozu’ u druga područja znanosti – to bi bilo izvrsno. Nadamo se da će naši kolege prepoznati vrijednost ovakvih metoda i primijeniti ih na razna područja”, kaže Supek.

Usavršene računalne statističke tehnike u samo nekoliko minuta mogu “pročitati” i “razumjeti” tisuće tekstova – pritom razmatraju više od milijun kombinacija raznovrsnih značajki – odnosno, ugrubo rečeno, svojstava organizma – i bakterijskih vrsta, u dovoljnoj mjeri da iz njih prepoznaju značajke živih organizama.

Samo za provjeru svake kombinacije čovjeku bi trebale godine iščitavanja literature. 

Važnost rada tim je veća kada se u obzir uzme obimna znanstvena literatura i sadržaj na internetu koji je sve veći, pa je teško pratiti sve nove informacije.

Prepoznavanje karakteristika i procjena organizma

“U dobroj mjeri naši problemi u snalaženju po literaturi proizlaze iz toga što je ogromna i što nije uvijek lako pronaći konkretnu informaciju koja vam treba – no to je uglavnom rješiva situacija ako vam za vaše istraživanje trebaju, primjerice, svega dva-tri ključna podatka. No, veći problem nastaje ako želite raditi sistematična istraživanja koja, npr., uspoređuju neko svojstvo i njegovu evoluciju u velikom broju organizama. Mi nismo mogli sjesti i ‘guglati’ jedan po jedan mikroorganizam da vidimo da li, npr., uzrokuje bolest dišnog sustava ili sudjeluje u kvarenju hrane zato što tih mikroba ima tisuće”, objašnjava Supek.

“Čitanje” i “razumijevanje” znanstvene literature i drugih tekstova, uključujući one na Wikipediji, ističe Supek, složen je problem u kojem je umjetna inteligencija još uvijek daleko iza ljudske. No, napredak na tom području iznimno je brz.

“Naše metode rješavaju jedan vrlo specifičan problem, a to je prepoznavanje značajki živog svijeta – što biolozi zovu ‘fenotip’ – i prosudbu koji organizam ima koju značajku. Tu su naši algoritmi, koliko smo uspjeli procijeniti, vrlo dobri. I u situacijama gdje nisu 100 točni mogu dati vrlo precizne procjene o tome koliko su sigurni u svaku određenu procjenu. To je nešto u čemu je prirodna, ljudska, inteligencija ponekad vrlo loša.”

Povezivanje gena 

Za umjetnu inteligenciju, objašnjava Supek, “čitanje” teksta s Wikipedije ili genskog zapisa živog svijeta sličan je ili barem jednako težak zadatak.

A ovaj rad otkriva, među ostalim, da poredak gena na kromosomima, koji se znatno razlikuje između živih organizama, vrlo dobro odražava mnoge njihove značajke.

“Ljudima je to teško pojmiti jer smo dobro istrenirani u razumijevanju prirodnih jezika i ne primjećujemo koliko je to zapravo složen posao – ali nam je, s druge strane, praktički nemoguće iščitati išta iz niza ‘slova’ u DNA bez obilate pomoći računala. Budući da su algoritmi primjenjivi na tekstove i na gene na nekoj razini relativno slični, iskoristili smo to da povežemo gene sa konkretnim fenotipovima. Dakle, pokušavamo odgovoriti na pitanje koji je gen presudan za neki fenotip – recimo, koji su geni povezani sa patogenošću bakterija za biljke, životinje ili čovjeka, koji su povezani sa preživljavanjem na visokim temperaturama ili visokim koncentracijama soli”.

Izazov i za čovjeka i za vještačku inteligenciju

Istraživanje tima s IRB-a financirala je Hrvatska zaklada za znanost i Europska komisija kroz projekt MAESTRA. Taj je projekt, objašnjava Supek, suradnja između laboratorija u pet europskih zemalja i spada u elitnu skupinu tzv. FET (Future and Emerging Technologies) znanstvenih projekata Europske unije, gdje selekciju prolazi svega nekoliko postotaka od svih prijavljenih timova istraživača.

“Cilj MAESTRA-e jest razrada novih tehnologija umjetne inteligencije koje ‘uče’ iz ogromnih ili nepotpunih skupova podataka. Kao što su, uostalom, bili i naši podaci – znanstvena literatura je i ogromna i nepotpuna, izazovna i za čovjeka i za umjetnu inteligenciju.”

Supek zaključuje kako će njihovi algoritmi s lakoćom obrađivati i literaturu u budućnosti te je automatski povezati s genskim zapisom organizama.

Razvoj nove generacije algoritama

Ovaj rad, objašnjava Maria Brbić, nastao je u sklopu projekta MAESTRA (Learning from Massive, Incompletely annotated and Structured Data) te projekta “Postupci strojnog učenja za dubinsku analizu složenih struktura podataka”.

Cilj projekta MAESTRA, objašnjava, jest razvoj nove generacije algoritama strojnog učenja koji mogu stvarati točnije prediktivne i deskriptivne, odnosno predviđajuće i opisne modele za složene i masivne podatke, primjerice, one za koje su oznake primjera za učenje samo djelomično poznate – tzv. polunadzirano učenje.

“Uloga našeg tima u ovom projektu jest primjena novih algoritama na problemima iz molekularne biologije. U našem radu raspolagali smo upravo takvim složenim podacima, za koje se u sklopu projekta razvijaju novi algoritmi”, kaže Brbić.

Velika količina informacija o značajkama bakterija dostupna je, kaže, u podacima danim u određenom tekstu, a baza koja bi sustavno označavala bakterije s fenotipima – primjerice, okoliš u kojem bakterija živi, je li i za koje živo biće patogena i slično – dosad nije postojala.

Primjena naučenog modela na novim bakterijama

Kad bi čovjek ručno stvarao takvu bazu, ističe, trebao bi pročitati tisuće članaka te razmatrati milijun kombinacija bakterija i fenotipova.

Umjesto toga algoritmi strojnog učenja analiziraju članke i genomske podatke za više od 300 bakterija i predviđaju više od 400 značajki, razmatrajući sve moguće kombinacije.

“Jednom naučeni model može se onda primijeniti na novim bakterijama za koje nemamo nikakvu informaciju o značajkama. S dolaskom novog teksta o bakterijama te sa sekvenciranjem novih genoma naši modeli moći će označiti i te nove bakterije s obzirom na njihove značajke.”

Kako bi provjerili predviđanja algoritama, kaže Brbić, slučajno su odabrali uzorak od 2.500 predviđanja, koja su stručnjaci potom neovisno provjerili i pokazali da predviđanja algoritma uistinu jesu pouzdana.

Što se tiče analize otkrivanja novih fenotipova iz teksta, tu su primjenjivali algoritme tzv. nenadziranog strojnog učenja, što znači da, pojednostavljeno rečeno, algoritam nije raspolagao oznakama na koje bi se mogao “osloniti” kao na referencu, već je sam morao pronaći strukturu u podacima.

Rezultati bolji od njemačkih

Istraživanje je započelo prije tri godine, a većinu posla, ističe Supek, odradila je Maria Brbić, koja upravo radi na doktoratu. Suradnici u laboratoriju izradili su internetsku bazu podataka kako bi predviđanja bila javno dostupna te su radili na važnoj pripremi podataka. Anita Kriško, kao stručnjakinja za mikrobiologiju, provjeravala je slažu li se doista predviđanja algoritama s onim što se nalazi u literaturi, odnosno “shvaća” li računalo bitne dijelove teksta na sličan način kao i čovjek.

U IRB-u smatraju da se radi o velikom iskoraku – Supek rezultate uspoređuje sa sličnim radom kolega iz Centra Heimholz u Njemačkoj, objavljenim nedugo nakon njihovog. “Njihovi algoritmi predviđaju 67 značajki koje su pridijelili 572 vrste mikroba. Naš rad predviđa 424 značajke, koje smo pridijelili 3046 vrsta bakterija i arheja. To je razlika od 33 puta.”

Samostalno prepoznavanje

“Ideja je bila da na taj način probamo otkriti neke nove, dosad nepopisane značajke. U našem slučaju te su nove značajke bakterija odgovarale zapravo temama koje se konzistentno pojavljuju u tekstovima o bakterijama te koje su algoritmi sami uspjeli prepoznati. Na ovaj način pronašli smo više od 100 nepopisanih značajki.”

Znanstvena zajednica komunicira prvenstveno preko članaka u časopisima, koji moraju proći uglavnom anonimnu recenziju, a s obzirom na to da je časopis u kojem su objavili svoj rad cijenjen i ima dugu tradiciju, kaže Supek, to znači da su urednici i recenzenti bili entuzijastični u vezi s njihovim doprinosom.

Daljnji interes odražava se kroz citiranost, odnosno koliko će se puta budući članci u časopisima referirati na njihov rad.

Do zaključaka u tom smislu može se doći tek za nekoliko godina, no Brbić očekuje veliko zanimanje kolega.

Širenje baze

U međuvremenu, s dolaskom novih genoma i tekstova, kaže, planiraju proširiti svoju bazu. Dosad su, objašnjava, postojale dvije baze koje su sadržavale informacije o značajkama bakterija i obje je “ručnim” unošenjem informacija popunio čovjek.

“Sukladno s tim, za većinu bakterija nisu postojale nikakve informacije o njihovim značajkama. Informacije u tim bazama bile su korisne za naš rad jer je za primjenu algoritama nadziranog strojnog učenja nužno imati početni skup označenih primjera na temelju kojih algoritmi mogu naučiti model. Te primjere dobili smo upravo iz navedenih baza. A mi sada možemo puno veću količinu fenotipova pridijeliti bakterijama jer više nije čovjek taj koji unosi podatke, nego to rade algoritmi koji imaju sposobnost analize golemog broja tekstova i genoma u izrazito kratkom vremenu”, zaključuje Brbić.

Izvor: Al Jazeera


Reklama