Nafarroako Unibertsitate Publikoko (NUP) ISC Smart Cities Institutuko hiru ikertzailek metrika batzuk diseinatu dituzte adimen artifizialeko ereduak entrenatzeko erabiltzen diren datu multzoetako alborapen demografikoak kuantifikatzeko. Halako alborapenik egonez gero, adimen artifizialeko sistemetan gutxi edo gaizki ordezkatuak egoten dira talde demografiko jakin batzuk; adibidez, emakumeak, 70 urtetik gorako pertsonak eta pertsona beltzak. Horren ondorioz, baliteke halako datuekin trebatutako adimen artifizialeko sistemek gaizki jokatzea, eta populazio talde jakin batzuek diskriminazioz tratatzea. Ikerlana “IEEE Transactions on Pattern Analysis and Machine Intelligence” aldizkarian argitaratu da (IEEE TPAMI), zeina adimen artifizialaren arloko erreferentea baita mundu osoan.
“Egiaztatu dugu, esate baterako, curriculumak iragazteko sistema batzuek sistematikoki baztertzen zituztela, gure eredu matxistari jarraikiz, emakumeenak ziruditen curriculumak. Eta adimen artifizial generatiboaren kasuan, ChatGPT sistemarenean adibidez, ohartu gara generoa zenbait lanbiderekin lotzen duela, eta arraza talde batzuk, berriz, ezaugarri negatibo batzuekin”, dio Iris Domínguez-Catenak, hots, Daniel Paternáin Dallo eta Mikel Galar Idoate ARIN ikerketa-talde sortu berriko kideekin batera artikulua idatzi duen ikertzaileak (Artificial Intelligence and Machine Learning Research ikerketa-taldea).
Argazki batean oinarrituta aurpegiera ezagutzea
Artikuluaren ikergaia aurpegiko adierazpenen ezagutza automatikoa da (ingelesez, “Facial Expression Recognition”), hau da, pertsona baten argazkian oinarrituz sistemak automatikoki asmatzen du nolako emozioa adierazten duen aurpegi batek; oinarrizko emozio hauetako bat alegia: zoriona, tristura, beldurra, nazka, haserrea, harridura eta adierazpen neutroa. Problema horrek aplikazio garrantzitsuak ditu medikuntzan (haurtxoen min-seinaleak detektatzeko), laguntzeko robotikan (adinekoei laguntzeko, batez ere) eta ikus-entzunezkoen sorkuntzan. Zehazki, teknologia hori erabili dute Emotional Films proiektu estrategikoan, non eginkizun erabakigarria izan baitute NUPeko ikertzaile batzuek eta argitaratu berri den ikerlana egin dutenek.
Artikuluan (“Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition” du izena), ikertzaileek aztertutako hogei datu multzo baino gehiagoren emaitza eman dute aditzera, besteak beste aurpegierak ezagutzeko adimen artifizialeko sistemak entrenatzeko gaur egun gehien erabiltzen diren datuena. Datu multzoak Internetetik atera ohi dituzte kontrol zehatzik egin gabe. “Egiaztatu dugu datu multzoetan orekatua egon ohi dela gizonen eta emakumeen presentzia; ez, ordea, adin tarte eta arraza guztiena –esan du Iris Domínguezek–. Izan ere, 20 eta 30 urte bitarteko pertsona zurien datuak askoz gehiago dira beste talde batzuetakoenak baino, eta, horren ondorioz, litekeena da adimen artifizialeko ereduek 70 urtetik gorakoak eta emakume arrazializatuak diskriminatzea, besteak beste”. Halako partzialtasunei ordezkaritza-alborapen deitzen zaie.
Adimen artifizialeko sistemek, gainera, badituzte beste alborapen batzuk. “Beste gauza bat ere egiaztatu dugu: datu multzo askotako emakume zoriontsuen kopurua gizonezkoena halako bi da ia-ia; haserre ageri diren emakumeen kopurua, aldiz, gizonezkoenaren erdia –esan du ikertzaileak–. Horrek sistemari pentsarazten ahal dio pertsona batek zoriona edo haserrea adierazten duela segun eta itxura femeninoagoa edo maskulinoagoa duen. Alborapen estereotipiko deitzen zaie halakoei”.
Artikuluaren idazleek 17 metrika aztertu dituzte alborapen mota guztiak kuantifikatzeko, eta, sakon ikertu ondoren, datu multzo batean dauden alborapenak kuantitatiboki neurtzeko eta interpretatzeko egokienak zein diren proposatu dute. “Problema horietako asko gizartean ditugun alborapenen ondorio zuzenak dira, eta gure ohiko diskriminazio ereduak errepikatzea edo areagotzea ekar dezakete. Adimen artifizialeko azkeneko eredura alborapenak transferitzea eragozteko eta haien eragina txikitzeko, lehenik eta behin kuantifikatu egin behar da alborapen maila”, adierazi du azkenik Iris Domínguezek.
Ikerketa egin duen taldea
Artikuluaren egile nagusia Iris Domínguez-Catena da (Iruñea, 1992), Informatikako graduatua (2015) eta Informatikako Ingeniaritzako masterduna (2020) NUPen. Gaur egun, doktoretza egiten ari da adimen artifizialeko alborapen demografikoak ikertzen dituen tesi batekin.
Artikuluaren beste egileak NUPeko Estatistika, Informatika eta Matematika Saileko bi irakasle titular dira. Zehazki, Daniel Paternáin (Iruñea, 1984) Kudeaketako Informatikako ingeniari teknikoa da (2006), Informatikako ingeniaria (2008) eta Informatikako doktorea (2013) NUPen; eta Mikel Galar (Iruñea, 1986) Kudeaketako Informatikako ingeniari teknikoa (2007) eta Informatikako ingeniaria da (2009) NUPen, non doktoratu baitzen 2013an, Granadako Unibertsitatean Soft Computing eta Sistema Adimendunetako Masterra egin ondoren (2010).
Punta-puntako aldizkaria mundu osoan
“IEEE Transactions on Pattern Analysis and Machine Intelligence” aldizkaria adimen artifizialaren arloko aldizkari garrantzitsuenetako bat da, arlo hauetan batik bat: ikaskuntza automatikoa (“machine learning”), ordenagailu bidezko ikusmena eta patroien ezagutza. Hogei urte baino gehiago daramatza JCRko aldizkarien 5 onenen artean, konputazio zientzien eta adimen artifizialaren arloan (Journal Citation Report, mundu osoko argitalpenak aztertzen dituen txostena). Aldizkariaren inpaktu-faktorea 23.6 da, eta, beraz, bigarren dago JCRko konputazio zientzien eta adimen artifizialaren rankingean, eta lehenbiziko JCIren (Journal Citation Indicator) ingeniaritza elektrikoaren eta elektronikoaren sailkapenean.