Gaurko gaiak - NUP-en irakurritako tesi batek arrazoitzeko metodo berri bat proposatzen du makinen ikaste prozesua hobetzeko

Hasiera
Gaurko gaiak
NUP-en irakurritako tesi batek...

Giancarlo Lucca, NUPeko doktore berria.

Giancarlo Lucca ingeniariak adimen artifizialaren arloko tesi bat defendatu berri du Nafarroako Unibertsitate Publikoan (NUP), makinen ikaste prozesuari buruzkoa hain zuzen ere. Zehatz-mehatz, arrazoitzeko metodo berri bat garatu du logika lausoko sistemetan Choquet integrala aplikatuz. Logika lausoa informazio zehaztugabea edo ez-perfektua kontuan hartzen duena da. Tesia NUPeko Humberto Bustince katedradunak eta José Antonio Sanz irakasleak zuzendu dute, Estatistika, Informatika eta Matematika Saileko kideak eta Smart Cities institutuko ikertzaileak biak, eta kalifikaziorik onena lortu du, bikain “cum laude”.

Ikertzaileetako batek azaldu duenez, ikasketa automatikoaren helburua da (ingelesez, “machine learning”) eredu matematiko eta konputazionalak sortzea, gauza izango direnak sistema prediktiboak eratzeko. Horretarako gehien erabiltzen diren tekniketako bat arau lausoetan oinarritutako sailkapen sistemak dira (ingelesez, “FRBCS, Fuzzy Rule-based Classification Systems”). Izan ere, badute abantaila bat: gizakiak erraz interpretatzen ditu halako sistemek sortzen dituzten ereduak, arauen aurrekarietan etiketa linguistikoak erabiltzen baitituzte (logika lausoaren bidez modelatuak). “Esate baterako, arau lausoetan oinarritutako sailkapen sistema bat entrenatzen bada aurresateko bezero jakin bati mailegua emango ote dion bankuak, gisa honetako arauak lortuko genituzke: soldata ertaina bada eta adina oso baxua, orduan ez da mailegua emango”. “Halako arauak erabiltzen dituzten sistemak gauza dira, aurreikuspenen zergatia azaltzeko ez ezik, informazio zehaztugabearen ziurgabetasuna kudeatzeko; izan ere, datu batzuk ez dira batere zehatzak, adibidez, ertaina eta oso baxua hitzak”, esplikatu du ikertzaileak.

Arau lausoetan oinarritutako sailkapen sistemak bi osagai nagusi hauetan oinarritzen dira: batetik, jakintza basean, eta, bestetik, arrazoitzeko metodo lausoan. Lehen osagaian, datu baseak daude, non etiketa linguistikoak modelatzen dituzten multzokidetasun funtzioen definizioak gordetzen baitira; bigarren osagaian, berriz, arau baseak, non sortutako arauak biltegiratzen baitira. Arrazoitzeko metodo lausoa aurreikuspenak egiten dituen mekanismoa da, eta sistemak duen informazioa erabiltzen du horretarako.

Choquet integralaren orokortzeak aplikatzea

Bada arrazoitzeko metodo lauso bat, Choquet integrala izeneko formula matematikoa erabiltzen duena agregazio eragile gisa, hau da, balio multzo batetik datuak lortzeko eragile gisa. Tesiak proposatzen duen metodo berria, hain zuzen, integral mota horren orokortzeak aplikatzean datza. “Ikertzen hasi ginenean, konturatu ginen sortzen genituen orokortzeak ez zirela hazten agregazio funtzio normaletan bezala. Agregazio funtzio batean, balio jakin batzuk agregatzen baditugu eta, gero, haietako baten ordez balio handiago bat erabiltzen badugu eta balioak berriz agregatzen baditugu, handiagoa izango da azken agregazioaren emaitza”. “Demagun, adibidez, batezbesteko aritmetikoa erabiltzen dugula 1, 2, 2 eta 4 balioak agregatzeko, orduan, 2,25 izango da emaitza; 1, 2, 2 eta 5 balioak agregatuz gero, aldiz, 2,5. Aitzitik, moda estatistikoa erabiltzen badugu, hots, multzo batean maiztasun handiena daukan balioa, propietate hori ez da zertan bete; adibide horretan, esaterako, bi egoerak moda estatistikoa erabiliz agregatuz gero, 2 izango litzateke emaitza”. “Horregatik, moda estatistikoa ez da hartzen agregazio funtzio gisa, nahiz eta oso ezaguna den eta maiz erabiltzen den. Antzeko zerbait gertatzen zen Choquet integrala aplikatuz guk sortzen genituen orokortzeekin, ez baitziren hazten agregazio funtzio normaletan bezala”, azaldu du ikertzaileak.

Bada alderdi horri egin zion lehenbiziko ekarpen garrantzitsua tesiak: agregazio funtzioen “status quoa” aldatzea, alegia. Zehazki, aurreagregazioen kontzeptua sortu genuen, hau da, agregazio funtzioek bezala jokatzen duten baina hazkunde espezifikoagoa duten funtzioena. “Agregazio guztiak dira aurreagregazio, baita batezbesteko aritmetikoa ere; aurreagregazio guztiak, ordea, ez dira agregazio, moda estatistikoa, adibidez”, argitu du ikertzaileak. “Kontzeptu berri horri esker, modu batean baino gehiagotan orokortzen ahal da matematikoki Choquet integrala. Gainera, garrantzi handia hartzen ari da munduan barrena, ikerketa askotan erabiltzen ari baitira”.

“Hori dela eta, sei modu garatu ditugu Choquet integrala funtzio bat baino gehiagorekin orokortzeko. Zenbaitek batezbestekoaren ezaugarriak erabiltzen dituzte; beste zenbaitek, aldiz, ez”. “Metodo horiek guztiak aplikatu ditugu gaur egungo arrazoitzeko metodo lauso zehatzenetako eta interpretaerrazenetako batean: FARC-HD metodoan (Fuzzy Association Rule-based Classification Method for High-Dimensional Problems, ingelesez)”. “Metodo horren bidez handitu egin dugu sailkapen sistema asmatzen dituen emaitzen portzentajea; hainbeste, ezen arrazoitzeko metodo lausoekin konparatzeko modukoa baita estatistikoki. Horrenbestez, gorago aipatu dugun problema ebazteko, hots, bankuak mailegu bat emango ote duen aurresateko, teknika zehatz eta interpretagarri bat daukagu”, esan du ikertzaileak azkenik.

Curriculum laburra

Giancarlo Luccak (Ijuí, Brasil) Informazio Sistemetako Gradua egin zuen Rio Grandeko Unibertsitate Federalean (FURG), Brasilen. Unibertsitate horretan bertan, Konputazio Ingeniaritzako Masterra eskuratu zuen, eta, gero, ikerketa-egonaldi bat egin zuen Tras-os-Montesko eta Alto Douroko Unibertsitatean (UTAD), Portugalen. Berriki egindako tesiaren emaitza sei artikulutan eman du ezagutzera JCRn indexatutako eragin handiko zientzia-aldizkari batzuetan, eta hamabost bat lanetan argitaratu du nazioarteko biltzarretan.