Mikel Galar Idoate Nafarroako Unibertsitate Publikoko (NUP) Estatistika, Informatika eta Matematika Saileko irakaslea eta Smart Cities Institutuko (ISC) ikertzailea Springer zientzia-argitaletxearen “Learning from Imbalanced Data Sets” liburuaren egilea da Granadako Unibertsitateko, Estatu Batuetako Richmondeko Unibertsitateko eta Brasilgo Universidad Federal do ABC unibertsitateko ikertzaileekin batera.
Liburua datuen zientziaren arloko edo informatika-ingeniaritzaren arloko ikasleei eta ikaskuntza automatikoko zientzialariei eta ikertzaileei zuzenduta dago, eta datuen zientzian giltzarri den problema batean jartzen du arreta, hots, datu desorekatuen multzoen probleman.
Zehazki, aipatu gaia ikaskuntza automatikoaren barnean sortzen da (“machine learning”, ingelesez) eta, zehatzago esanda, sailkapenaren arloan. Makina batek eredu bat, gero datu berriak automatikoki sailkatzeko gai izango den eredu bat modu automatikoan ikastea da kontua. “Makinari problemaren mota desberdinen adibideak makinari erakutsiz egiten da ikaskuntza hori, eta hainbat aplikazio ditu. Esaterako: edozein piezak dituen akatsen sailkapena, anomalien detekzioa kreditu-txartelen transakzioetan edo irudi medikoen sailkapena”, azaldu du Mikel Galarrek.
Datu desorekatuen multzoen problema
Aipatutako aplikazio guztietan datu desorekatuen multzoen problema agertzen da, zeren, Mikel Galarrek azaltzen duenez, “orokorrean interes motaren adibide gutxiago izaten dira (akatsak piezetan, anomaliak transakzioetan edo, zorionez, problema mediko larrien irudiak) beste moten adibideak baino (pieza zuzenak, ohiko transakzioak edo kasu osasuntsuen irudiak)”. “Erronka handia da datu horietatik abiatuz makina ereduak ikasteko gai izatea, datuak askoz ere adibide gutxiagotatik atera behar baitira, eta orokorrean tipologia nahiko desberdinetakoak izaten dira”, esan du liburuaren egileak.
Ikaskuntza automatikoaren esparruan deskribatutako problemaren azterketa sakona egiten da liburuan. Problemaren deskribapen formal bat aurkezten da, bai eta haren ezaugarri nagusiak eta hura konpontzeko proposatutako konponbide aipagarrienak ere. Zenbait aplikazio arlo ere aztertu dira, aipagai den gaiaren eraginpean egon direnak. Azkenik, liburuak problema honetan ikaskuntza hobetzeko diseinatutako era guztietako metodoen deskribapena jasotzen du, eta problema aztertzeko erabiltzen ahal diren software liburu-denden adibideak ditu.