El ingeniero Giancarlo Lucca ha defendido recientemente en la Universidad Pública de Navarra (UPNA) una tesis enmarcada en el aprendizaje de las máquinas, dentro del campo de la inteligencia artificial. Concretamente, la investigación se centra en el desarrollo de un nuevo método de razonamiento con la aplicación de la llamada “integral Choquet” en los sistemas de lógica difusa (aquella que tiene en cuenta la información imprecisa o imperfecta). La tesis doctoral, dirigida por el catedrático Humberto Bustince y el profesor José Antonio Sanz, ambos, del Departamento de Estadística, Informática y Matemáticas de la Universidad e investigadores del Instituto de Smart Cities (ISC); ha obtenido la máxima calificación, sobresaliente “cum laude”.
Tal y como explica el investigador, el objetivo del “machine learning” (aprendizaje de las máquinas) es generar un modelo matemático y computacional que permita la creación de sistemas predictivos. Una de las técnicas más habituales son los Sistemas de Clasificación Basados en Reglas Difusas (SCBRDs), cuya ventaja principal es que el modelo que generan es fácilmente interpretable por el ser humano, puesto que utilizan etiquetas lingüísticas (modeladas mediante lógica difusa) en los antecedentes de las reglas. “Por ejemplo, si se entrena un SCBRD para predecir si un cliente puede recibir o no un préstamo en un banco, se podrían obtener una serie de reglas del tipo si sueldo es medio y edad es muy baja, entonces no conceder el préstamo”. “Este tipo de reglas permite a los SCBRDs no solamente explicar el porqué de las predicciones, sino también manejar la incertidumbre proveniente de información imprecisa, porque términos como medio y muy baja son imprecisos”, ilustra el investigador.
Los SCBRDs están compuestos por dos componentes principales, que son la base de conocimiento y el Método de Razonamiento Difuso (MRD). En el primero se encuentran la base de datos, donde se almacenan las definiciones de las funciones de pertenencia responsables de modelar las etiquetas lingüísticas, y la base de reglas, donde se encuentran las reglas generadas. Por su parte, el MRD es el mecanismo responsable de hacer las predicciones, utilizando para ello la información disponible en el sistema.
Aplicación de generalizaciones de la integral Choquet
En este contexto, existe un MRD que utiliza una fórmula matemática denominada integral Choquet como operador de agregación (que permite obtener datos sobre un conjunto de valores), y precisamente en este trabajo de tesis se propone un nuevo método con la aplicación de generalizaciones de esta integral. “Pero, al comenzar la investigación, observamos que las generalizaciones que creábamos crecían de manera distinta a una función de agregación normal. En una función agregación, si agregamos unos valores y luego los volvemos a agregar cambiando uno de ellos por un número mayor, el resultado de la última agregación será mayor”. “Por ejemplo, si utilizamos la media aritmética para agregar los valores 1, 2, 2 y 4 obtenemos como resultado 2,25; mientras que si agregamos los valores 1, 2, 2 y 5, el resultado es 2,5. Sin embargo, si consideramos la moda estadística -el valor que más se repite en un conjunto—, esa propiedad no se tiene porqué cumplir -en el ejemplo anterior, el resultado de agregar ambas situaciones con la moda sería 2—”. “Por este motivo, la moda no se considera como una función de agregación a pesar de ser muy conocida y utilizada. Con las generalizaciones de la integral Choquet que proponíamos pasaba algo similar, puesto que no cumplían este crecimiento”, indica.
En este punto se realizó la primera gran aportación de la tesis, que es la modificación del “status quo” de las funciones de agregación. En concreto, se trata de la creación del concepto de pre-agregaciones, que son funciones que se comportan igual a las de agregación, pero teniendo un crecimiento más específico. “Todas las agregaciones también son pre-agregaciones -como la media aritmética— pero no todas las pre-agregaciones son agregaciones (como por ejemplo la moda), aclara el investigador”. “Este nuevo concepto ha permitido matemáticamente generalizar la integral Choquet de diferentes modos. Además, está siendo muy relevante a nivel mundial puesto que la comunidad investigadora está trabajando intensamente con él”.
“Por tanto, hemos desarrollado seis maneras distintas de generalizar la integral Choquet con diferentes funciones, con y sin las características promedio”, apunta el investigador. “Todas ellas han sido aplicadas en el MRD de uno de los SCBRDs más precisos e interpretables de la actualidad: el FARC-HD (Fuzzy Association Rule-based Classification method for High-Dimensional problems, por sus siglas en inglés)”. “Mediante su uso, hemos logrado aumentar el porcentaje de acierto del clasificador hasta tal punto que puede ser estadísticamente comparable con SCBRDs. De este modo, ante un problema como el mencionado anteriormente de conceder un préstamo, disponemos de una técnica precisa e interpretable”, concluye.
Breve currículum
Giancarlo Lucca (Ijuí, Brasil) es graduado en Sistemas de Información por la Universidade Federal do Rio Grande (FURG). Hizo el Máster en Ingeniería de computación también por la Universidad Federal de Río Grande (FURG) y realizó una estancia de investigación en la Universidad de Tras-os-Montes e Alto Douro (UTAD). El resultado de su tesis se ha reflejado en seis artículos publicados en revistas científicas indexadas en JCR de alto impacto y en la publicación de más de quince trabajos en diferentes congresos internacionales.