Salta al contenido principal

zoom El profesor e investigador de la UPNA Mikel Galar.

El profesor e investigador de la UPNA Mikel Galar.

El profesor del Departamento de Informática, Estadística y Matemáticas la Universidad Pública de Navarra (UPNA) e investigador del Instituto de Smart Cities (ISC) Mikel Galar Idoate es coautor, junto a investigadores de la Universidad de Granada, la Universidad de Richmond (Estados Unidos) y la Universidad Federal do ABC (Brasil), del libro “Learning from Imbalanced Data Sets”, de la editorial científica Springer.

La publicación, dirigida a estudiantes en el área de ciencia de datos o de ingeniería informática, así como a científicos e investigadores en aprendizaje automático, se centra en un problema clave en ciencia de datos conocido como el problema de los conjuntos de datos desequilibrados.

En concreto, el asunto mencionado surge dentro del aprendizaje automático (“machine learning”, en inglés) y más precisamente, en el área de la clasificación, que consiste en hacer que una máquina aprenda, de manera automática, un modelo que sea capaz de clasificar posteriormente nuevos datos automáticamente. “Este aprendizaje se realiza mostrando a la máquina ejemplos de las diferentes clases del problema y tiene multitud de aplicaciones como pueden ser la clasificación de defectos en cualquier tipo de piezas, la detección de anomalías en transacciones de tarjetas de crédito o la clasificación de imágenes médicas”, explica Mikel Galar.

El problema de los conjuntos de datos desequilibrados

En todas las aplicaciones mencionadas aparece el problema de los conjuntos de datos desequilibrados, ya que, tal y como explica Mikel Galar, “generalmente se disponen de muchos menos ejemplos de la clase de interés (defectos en el caso de las piezas, las anomalías en el de las transacciones o afortunadamente, imágenes con problemas médicos graves) que ejemplos de las otras clases (piezas correctas, transacciones habituales o imágenes de casos sanos)”. “Este hecho supone un gran reto para hacer que la máquina sea capaz de aprender patrones a partir de dichos datos ya que estos deben ser extraídos a partir de muchos menos ejemplos, los cuales generalmente son de tipologías bastante diferentes”, indica el autor de la publicación.

En el libro se lleva a cabo una profunda revisión de la problemática descrita en el ámbito del aprendizaje automático. Se presenta una descripción formal del problema, así como sus principales características y las soluciones más relevantes propuestas para solucionarlo. También se revisan las diferentes áreas de aplicación donde se ha visto que el asunto en cuestión ha tenido una gran influencia. Por último, el libro contiene la descripción de métodos de todo tipo diseñados para mejorar el aprendizaje en este problema e incluye ejemplos de librerías software que pueden utilizarse para tratarlo.