El investigador senior de IA de Avast, Javier Aldana Luit, respondió preguntas claves.

1.¿Pueden los sistemas ser programados para reconocer rostros con máscaras?
Sí, los sistemas pueden aprender a reconocer rostros que estén usando máscaras de entre otras que no lo hagan, incluso a pesar de que muchos de los rasgos o de las características que se encuentran en la boca, mentón y mejillas (áreas cubiertas por la máscara) son fuertes contribuyentes al proceso de toma de decisiones realizado por los clasificadores de IA. El desempeño y la precisión del reconocimiento puede no ser tan alto comparado con los resultados obtenidos al entrenar al sistema con imágenes de rostros completos, pero es algo que se puede poner a prueba.

2.De ser así, ¿cómo es esto posible?
El sistema, independientemente de la arquitectura elegida, requiere de una amplia base de datos de imágenes anotadas, es decir, cada imagen está etiquetada como “con máscara” o “sin máscara”. Dado lo anterior, el clasificador puede ser entrenado en modo supervisado. Una tarea más complicada para el reconocimiento de una persona usando una máscara requeriría una base de datos más extensa con múltiples imágenes de la misma persona usando diferentes máscaras para enseñar al sistema a prestar atención a los rasgos visibles más constantes de la cara.

Además, las metodologías estándar para el reconocimiento facial pueden ser ajustadas para omitir o ignorar los rasgos que están cubiertos del rostro por la máscara. Esto último se puede agregar como restricciones geométricas integradas en el proceso de entrenamiento.

3.¿Los lentes hacen más difícil el reconocimiento de los rostros o no?
Esto depende del poder de generalización del clasificador, es decir, de lo buena que sea la clasificación de los datos no vistos durante el entrenamiento. Como en la mayoría de los enfoques de clasificación, el rendimiento es mejor con un conjunto de datos más grande y diverso utilizado para entrenar a los modelos. Si dentro de los datos con los cuales se entrenó el modelo hay imágenes de la misma persona con y sin lentes, entonces la clasificación no sufriría daño.

Por otro lado, hoy en día existen varias técnicas para aumentar la generalización de los modelos de aprendizaje profundo que intentan compensar la falta de datos durante el entrenamiento. Estas técnicas se aplican para aprender representaciones numéricas abstractas de las caras de una manera más robusta, e invariable a los cambios de apariencia causados por el uso de gafas u otros artefactos que afecten a la imagen.

En estudios recientes, los investigadores han mostrado que los lentes con patrones visuales en ellos (como dibujos), causan una clasificación errónea y por tanto un mal reconocimiento por el modelo previamente entrenado. Inspirados en eso, se han propuesto nuevas arquitecturas de redes neuronales profundas con el fin de aprender a generar casos concretos para esta clasificación y cómo corregir la clasificación en presencia de tales artefactos.