Tesis Juan Jesus
Un Modelo Inteligente de Interacción Natural Adaptativo basado en Visión Artificial
Juan Jesús Ojeda Castelo
Directores: José Antonio Piedra y Luis Iribarne
TIN2017-83964-R, Estudio de un enfoque holístico para la interoperabilidad y coexistencia de sistemas dinámicos: Implicación en modelos de Smart Cities
RESUMEN
En la actualidad existen diversas formas de interacción. Las más extendidas son la interacción mediante teclado y ratón en PC, gamepad en videojuegos y táctil en smartphone y tablet. Sin embargo, la interacción natural gestual sin necesidad de portar o manejar un dispositivo físico ofrecería diversas ventajas a nivel de adaptabilidad, accesibilidad y usabilidad para el usuario. Principalmente la accesibilidad beneficiaría a usuarios con diversidad funcional que, debido a sus limitaciones físicas, los modos más extendidos de interacción tradicional resultarían impracticables en algunos casos.
Esta Tesis doctoral se centra en el desarrollo de un sistema de interacción natural que se caracteriza por ser low-cost, adaptable e inteligente. En el contenido de esta, se puede apreciar tres partes claramente diferenciadas, que explican las etapas en el desarrollo del sistema y los diferentes dispositivos usados en las mismas. En primer lugar, se ha creado un sistema que tiene como dispositivo de interacción natural Microsoft Kinect v1 que permite controlar el movimiento de su cuerpo. Este sistema está compuesto por dos módulos. El primer módulo está orientado principalmente para las habilidades físicas del individuo, mientras que el segundo módulo se centra en las habilidades cognitivas. En esta parte del trabajo se ha colaborado con el Centro de Educación Especial Princesa Sofía de la provincia de Almería, lo que supuso que los propios estudiantes fueran los participantes del estudio y permitió comprobar la validez del sistema. En la evaluación se realizó una encuesta que fue cumplimentada por un conjunto de expertos valorando la usabilidad, modalidad educativa y comportamiento de los estudiantes. Además, se realizaron experimentos con usuarios para medir indicadores como el tiempo y el número de errores en la realización de una actividad. Esto facilitó la obtención de conclusiones acerca del sistema que ayudarán en su mejora.
En segundo lugar, se tiene como objetivo principal la adaptación de la interacción. El sensor utilizado fue Microsoft Kinect v2 debido a la experiencia satisfactoria proporcionada por su anterior versión. La principal aportación fue el diseño de un modelo dispositivo-interacción para poder adaptar la interacción e intentar generalizarla a un mayor número de usuarios. Las actividades propuestas para esta etapa fueron diseñadas con la colaboración de los profesores del Centro de Educación Especial Princesa Sofía. Una de las actividades desarrolladas tenía el fin de que los estudiantes asociaran conceptos respecto a una unidad didáctica. Otra actividad que fue creada tenía el objetivo de trabajar la lateralidad izquierda y derecha. Se realizaron dos tipos de evaluación: Una evaluación con expertos y una evaluación con usuarios finales. En la evaluación con expertos se aplicó el método de inspección con la combinación del recorrido cognitivo y la técnica de pensar en voz alta. En la evaluación con usuarios finales participaron estudiantes con discapacidad física, auditiva, visual y autismo. Esta evaluación consistió en dos iteraciones donde los estudiantes realizaban las actividades y se almacenaban una serie de parámetros para obtener unas conclusiones.
En último lugar, se prescindió del dispositivo Kinect y se decidió hacer un estudio enfocado en la webcam. Esta decisión se debe principalmente a la incertidumbre con el futuro del dispositivo Microsoft Kinect, reducir el coste de adquisición y facilidad de uso. Con esta premisa se ha desarrollado un sistema de reconocimiento de gestos de la mano basado en Deep Learning y Lógica Difusa para determinar los mejores modelos de clasificación. Inicialmente se obtienen los datos que van a ser usados para el posterior entrenamiento con los modelos de Deep Learning. Para este propósito se han obtenido los vídeos de una base de datos de gestos con las manos titulada 20BN-Jester. Posteriormente, se procede a usar transferencia de aprendizaje con modalidad de fine-tuning con una serie de modelos pre-entrenados para que aprendan a clasificar los gestos con las manos. En total se han realizado 104 experimentos donde se han modificado distintos parámetros, entre ellos, el optimizador, número de gestos o la función de coste. A continuación, se han obtenido unas métricas a partir de dichos experimentos que serán las que alimenten al sistema experto difuso. Este sistema experto tiene implementado el sistema Takagi-Sugeno-Kang y está formado por 11 reglas. Estas reglas van a permitir analizar cada una de las distintas configuraciones para obtener un ranking de configuraciones ordenadas de forma descendente de acuerdo con la valoración que proporcione este sistema experto difuso.
El resultado derivado de la investigación realizada en la presente tesis ha propiciado un total de 6 contribuciones científicas, 4 en congresos internacionales con publicaciones en la serie Springer en Advances in Intelligent Systems and Computing, y otras 2 contribuciones en la revista internacional de impacto Multimedia Tools and Applications (Springer, JCR Q2, Computer Science).
Para concluir, la finalización de esta tesis ha dejado abiertas las presentes líneas de investigación: (a) el desarrollo de un sistema de interacción natural que integra Microsoft Kinect Azure como medio de interacción; (b) la creación de un sistema de interacción que sea portable y se pueda acoplar en diversos escenarios; (c) el desarrollo de un sistema que sea autoadaptativo con el objetivo de que adapte los gestos a las características de los usuarios; (d) la elaboración de un sistema híbrido de Inteligencia Artificial para ofrecer un mejor rendimiento en el reconocimiento de gestos y (e) la creación de un sistema multimodal que incorpore diversos modos de interacción, por ejemplo, reconocimiento de gestos y reconocimiento de voz.