Recherche avancée sur les thèses de l'INSA de Lyon


Berlemont, Samuel. Automatic non linear metric learning : Application to gesture recognition [en ligne]. Thèse. Villeurbanne : Institut National des Sciences Appliquées de Lyon, 2016. Disponible sur : http://theses.insa-lyon.fr/publication/2016LYSEI014/these.pdf


Domaine(s) : D02 - Informatique
Indice Dewey : 006.307 2
Langue : Anglais
Mots-clés : Informatique, Informatique ambiante, Reconnaissance de gestes, Apprentissage automatique, Apprentissage métrique, Réseau de neurones artificiels, Reseau siamois, Capteur inertiel, Système micro électromécanique - MEMS, Information technology, Ubiquitous computing, Artifical intellligence, Gesture recognition, Machine learning, Metric learning, Artificial neural network, Inertial sensor, Siamese network, MEMS - Micro Electro Mechanical System



Directeur(s) de thèse : Garcia, Christophe ; Duffner, Stefan ; Lefebvre, Grégoire
Etablissement de soutenance : INSA de Lyon
Etablissement de co-tutelle : Université de Lyon - 2015-...., École Doctorale d'Informatique et Mathématiques - Lyon
Laboratoire : Université de Lyon - 2015-...., École Doctorale d'Informatique et Mathématiques - Lyon, Institut national des sciences appliquées de Lyon - Lyon, LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information - Lyon, Rhône, Ecole(s) Doctorale(s) : École Doctorale d'Informatique et Mathématiques (Lyon), Partenaire(s) de recherche : Institut national des sciences appliquées de Lyon (Lyon) (établissement opérateur d'inscription), LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Lyon, Rhône) (Laboratoire), Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS (Laboratoire), Autre(s) contribution(s) : Denis Pellerin (Président du jury) ; Christophe Garcia, Stefan Duffner, Denis Pellerin, Thierry Chateau, Michel Paindavoine, Grégoire Lefebvre, Nicolas Thome (Membre(s) du jury) ; Thierry Chateau, Michel Paindavoine (Rapporteur(s))
Numéro national de thèse : 2016LYSEI014
Date de soutenance : 2016

Accès au format Numérique libre, PDF
Accès
au format papier, disponiblités des exemplaires

Droits réservés, utilisation gratuite, conditions générales



Résumé français : Cette thèse explore la reconnaissance de gestes à partir de capteurs inertiels pour Smartphone. Ces gestes consistent en la réalisation d'un tracé dans l'espace présentant une valeur sémantique, avec l'appareil en main. Notre étude porte en particulier sur l'apprentissage de métrique entre signatures gestuelles grâce à l'architecture "Siamoise" (réseau de neurones siamois, SNN), qui a pour but de modéliser les relations sémantiques entre classes afin d'extraire des caractéristiques discriminantes. Cette architecture est appliquée au perceptron multicouche (MultiLayer Perceptron). Les stratégies classiques de formation d'ensembles d'apprentissage sont essentiellement basées sur des paires similaires et dissimilaires, ou des triplets formés d'une référence et de deux échantillons respectivement similaires et dissimilaires à cette référence. Ainsi, nous proposons une généralisation de ces approches dans un cadre de classification, où chaque ensemble d'apprentissage est composé d une référence, un exemple positif, et un exemple négatif pour chaque classe dissimilaire. Par ailleurs, nous appliquons une régularisation sur les sorties du réseau au cours de l'apprentissage afin de limiter les variations de la norme moyenne des vecteurs caractéristiques obtenus. Enfin, nous proposons une redéfinition du problème angulaire par une adaptation de la notion de sinus polaire , aboutissant à une analyse en composantes indépendantes non-linéaire supervisée. A l'aide de deux bases de données inertielles, la base MHAD (Multimodal Human Activity Dataset) ainsi que la base Orange, composée de gestes symboliques inertiels réalisés avec un Smartphone, les performances de chaque contribution sont caractérisées. Ainsi, des protocoles modélisant un monde ouvert, qui comprend des gestes inconnus par le système, mettent en évidence les meilleures capacités de détection et rejet de nouveauté du SNN. En résumé, le SNN proposé permet de réaliser un apprentissage supervisé de métrique de similarité non-linéaire, qui extrait des vecteurs caractéristiques discriminants, améliorant conjointement la classification et le rejet de gestes inertiels.


English abstract : As consumer devices become more and more ubiquitous, new interaction solutions are required. In this thesis, we explore inertial-based gesture recognition on Smartphones, where gestures holding a semantic value are drawn in the air with the device in hand. In our research, speed and delay constraints required by an application are critical, leading us to the choice of neural-based models. Thus, our work focuses on metric learning between gesture sample signatures using the "Siamese" architecture (Siamese Neural Network, SNN), which aims at modelling semantic relations between classes to extract discriminative features, applied to the MultiLayer Perceptron. Contrary to some popular versions of this algorithm, we opt for a strategy that does not require additional parameter fine tuning, namely a set threshold on dissimilar outputs, during training. Indeed, after a preprocessing step where the data is filtered and normalised spatially and temporally, the SNN is trained from sets of samples, composed of similar and dissimilar examples, to compute a higher-level representation of the gesture, where features are collinear for similar gestures, and orthogonal for dissimilar ones. While the original model already works for classification, multiple mathematical problems which can impair its learning capabilities are identified. Consequently, as opposed to the classical similar or dissimilar pair; or reference, similar and dissimilar sample triplet input set selection strategies, we propose to include samples from every available dissimilar classes, resulting in a better structuring of the output space. Moreover, we apply a regularisation on the outputs to better determine the objective function. Furthermore, the notion of polar sine enables a redefinition of the angular problem by maximising a normalised volume induced by the outputs of the reference and dissimilar samples, which effectively results in a Supervised Non-Linear Independent Component Analysis. Finally, we assess the unexplored potential of the Siamese network and its higher-level representation for novelty and error detection and rejection. With the help of two real-world inertial datasets, the Multimodal Human Activity Dataset as well as the Orange Dataset, specifically gathered for the Smartphone inertial symbolic gesture interaction paradigm, we characterise the performance of each contribution, and prove the higher novelty detection and rejection rate of our model, with protocols aiming at modelling unknown gestures and open world configurations. To summarise, the proposed SNN allows for supervised non-linear similarity metric learning, which extracts discriminative features, improving both inertial gesture classification and rejection.