Nouvelle reconnaissance spatio-temporelle continue de la langue des signes à l'aide d'un réseau attentif multi-fonctions(1)
Jun 01, 2023
Abstrait: Compte tenu des flux vidéo, nous visons à détecter correctement les signes non segmentés liés à la reconnaissance continue de la langue des signes (CSLR). Malgré l'augmentation des méthodes d'apprentissage en profondeur proposées dans ce domaine, la plupart d'entre elles se concentrent principalement sur l'utilisation d'une seule fonctionnalité RVB, soit l'image plein cadre, soit les détails des mains et du visage. La rareté des informations pour le processus de formation CSLR limite fortement la capacité d'apprendre plusieurs fonctionnalités à l'aide de trames d'entrée vidéo. De plus, l'exploitation de toutes les images d'une vidéo pour la tâche CSLR pourrait conduire à des performances sous-optimales puisque chaque image contient un niveau d'information différent, y compris les principales caractéristiques de l'inférence du bruit. Par conséquent, nous proposons une nouvelle reconnaissance spatio-temporelle continue de la langue des signes en utilisant le réseau attentif multi-fonctions pour améliorer le CSLR en fournissant des fonctionnalités supplémentaires de points clés. De plus, nous exploitons la couche d'attention dans les modules spatiaux et temporels pour souligner simultanément plusieurs caractéristiques importantes. Les résultats expérimentaux des deux ensembles de données CSLR démontrent que la méthode proposée atteint des performances supérieures par rapport aux méthodes de pointe actuelles de 0.76 et 20.56 pour le score WER sur les ensembles de données CSL et PHOENIX, respectivement.

Cistanche aux herbes Superman
Mots clés: langue des signes continue ; spatial; temporel; multi-fonctionnalités ; points clés; attention à soi
1. Introduction
La langue des signes donne la priorité à la communication manuelle en utilisant les gestes de la main, le langage corporel et les mouvements des lèvres au lieu du son pour communiquer [1,2]. Habituellement, la langue des signes est utilisée par les personnes sourdes ou malentendantes, mais elle peut également être utilisée dans des situations où il est impossible ou difficile d'entendre des sons. Par conséquent, un système de reconnaissance de la langue des signes (SLR) est nécessaire car il aide à connecter les personnes malentendantes et celles qui ne le sont pas.
Ces dernières années, les chercheurs se sont beaucoup intéressés au SLR en raison de la richesse des informations visuelles qu'il fournit. Les études SLR récentes sont généralement regroupées en reconnaissance de la langue des signes isolée (ISLR) ou en reconnaissance continue de la langue des signes (CSLR). Plusieurs travaux ne traitent que de l'ISLR [3,4], tandis que d'autres n'analysent que des tâches plus faciles, comme les gestes statiques pour la reconnaissance de l'alphabet [5]. Pendant ce temps, les dernières méthodes sont généralement plus compliquées car elles résolvent des tâches CSLR [6–8]. Comparé à ISLR, CSLR est un problème plus difficile car il implique la reconstruction de phrases.

Thé Cistanche
Cliquez ici pour voir les produits de thé Cistanche deserticola
【Demandez plus】 E-mail :cindy.xue@wecistanche.com / Whats App : 0086 18599088692 / Wechat : 18599088692
La recherche CSLR est toujours très demandée car sa mise en œuvre est étroitement liée aux conditions quotidiennes du monde réel. Cette approche vise à reconnaître la série de gloses qui se produisent dans une série vidéo sans segmentation claire ou même pas du tout. En outre, il intègre de nombreuses recherches sur l'apprentissage automatique et une compréhension approfondie du comportement humain. Par exemple, cela implique le suivi des mouvements humains [9], la reconnaissance des gestes [10] et la reconnaissance faciale [11]. Néanmoins, l'exécution des tâches CSLR présente plusieurs défis.
Premièrement, la collecte et l'annotation des données sont coûteuses pour le CSLR [12]. C'est peut-être l'un des défis rencontrés dans son développement puisque le CSLR est impliqué dans un grand réseau et la quantité de données affecte fortement les performances [13]. De plus, plusieurs ensembles de données disponibles pour la langue des signes sont faiblement annotés [12,14,15]. Pour résoudre ce problème, de nombreuses études ont utilisé une approche faiblement supervisée, parallèlement à l'application d'un module d'alignement et d'extraction de caractéristiques à l'architecture du réseau [12].
Deuxièmement, comparé à ISLR, CSLR est plus compliqué. Des informations suffisantes sont acquises en utilisant plusieurs fonctionnalités ; il a été prouvé que cela permet d'obtenir de meilleures performances que l'utilisation d'une seule fonctionnalité, comme indiqué dans des travaux antérieurs [16-18]. Ces multiples caractéristiques consistent en la caractéristique principale qui est une image corporelle qui atteint la plus grande précision et des caractéristiques supplémentaires, telles que la pose, la tête, la main gauche et la main droite, qui ont une précision moindre pour la performance individuelle [17,18]. La formation d'un grand réseau avec une grande quantité de données prend du temps [13]. L'ajout du flux d'entrée augmente également le temps de formation, tandis que l'utilisation de fonctionnalités supplémentaires basées sur l'image augmente le coût [19]. Par conséquent, nous devons choisir des fonctionnalités importantes afin de pouvoir nous entraîner efficacement.

Cistanche aux herbes chinoises
Troisièmement, l'entrée vidéo comporte un grand nombre d'images dans la séquence. Certaines images ont une forme de main peu claire en raison du mouvement rapide, ce qui peut conduire à des informations incorrectes. Par conséquent, notre modèle proposé utilise l'auto-attention basée sur [20] pour aider à sélectionner les informations importantes. De plus, l'auto-attention prouvée par [21,22] a un impact sur l'amélioration des performances.
Par conséquent, nous proposons un nouveau modèle appelé le nouveau multi-fonctionnel attentif spatio-temporel (STAMF) pour gérer tous les problèmes. Nous avons suivi des travaux antérieurs [17,23], qui se sont avérés efficaces pour CSLR avec des problèmes d'annotation faibles. Ils construisent le modèle en utilisant trois composants principaux : le premier est le module spatial, le second est le module temporel et le troisième est le module d'apprentissage de séquence. Nous proposons une entrée multi-fonctions efficace et efficiente utilisant la fonction plein cadre ainsi que des fonctions de points clés pour effectuer des tâches CSLR. La fonction plein cadre représente l'image du corps comme caractéristique principale et les caractéristiques des points clés comme caractéristique supplémentaire. La caractéristique principale est la pose du corps, y compris le détail de la pose de la main. Cette pose du corps est la caractéristique supplémentaire la plus efficace car dans certains travaux, il a été prouvé qu'elle atteignait la plus grande précision après la fonction plein cadre [17,18]. Nous utilisons également un module d'attention qui utilise l'auto-attention basée sur [20] pour capturer la caractéristique importante et pour aider l'apprentissage de la séquence à améliorer les performances.
La contribution de ce manuscrit est résumée comme suit : • Nous introduisons une nouvelle attention temporelle dans le module de séquence pour capturer les points temporels importants qui contribuent à la sortie finale ; • Nous introduisons la fonctionnalité multiple qui consiste en la fonctionnalité plein cadre à partir de la valeur RVB du cadre en tant que fonctionnalité principale et les fonctionnalités clés qui incluent la pose du corps avec le détail de la forme de la main en tant que fonctionnalité supplémentaire pour améliorer les performances de reconnaissance du modèle ; • Nous utilisons la métrique WER pour montrer que notre modèle STAMF proposé surpasse les modèles de pointe sur les deux ensembles de données de référence CSLR à travers les expériences.

Supplément Cistanche près de moi-Améliorer la mémoire
2. Travaux connexes
Il y a eu plusieurs avancées technologiques et de nombreuses recherches ont été effectuées sur le SLR. Des études antérieures [24–27] ont exploré la possibilité d'utiliser ISLR qui a une segmentation pour chaque mot. Ces dernières années, des méthodes basées sur l'apprentissage en profondeur ont été utilisées pour extraire des caractéristiques à l'aide de réseaux convolutifs, soit 2D [28,29] ou 3D [30,31], pour leur forte représentation visuelle. La majorité des premières recherches sur la reconnaissance de la langue des signes étaient centrées sur l'ISLR avec des caractéristiques multimodales [30–32], telles que RVB, cartes de profondeur et squelettes, qui donnent de meilleures performances.
De nos jours, CSLR est devenu plus populaire, bien qu'il n'ait pas été clairement segmenté entre chaque mot. Les premiers travaux utilisent un extracteur de caractéristiques CNN [6,33] et HMM [34] pour construire la séquence cible. Certaines recherches récentes sur les systèmes CSLR [17, 23] ont inclus trois étapes principales dans l'exécution de la tâche de reconnaissance des problèmes. Ils ont d'abord procédé à l'extraction de caractéristiques spatiales, puis à la segmentation temporelle et enfin à la synthèse de phrases avec un modèle de langage [35], ou ils ont utilisé l'apprentissage de séquences [17,23]. Cet apprentissage de séquence a utilisé Bi-LSTM et CTC pour exploiter la relation entre la brillance des signes dans les séquences vidéo. Même si elle utilise une annotation faible qui a des séquences vidéo non segmentées pour définir les gloses des signes, ces approches ont montré des résultats prometteurs.
Cependant, l'étude CLSR connexe la plus récente qui a mis en œuvre une approche multi-fonctionnalités [17] a utilisé cinq fonctionnalités simultanément. L'approche multi-fonctionnalités est plus lourde que l'utilisation de moins de fonctionnalités [19]. Cette approche ne peut pas non plus gérer les images bruyantes de la séquence vidéo qui contiennent des informations peu claires, telles qu'une forme de main floue en raison d'un mouvement rapide. De plus, s'appuyer sur l'apprentissage de séquences basé sur RNN peut rencontrer des problèmes avec de longues séquences et peut perdre le contexte global [20].

Supplément Cistanche près de moi-Améliorer la mémoire
La recherche actuelle vise à améliorer les performances en ajoutant un mécanisme d'auto-attention [21,22] qui peut gérer des séquences plus longues pour apprendre le contexte global. L'attention à soi est basée sur les premières recherches [20] qui ont montré que l'attention à soi a l'avantage de pouvoir gérer de longues dépendances. Cependant, cette auto-attention est plus facile à apprendre sur un chemin plus court par rapport à un chemin plus long avec de longues dépendances. Dans les précédents travaux CLSR [21, 22], l'auto-attention pourrait aider le réseau à apprendre la fonctionnalité plus efficacement.
Par conséquent, dans cet article, nous introduisons un nouveau modèle multi-caractéristiques attentif spatio-temporel. Ce modèle proposé extrait efficacement les caractéristiques importantes et apprend mieux la séquence en donnant des informations importantes à l'aide d'un mécanisme d'auto-attention à partir de plusieurs caractéristiques. Tous les processus sont exécutés dans une approche de bout en bout.
3. Méthode proposée
Cette section détaille les techniques de base de notre modèle proposé pour CSLR. Par conséquent, nous commençons cette section en expliquant la vue d'ensemble de notre modèle proposé. De plus, nous fournissons plus de détails sur chaque composant clé, y compris le module spatial, le module temporel et le module d'apprentissage de séquence. De plus, nous expliquons également notre module d'attention proposé pour aider le modèle à mieux apprendre. Enfin, nous pouvons intégrer le cadre de formation et d'inférence dans notre modèle proposé.
3.1. Présentation du cadre
Étant donné une entrée vidéo, notre modèle proposé vise à prédire le signe correspondant dans une phrase glose correcte. Le premier module génère plusieurs caractéristiques spatiales, telles que des caractéristiques plein cadre et des points clés pour chaque image T de la vidéo. Ensuite, le module temporel nous permet d'extraire les corrélations temporelles des caractéristiques spatiales entre les trames pour les deux flux. Dans une dernière étape, les réseaux spatiaux et temporels ont été liés à la mémoire bidirectionnelle à long-court terme (Bi-LSTM) et au CTC pour l'apprentissage et l'inférence de séquences. Ensuite, nous expliquons nos principaux composants plus en détail et consécutivement. La vue d'ensemble de notre architecture proposée est illustrée à la figure 1.

Figure 1. L'architecture globale de la méthode proposée se compose de trois composants : un module spatial, un module temporel et un module d'apprentissage de séquence. Le module spatial prend d'abord la séquence d'images pour extraire les caractéristiques par image, puis applique le module temporel pour extraire les caractéristiques temporelles. Ensuite, les caractéristiques temporelles sont envoyées au module d'apprentissage de séquences pour effectuer la prédiction de mots et les construire en une phrase.
3.2. Module spatial
Le module spatial exploite une fonctionnalité plein cadre et des fonctionnalités de points clés, comme le montre la figure 2. Ce module utilise l'architecture de réseau 2D-CNN comme épine dorsale, et ResNet50 est choisi pour capturer les fonctionnalités multiples. ResNet50 est plus efficace à utiliser par rapport à l'architecture ResNet récente en termes de temps tout en ayant un résultat comparable [36,37]. Le RVB utilise directement ResNet50, tandis que le point clé est obtenu par HRNet [38] à partir de l'image vidéo et est extrait à l'aide de ResNet50 pour obtenir les caractéristiques du point clé.

Figure 2. L'architecture du module spatial utilise une entrée multiflux. Flux RVB en tant que fonctionnalité plein cadre et flux de points clés en tant que fonctionnalité de points clés.
3.2.1. Fonction plein format
Nous avons appliqué nos étapes de prétraitement aux données RVB, puis nous avons introduit nos données dans le modèle. Nous les avons ensuite mis en entrée plein format dans notre architecture. La figure 3 montre l'illustration de l'image RVB d'origine sur le côté gauche et l'image recadrée sur le côté droit. L'image recadrée est utilisée comme entrée par le modèle. Cela illustre l'étape de prétraitement qui réduit les parties les moins importantes de l'image et met davantage l'accent sur le signataire. Ce recadrage utilise une méthode de recadrage aléatoire de [12] pour augmenter l'ensemble de données. La fonctionnalité plein cadre est extraite de l'image recadrée pour chaque image de la séquence à l'aide du ResNet50.

Figure 3. Fonction plein cadre utilisant une image RVB, l'(image de gauche) est l'image d'origine et l'(image de droite) est l'image recadrée à ajuster avec le modèle proposé
3.2.2. Fonctionnalités clés
Nous avons extrait les caractéristiques des points clés dans le module spatial à partir des données RVB pour chaque image de l'entrée vidéo. La qualité des caractéristiques des points clés joue un rôle important dans notre modèle proposé, nous devons donc utiliser une approche robuste, telle que HRNet [38]. Nous avons utilisé HRNet pré-formé [38] pour estimer tous les 133 points clés du corps, et nous avons utilisé 27 des 133 points clés de son résultat. Comme le montre la figure 4, le côté gauche correspond au point clé original du haut du corps et le côté droit correspond aux 27 points clés sélectionnés du haut du corps. Ces 27 points clés incluent les poignets, les coudes, les épaules, le cou, les mains et les doigts.

Figure 4. Caractéristiques des points clés de l'ensemble de données PHOENIX-RWTH [33,39], (image de gauche) extraction de l'image RVB, et (image de droite) est le point clé sélectionné utilisé par le modèle proposé.
3.3. Module temporel
Le module temporel vise à apprendre des informations spatio-temporelles du module spatial. Les modules temporels sont construits par regroupement temporel empilé pour chaque flux. Comme le montre la figure 5, le module de regroupement temporel se compose d'une couche de convolution temporelle et d'une couche de regroupement pour extraire des caractéristiques à partir d'entrées séquentielles.

Figure 5. L'architecture du module temporel se compose d'un 1D-CNN empilé et d'une couche de regroupement intégrée avec un module d'attention. Travaillez en parallèle pour les deux flux d'entités concaténés à la fin des couches empilées et produisez une seule entité temporelle avec une longueur de séquence quatre fois plus petite.
L'entrée est une liste de multi-caractéristiques spatiales de l'étape précédente. La caractéristique temporelle est obtenue à l'aide de la couche de convolution temporelle qui est une seule couche convolutive 1D avec les mêmes longueurs d'entrée et de sortie, suivie d'une seule couche de regroupement qui réduit la taille de moitié. L'utilisation de ces deux couches de regroupement temporel empilé est la meilleure configuration, selon les travaux précédents [12]. Après chaque mise en commun temporelle, nous intégrons un module d'attention qui sera expliqué en détail dans la section 3.4. En fin de compte, nous concaténons la sortie de la mise en commun temporelle des deux flux.
3.4. Module Attention
La vidéo comporte plusieurs images où certaines parties de l'image sont parfois floues. Le jeu de données RTWH-PHOENIX [33,39] a plus de trames défectueuses que le jeu de données CSL [8,40,41]. Cela se produit lorsque le mouvement est trop rapide, créant une image floue et entraînant un mauvais emplacement du point clé. Cette image est considérée comme défectueuse et peut entraîner une mauvaise interprétation des caractéristiques RVB et des points clés. La figure 6 montre une illustration des trames défectueuses dans le jeu de données RTWH-PHOENIX [33]. Afin de traiter ce problème, nous avons ajouté une couche d'attention.

Figure 6. Illustration des trames défectueuses sur le jeu de données RWTH-PHOENIX [33,39]. Certains des points clés de la zone de la main sont dans la mauvaise position en raison d'images floues.
À l'aide de l'algorithme CTC, l'alignement du chemin avec son étiquetage est effectué en utilisant une étiquette vierge et en supprimant les étiquettes de répétition. CTC préfère prédire les étiquettes vierges plutôt que les limites de brillance lorsqu'il ne peut pas distinguer la limite de brillance, mais aucun des résultats n'est convaincant. Cela conduit le réseau à utiliser CTC pour produire des pics de résultats lors de l'analyse, de l'apprentissage et de la prédiction [42,43]. Généralement, la perte CTC recherche les images clés, et le dernier résultat est la prédiction d'une image clé particulière qui a une forte probabilité d'être une étiquette vierge ou une étiquette non vierge. Si le brillant prédit la même étiquette ou étiquette vierge consécutivement, il en résulte la même sortie. Cependant, s'il y a une étiquette d'insertion entre la même étiquette, même s'il n'y a qu'une seule erreur, cela entraîne une perte beaucoup plus importante. Ici, l'ajout d'une couche d'attention aide à sélectionner la séquence temporelle importante avant d'être utilisée pour l'apprentissage séquentiel.
Le module d'attention utilise un mécanisme d'auto-attention multi-têtes [20]. Le module multi-têtes est utilisé pour exécuter plusieurs mécanismes d'attention parallèles en même temps. L'attention multi-tête fonctionne indépendamment pour se concentrer sur les dépendances à court terme ou les dépendances à long terme dans une tête séparée. Chaque sortie est ensuite concaténée linéairement et transformée en la forme souhaitée.
Parallèlement, le mécanisme d'auto-attention multi-têtes prend en charge les informations provenant de plusieurs sous-espaces de représentation, en fonction de l'historique des observations. Pour simplifier, nous désignons les séquences d'entrée par X. Mathématiquement, pour le modèle d'attention à tête unique, étant donné l'entrée X t − T plus 1 : t=[X t − T plus 1, · · ·, X t ] ∈ RT × N × P, trois sous-espaces sont obtenus, à savoir le sous-espace requête Q ∈ RN ×dq, le sous-espace clé K ∈ RN × dk et le sous-espace valeur V ∈ RN × dv. Le processus d'apprentissage du sous-espace latent peut être formulé comme [20] :
Q=XWQ, K=XWK , V=XWV ,
Ensuite, l'attention du produit scalaire mise à l'échelle est utilisée pour calculer la sortie d'attention comme [20] :
Attention(Q, K, V)=donc f tmaxQKT/ p dkV,
De plus, si nous avons plusieurs têtes qui suivent simultanément les multiples représentations de l'entrée, nous pouvons obtenir des résultats plus pertinents en même temps. La dernière étape consiste à concaténer toutes les têtes et à les projeter à nouveau pour calculer le score final [20] :
MultiHead(Q,K,V)=Concat(head1,..., heads )WO,
tête=Attention(Qi, Ki, Vi),
où Qi=XWQ i , Ki=XWVi et WO ∈ R hd × dmodel. Enfin, il peut sélectionner la partie importante de la séquence d'entités car toutes les informations de la séquence ne sont pas importantes.
Comme le montre la figure 7, nous utilisons le module d'attention dans plusieurs configurations. Le premier module d'attention est placé à l'extrémité du module spatial, tandis que les deuxième et troisième modules d'attention sont placés dans le module temporel. Le deuxième module d'attention appelé module temporel précoce, est placé après le premier bloc de regroupement temporel en entrée, tandis que le troisième module d'attention temporel, appelé module d'attention temporel tardif, est placé après le deuxième bloc de regroupement temporel.

Figure 7. Les modules d'attention sont intégrés dans des modules spatiaux et temporels dans différentes configurations.






