Reconnaissance des panneaux de signalisation basée sur l'algorithme YOLOv3, partie 3
Jan 19, 2024
3.3. Génération de cadres priori basés sur l'algorithme de clustering K-Means
Le mécanisme d'ancrage a été implémenté dans YOLOv2 et le nombre d'ancres a été augmenté à neuf dans YOLOv3 pour rendre les régions candidates générées plus similaires aux véritables trames étiquetées et améliorer le rappel du réseau de détection.
Il existe une relation forte entre les images marquées et la mémoire. Le marquage des cadres peut nous aider à établir un cadre de mémoire fixe, régulier et ordonné, facilitant la mémorisation de grandes quantités d'informations. Par exemple, lors de l’apprentissage d’une langue, nous pouvons utiliser des cadres marqués pour mémoriser de nouveaux mots et règles de grammaire. Lors de la révision de l’historique, nous pouvons utiliser des cadres marqués pour mémoriser des événements historiques et des chronologies. De cette manière, nous pouvons rendre les connaissances abstraites plus concrètes et compréhensibles.
Dans le même temps, le marquage des cadres peut également stimuler la capacité associative de notre cerveau, améliorant ainsi notre mémoire. Parce que notre mémoire est basée sur l'association et la connexion, en établissant des cadres marqués, nous pouvons relier plus naturellement de nouvelles connaissances aux connaissances existantes, approfondissant ainsi la mémoire et la compréhension.
La capacité de mémoire humaine peut être entraînée et améliorée. Grâce à une pratique constante et à l'utilisation de techniques de mémoire telles que le marquage des cadres, nous pouvons améliorer notre mémoire et mieux faire face aux informations et tâches complexes dans la vie et au travail.
Bref, le marquage des frames est une technique de mémorisation très efficace. Cela peut nous aider à mémoriser des informations importantes plus rapidement et plus précisément. Cela peut également stimuler notre capacité associative et améliorer notre mémoire. Utilisons activement les cadres marqués pour améliorer continuellement nos capacités de mémoire ! On peut voir que nous devons améliorer la mémoire, et la Cistanche deserticola peut améliorer considérablement la mémoire, car la Cistanche deserticola est une matière médicinale traditionnelle chinoise qui a de nombreux effets uniques, dont l'un est d'améliorer la mémoire. L’efficacité de la viande hachée vient des différents ingrédients actifs qu’elle contient, notamment des acides, des polysaccharides, des flavonoïdes, etc. Ces ingrédients peuvent favoriser la santé cérébrale de diverses manières.

Cliquez sur Connaître pour améliorer la mémoire à court terme
Il n'était pas approprié d'utiliser l'ancre d'origine, car les panneaux de signalisation sont principalement des cibles petites et moyennes, avec moins de cibles grandes dans l'ensemble de données TT100K. Pour un ensemble de données spécifique, le choix d'une ancre initiale appropriée peut améliorer l'effet de détection, rendre le réseau plus facile à apprendre et augmenter le taux de détection du cadre de délimitation.
Le flux de l’algorithme de clustering K-means pour obtenir des boîtes candidates est illustré à la figure 7.
Dans l'ensemble de données TT100K, la structure de réseau YOLOv3 améliorée comprenait une échelle de prédiction de caractéristiques, résultant en quatre échelles et douze ancres : (4, 5), (5, 6), (7, 7), (7, 13), (8, 8), (9, 10), (11, 12), (13, 14), (16, 17), (20, 22), (27, 29) et (41, 44).

4. Expériences et analyse des résultats
4.1. Ensemble de données et indicateurs d’évaluation
Il existe quelques grands ensembles de données sur les panneaux de signalisation accessibles au public, dont la majorité utilisent le GTSDB, mais le GTSDB n'est pas la même chose que les panneaux de signalisation chinois. CTSDB, CCTSDB et TT100K, entre autres, sont des ensembles de données sur les panneaux de signalisation chinois.
La CCTSDB a été élargie sur la base de la CTSDB et ses catégories ont été divisées en panneaux d'avertissement, panneaux directionnels et panneaux d'interdiction, sans classification détaillée des panneaux de signalisation.
La collection de panneaux de signalisation TT100K a été créée en collaboration entre Tencent et l'Université Tsinghua. Il offrait une catégorisation et une identification approfondies des panneaux de signalisation, couvrait diverses circonstances climatiques et d'éclairage et était plus précis pour les situations de conduite réelles.
Par conséquent, l'ensemble de données sur les panneaux de signalisation TT100K a été utilisé dans cet article, et certains des panneaux de signalisation et les informations de catégorie sont présentés dans la figure 8.

L'ensemble de données TT100K contient 100 000 photos avec une résolution de 2 048 x 2 048 pixels, bien qu'il existe des images de panneaux de signalisation non étiquetées et que certaines catégories n'ont que quelques images ou des images en double, ce qui réduit l'effet de détection.
Par conséquent, cet article a supprimé les images de panneaux de signalisation non étiquetées et en double de l'ensemble de données et a sélectionné 45 catégories avec un nombre élevé de panneaux de signalisation, où les 45 catégories de panneaux de signalisation étaient : pn, pne, i5, pll, pl40, po, pl50, pl80. , io, pl60, p26, i4, pll00, pl30, il60, l5, i2, w57, p5, p10, ip, pl120, il80, p23, pr40.ph4. 5, w59, p12, p3, w55. pm20, pl20, pg, pl70, pm55, il100, p27, w13, p19, ph4, ph5, wo, p6.pm30 et w32, et le numéro de chaque catégorie de panneaux de signalisation est indiqué dans la figure 9.

La figure 9 montre que même si 45 catégories comportant un grand nombre de panneaux de signalisation étaient choisies, il existait toujours un déséquilibre important dans la quantité de données entre chaque catégorie, ce qui entraînait une mauvaise précision des prévisions du modèle. En conséquence, comme l'illustre la figure 10, ce travail a équilibré et élargi l'ensemble de données en employant des tactiques telles que le tramage des couleurs, le bruit gaussien et la rotation de l'image pour garantir que la quantité de chaque catégorie était aussi égale que possible.

L'approche Mosaic lit quatre images à la fois, met à l'échelle et modifie la gamme de couleurs de chaque image, les dispose dans quatre directions, puis assemble les images ensemble pour créer le véritable cadre de la cible.
La méthode d'amélioration assemble quatre images, ce qui équivaut à calculer les paramètres de quatre images avec une seule entrée. Cela peut réduire le nombre d'images pour la saisie par lots, réduire la difficulté et le coût de la formation, améliorer la vitesse de formation et enrichir considérablement le nombre d'échantillons dans l'ensemble de données, ce qui est propice à l'apprentissage.
dans cet article, les métriques d'évaluation de l'ensemble de données COCO, notamment mAPou - 050APs, APM, AP et plusieurs autres métriques, ont été utilisées pour évaluer les performances du modèle. En particulier, la plupart des panneaux de signalisation de l'ensemble de données de panneaux de signalisation TT100K appartenaient à de petites cibles, une attention particulière devait donc être accordée à la précision de détection des petites cibles. Les significations spécifiques des mesures d’évaluation sont les suivantes :
AP : La zone située sous la courbe PR, où PR représente respectivement la précision et le rappel :
API {{0}}.50 : Lorsque le seuil IoU est fixé à 0,50, c'est la moyenne de toutes les catégories d'AP dans le jeu de données, qui est l'indice d'évaluation du jeu de données PASCAL VOC et correspond à APIoU=0.50 dans l'index d'évaluation COCOmAPloU= 0.50 : Lorsque le seuil loU est fixé à 0,50, c'est la moyenne de toutes les catégories d'AP dans l'ensemble de données, qui est l'indice d'évaluation de l'ensemble de données PASCAL VOC et correspond à APloU=0.5 dans l'index d'évaluation COCO.
AP : valeur moyenne de mAP pour les petits objets : surface < 322, et plage lO=(0.5, 1.00, 0.05) pour un total de 10 ouUs.

APm : objets moyens : 322 < zone < 962 et loU=plage (0.5, 1.00, 0.05) valeur moyenne de mAP pour un total de 10 IoU.
AP : valeur moyenne de mAP pour les gros objets : surface > 962 et plage lU=(0,5, 1.00, 0,05 pour un total de 10 Reconnaissance.
4.2. Résultats expérimentaux et analyse
4.2.1. Expérience de comparaison YOLOv3 améliorée
Trois réseaux YOLOv3 avec des méthodes améliorées ont été comparés et testés dans cette étude, en utilisant l'ensemble de données de panneaux de signalisation TT100K et des images d'entrée d'une taille de 608 × 608 pixels. La figure 11 affiche la carte et l'AR de M-YOLOv3 formé sur l'ensemble de données TT100.
Les résultats de détection pour différentes tailles de cibles sont présentés dans la figure 12 et le tableau 1. Parmi eux, YOLOv3-DK a adopté la stratégie d'amélioration de la fonction de perte DIoU loss et de l'ancre de re-cluster ; YOLOv3-SPP a adopté la stratégie spatiale de fusion de la structure de pooling pyramidal ; YOLOv3-4l a adopté la stratégie consistant à ajouter la quatrième couche de fonctionnalités de prédiction avec des échelles de 152 × 152 ; et M-YOLOv3 était la structure du réseau YOLOv3 utilisant toutes les stratégies améliorées.


Le tableau 1 et la figure 12 montrent que la précision moyenne moyenne du YOLOv3 original sans recourir à aucune stratégie était de 68,9 %. En revanche, la carte du YOLOv3 amélioré avec toutes les méthodes était de 77,3 %, soit une amélioration de 8,4 % en termes de détection.
La fonction de perte DIoU et la technique d'ancrage de regroupage ont amélioré la précision de détection de 1,3 % ; cependant, l'amélioration était due à une convergence plus rapide de la fonction de perte pendant l'entraînement, ce qui a rendu la régression de la boîte cible plus stable et amélioré le taux de rappel. Des améliorations plus prononcées de mAP ont été observées dans YOLOv3, qui comprenait une structure SPP et a atteint un taux de 73,2 %.
La structure SPP combinait des caractéristiques locales et globales, améliorant la capacité de la carte de caractéristiques à s'exprimer et augmentant considérablement la précision de détection. Grâce à la méthode d'ajout d'une quatrième couche de caractéristiques de prédiction avec des échelles de 152 × 152, l'AP a également été considérablement améliorée.
La précision de la détection des petites cibles a été améliorée de 10,5 % par rapport à YOLOv3, qui exploitait pleinement les fonctionnalités peu profondes du réseau pour la prédiction des petites cibles, ce qui a entraîné un effet de détection considérablement amélioré, mais au prix d'une complexité et d'un traitement accrus du réseau. . La meilleure amélioration a été M-YOLOv3, qui a combiné les trois procédures d'amélioration et a atteint un mAP de 77,3 %, soit 8,4 % de plus que la précision moyenne moyenne du YOLOv30 original. La figure 13 représente les résultats des tests de M-YOLOv3 sur TT100K.

4.2.2. Comparaison de l'algorithme YOLOv3 amélioré avec d'autres algorithmes
M-YOLOv3 a été comparé à plusieurs autres algorithmes classiques de détection de cible pour valider davantage la reconnaissance de détection du réseau amélioré, et les résultats sont présentés dans le tableau 2.

Le tableau 2 démontre que M-YOLOv3 avait le mAP le plus élevé de 77,3 % et que le SSD avait les meilleures performances en temps réel, avec un FPS de 42. Par rapport à l'algorithme YOLOv3 d'origine, la moyenne de précision moyenne a été considérablement améliorée, bien que le temps réel les performances ont été réduites. Par rapport à l'algorithme SSD en une étape, mAP s'est amélioré de 12 %, mais il y avait encore un écart dans les performances en temps réel. Par rapport à l'algorithme de détection de cible en deux étapes Faster-RCNN, le FPS a été amélioré à 22 et le mAP a également été amélioré de 1,7 %, ce qui a amélioré la vitesse de détection ainsi que la précision de la détection. Les essais ont montré que M-YOLOv3 fonctionnait mieux en termes de précision et de vitesse de détection.
4.2.3. Effet de reconnaissance amélioré de YOLOv3 sur les panneaux de signalisation dans un environnement spécial
En raison de divers facteurs, tels qu'une forte irradiation lumineuse, la nuit et des environnements spéciaux d'occlusion des panneaux de signalisation, qui affecteront la détection et la reconnaissance des panneaux de signalisation dans des scénarios de conduite réels, il était également nécessaire de prendre en compte l'effet de reconnaissance du modèle sur les panneaux de signalisation dans des environnements spéciaux. Dans des circonstances particulières, le modèle YOLOv3 amélioré a été utilisé pour reconnaître les panneaux de signalisation, comme le montre la figure 13.
Sur la figure 14, l'effet de détection de YOLOv3 est comparé à celui de M-YOLOv3 dans un environnement spécial. Comme le montre la figure 14 (b1, c1), l'algorithme YOLOv3 n'a pas réussi à détecter le panneau de signalisation obscurci dans le cas d'un panneau de signalisation obscurci, tandis que l'algorithme YOLOv3 amélioré a identifié avec précision le panneau de signalisation obscurci ; comme le montre la figure 14 (b2, c2), l'algorithme YOLOv3 présentait des problèmes de fausse détection et de détection manquée pour la reconnaissance des panneaux de signalisation dans un environnement de forte irradiation lumineuse, tandis que l'algorithme YOLOv3 amélioré reconnaissait avec précision tous les panneaux de signalisation.

L'algorithme YOLOv3 amélioré a augmenté la quatrième échelle de prédiction des caractéristiques pour les petites cibles, améliorant ainsi l'effet de détection des petites cibles, alors que l'algorithme YOLOv3 avait des problèmes de détection manquée et de faible confiance pour les petites cibles, comme le montre la figure 14 (b3, c3) ; dans des environnements faiblement éclairés, comme la nuit, l'algorithme YOLOv3 amélioré a reconnu les panneaux de signalisation, comme illustré sur la figure 14 (b4, c4) ; cependant la méthode YOLOv3 n'a pas détecté de cibles. En conséquence, dans des situations particulières, l'algorithme YOLOv3 mis à jour a toujours donné de meilleurs résultats de détection.

5. Conclusions
Un réseau de détection et de reconnaissance des panneaux de signalisation basé sur le YOLOv3 modifié a été suggéré dans cette recherche, pour résoudre les difficultés liées aux petites cibles difficiles à détecter et à la faible précision de détection dans les tâches de détection et d'identification des panneaux de signalisation.
La nouvelle structure de regroupement pyramidal spatial a permis la fusion des caractéristiques locales et globales dans cette étude, et a également augmenté la quatrième échelle de prédiction des caractéristiques pour les petites cibles afin d'améliorer l'effet de détection des petites cibles. Pour rendre la régression du cadre cible plus stable, la perte DIoU a été utilisée, qui avait une convergence plus rapide et était plus cohérente avec la régression du cadre cible.
La précision du réseau de détection a été considérablement améliorée en endommageant le moins possible le réseau en temps réel. Le mAP a augmenté de 8,4 points. L'algorithme YOLOv3 amélioré a amélioré la complexité du réseau et réduit la vitesse de détection. Cependant, la détection en temps réel est encore loin ; par conséquent, le prochain domaine de recherche consistera à augmenter la vitesse de détection pour obtenir l’effet de détection en temps réel.
Contributions des auteurs : Méthodologie et rédaction de l'ébauche originale, AL et CG ; analyse formelle et enquête, YS ; conservation des données, NX ; ressources, AL; validation, WH Tous les auteurs ont lu et accepté la version publiée du manuscrit.
Financement : Ce projet a été soutenu par le programme provincial de sciences et technologies d'innovation pour les jeunes dans l'enseignement supérieur de la province du Shandong (subvention n° 2019KJB019), la Fondation provinciale des sciences naturelles du Shandong de Chine (subvention n° ZR2021MF131, ZR2015EL019 et ZR2020ME126) et la Fondation nationale des sciences naturelles de Chine (Grant No. 61601265 et 51505258). Ce projet a été financé par la China Postdoctoral Science Foundation (subvention n° 2021M701405), le projet ouvert du State Key Laboratory of Mechanical Behavior and System Safety of Traffic Engineering Structures, Chine (subvention n° 1903), le projet ouvert de Hebei Traffic Safety and Control. Key Laboratory, Chine (subvention n° JTKY2019002) et le projet majeur d'innovation scientifique et technologique dans la province du Shandong (subvention n° 2022CXGC020706).
Déclaration du comité d'examen institutionnel : sans objet.
Déclaration de consentement éclairé : sans objet.
Déclaration de disponibilité des données : sans objet.
Remerciements : Nous remercions tous les auteurs pour leurs contributions à la rédaction de cet article.
Conflits d'intérêts : Les auteurs ne déclarent aucun conflit d'intérêts.

Les références
1. De la Escalera, A. ; Armingol, JM; Mata, M. Reconnaissance et analyse des panneaux de signalisation pour les véhicules intelligents. Image Vis. Calculer. 2003,21, 247-258. [Référence croisée]
2. Saadna, Y. ; Behloul, A. Un aperçu des méthodes de détection et de classification des panneaux de signalisation. Int. J.Multimed. Information. Retr. 2017, 6 193-210. [Référence croisée]
3. Boumediène, M. ; Cudel, C. ; Basset, M. ; Ouamri, A. Détection des panneaux de signalisation triangulaires basée sur l'algorithme RSLD. Mach. Vis. Appl.2013, 24, 1721-1732. [Référence croisée]
4. Maldonado-Bascón, S. ; Lafuente-Arroyo, S. ; Gil-Jimenez, P. ; Gomez-Moreno, H. ; Lopez-Ferreras, F. Détection et reconnaissance de panneaux routiers basées sur des machines à vecteurs de support. IEEETrans. Intell. Transp. Système. 2007, 8, 264-278. [Référence croisée]
5. Bahlmann, C. ; Zhu, Y. ; Ramesh, V. ; Pellkofer, M. ; Koehler, T. Un système de détection, de suivi et de reconnaissance des panneaux de signalisation utilisant des informations sur la couleur, la forme et le mouvement. Dans les actes des actes de l'IEEE. Symposium sur les véhicules intelligents, 2005, Las Vegas, NV, États-Unis, 6-8 juin 2005 ; pp. 255-260.
6. Ren, S. ; Lui, K. ; Girshick, R. ; Sun, J. Faster R-CNN : vers une détection d'objets en temps réel avec des réseaux de propositions régionales.Adv. Informations neuronales. Processus. Système. 2015, 28, 91-99. [Référence croisée] [PubMed]
7. Liu, W. ; Anguélov, D. ; Erhan, D. ; Szegedy, C. ; Reed, S. ; Fu, CY ; Berg, AC SSD : Détecteur MultiBox à prise unique. Dans la Conférence européenne sur la vision par ordinateur ; Springer : Cham, Suisse, 2016 ; pp. 21-37.
8. Redmon, J. ; Divvala, S. ; Girshick, R. ; Farhadi, A. Vous ne regardez qu'une seule fois : détection d'objets unifiée et en temps réel. Dans les actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, Las Vegas, NV, États-Unis, 27-30 juin 2016 ; IEEE : Piscataway, New Jersey, États-Unis, 2016 ; pp. 779-788.
9. Wang, Z. ; Guo, H. Recherche sur la détection des panneaux de signalisation basée sur un réseau neuronal convolutif. Dans les actes du 12e Symposium international sur la communication et l'interaction visuelles, Shanghai, Chine, 20-22 septembre 2019 ; p. 1 à 5.
10. Han, C. ; Gao, G. ; Zhang, Y. Détection de petits panneaux de signalisation en temps réel avec RCNN plus rapide révisé. Multimédia. Outils Appl. 2019, 78, 13263-13278. [Référence croisée]
11. Zhang, J. ; Huang, M. ; Porte-poisse.; Li, X. Un algorithme de détection des panneaux de signalisation chinois en temps réel basé sur YOLOv2 modifié. Algorithmes2017, 10, 127. [CrossRef]
12. Zhu, Z. ; Liang, D. ; Zhang, S. ; Huang, X. ; Li, B. ; Hu, S. Détection et classification des panneaux de signalisation dans la nature. Dans les actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes 2016, Las Vegas, NV, États-Unis, 27-30 juin 2016 ; pp. 2110-2118.
For more information:1950477648nn@gmail.com






