Améliorer la sécurité routière grâce au Machine Learning

Le Machine Learning est désormais appliquée sur des domaines divers et variés. Il est très encourageant de savoir que ce domaine trouve application dans l’amélioration de la sécurité routière. Profiter des données d’accidentologie pour améliorer les futures générations de voitures est une idée qui a trouvé son chemin pour les constructeurs automobiles. Au lieu de simuler les risques potentiels d’un accident via les crash-tests, l’Open Data nous permet aujourd’hui de révolutionner la prévention des risques d’accidents et le renforcement de la sécurité des véhicules. Il est beaucoup moins cher et plus intelligent de s’appuyer sur des données issues de la vie réelle, relevées sur place par les forces de l’ordre. Les modèles prédictifs de Machine Learning permettent d’évaluer le risque selon les circonstances de l’accident ainsi que le profil de(s) conducteur(s).

Cet article est fait en collaboration avec Zaid Ouni (1), Consultant Data Scientist, Docteur en Mathématiques appliquées  et ancien membre du laboratoire d’accidentologie et de biomécanique du groupe PSA. Il nous a présenté sa thèse (2) qui avait comme thème l’accidentologie et l’anticipation des risques d’accidents de la route.

La Data Science dans le domaine de l’accidentologie 

L’accidentologie se définit comme la science d’étude des causes des accidents. L’objectif est d’utiliser des méthodes statistiques pour améliorer les normes de sécurité des prochaines générations de voitures. L’idée est d’exploiter une masse de données sur les accidents routiers pour identifier de manière intelligente les points à améliorer. Le constructeur automobile s’appuie habituellement sur des crash-tests qui essaient de simuler ce qui peut se produire dans un accident mais il n’y a pas mieux que des données issues directement de la vie réelle.

Les études d’accidentologie s’appuient sur les données nationales d’accidents corporels de la route appelées BAAC (3) croisées avec les données du parc automobile afin d’associer une classe de génération à chaque voiture.

Les données BAAC sont des relevés réalisées par les forces de l’ordre qui décrivent les circonstance d’un un accident impliquant au moins un blessé léger. Elles donnent des informations sur les caractéristiques de l’accident et son lieu, les véhicules impliquées et leurs victimes.

En ce qui concerne la classe de génération. Elle est définie par la silhouette de la voiture (citadine, berline, etc), sa date de conception et sa date de mise en circulation.

Evaluation des risques d’accidents grâce à la Data Science

L’objectif ici est de donner un classement du risque associé à chaque classe générationnelle de manière globale (indépendamment du contexte) ou dans une situation donnée. En anglais, on utilise le terme “Ranking” pour désigner cette notion de classement. Il est possible d’appliquer deux modes de classements :  Global et contextuel.  L’idée est d’attribuer automatiquement un score relatif au risque, plus ce score est petit plus la classe générationnelle associée est sûre (plus son rang est élevé). Le contexte est en effet important car selon le profil du conducteur (son âge, son genre, son taux d’alcoolémie, son historique, etc.)  ou les circonstances de l’accident (zone géographique, météo, etc.) l’interprétation que l’on donne à ce classement est différente.

Pour ce faire, il est important de sélectionner des variables qui donnent une indication sur le facteur de risque que l’on peut résumer dans les catégories suivantes :

  • Circonstances de l’accident : Jour/nuit, zone rurale/urbaine, météo, etc
  • Typologie des chocs : Frontal, latéral, nombre de voitures impactées, etc.
  • Informations sur les passagers : Age, genre, taux d’alcoolémie, gravité des blessures, etc.
  • Classe générationnelle : Catégorie du véhicule, caractéristiques automobiles, etc.

Ces données sont analysées par la suite à travers une  méthode de Machine Learning appelée “Super Learner” qui permet  d’identifier le risque associé à une génération de voiture. C’est une méthode dite ensembliste qui met en contribution plusieurs modèles de Machine Learning (Régression Logistique, Arbre de décision, Random Forest, etc.). 

A partir de données, le “Super Learner”  va apprendre à attribuer un poids à chaque modèle de manière à optimiser la performance du classement. Le score final du classement que l’on donne à une classe générationnelle est donc une moyenne pondérée faisant intervenir le score de chacun des modèles. Par la suite, on peut appliquer cet algorithme sur de nouvelles données avec différents scénarios possibles pour prédire le niveau du risque associé. C’est de cette manière que l’on peut renforcer la sécurité des véhicules.

Quant à la performance, il est prouvé mathématiquement que ce modèle est optimal pour résoudre le problème de qualification du risque associé à une classe générationnelle de voiture.

Les modèles classiques ne donnaient pas de bons résultats car il y a beaucoup de dépendances entre les observations dans les données de ce type. Par exemple, si un accident a plusieurs victimes, il faut que l’algorithme arrive à considérer que l’accident avec l’ensemble de ses victimes comme une seule entité. Le fait d’utiliser un modèle ensembliste permet de surpasser ce genre de problèmes.

Ce bon résultat est notamment dû à la combinaison de plusieurs modèles de Machine Learning avec le Super Learner et l’utilisation d’une fonction de coût (4) adaptée qui optimise le classement.

Otmane NKAIRA

Références

  1. Zaid Ouni : Il a commencé son parcours à Tunis par une Maîtrise en Mathématique Fondamentale avant de rejoindre l’Université Pierre et Marie Curie – Paris VI pour un Master en Statistique. Ensuite, Il poursuit ses études avec un Doctorat en mathématique appliquée à l’Université Paris Nanterre. Après l’obtention de son Doctorat en 2016, il a commencé sa carrière de Consultant de Data Scientist
  2. Thèse : Thèse industrielle CIFRE réalisée au sein du laboratoire d’Accidentologie et de Biomécanique du groupe PSA sur le sujet “Statistique pour l’anticipation des niveaux de sécurité secondaire des génération de véhicules”. Elle est disponible sur ce lien  https://bdr.parisnanterre.fr/theses/internet/2016/2016PA100099/2016PA100099.pdf
  3. BAAC :  Bulletin d’Analyse d’Accident Corporel de la Circulation. La description détaillée de ces données est disponible sur le site data.gouv.fr,  la plateforme ouverte de données publiques françaises sur ce lien https://www.data.gouv.fr/fr/datasets/base-de-donnees-accidents-corporels-de-la-circulation/.
  4. Fonction de coût :  La fonction de coût est une fonction mathématique que l’algorithme de Machine Learning vise à minimiser pour faire le moins possible d’erreurs de prédiction. Zaid Ouni a proposé une nouvelle fonction adaptée pour améliorer le Ranking des classes générationnelles de voiture.