Classification non-supervisée des productions vocales chez le bébé humain entre 0 et 12 mois - Institut de Mathématiques de Marseille 2014- Accéder directement au contenu
Thèse Année : 2023

Unsupervised classification of vocal productions of human babies between 0 and 12 months

Classification non-supervisée des productions vocales chez le bébé humain entre 0 et 12 mois

Résumé

Around her first birthday, the human child utters her first word. This first utterance is not, however, the beginning of language learning. This begins at birth. Throughout the first year of life, children develop motor skills that enable them to produce an increasingly wide range of vocalizations, calibrated to the surrounding language. Recent recording and storage systems have made it possible to build new databases of vocalizations produced throughout the year. In this thesis, we build such a database and present three contributions to help study the question of pre-language infant vocalizations. First, we propose a methodology for automatically detecting and classifying vocalizations in massive audio recordings. It enables a neural network to be trained from just over an hour's worth of labeled data, which then does the job of extracting vocalizations from massive natural recordings. It has been applied to two sets of recordings, proving its adaptability: the baby recordings collected for this thesis and one month's recordings from a monkey enclosure, producing two new data sets, one of baby vocalizations and one of monkey vocalizations. We made it freely accessible, as is the code used to reproduce the methodology. We then provide empirical evidence of the value of incorporating topological information into the representation of a human speech signal for a classification task. We quantify the added value of a topologically augmented approach and the differences depending on the object representing an identical vocalization. We show that topological information is complementary to frequency information, and that the persistent homology computed on each object is complementary to each other. To answer this question, we built a new, freely accessible database of 11,200 vowel recordings. We compared the results on three classification tasks, depending on whether the signal representation is topologically augmented or not, as well as the best way to vectorize the information contained in a persistence diagram. Finally, we performed clustering, using non-parametric Bayesian modeling, of the vocalizations produced by a child during its first year of life, based on a topologically augmented representation of the signal. Eight classes of vocalizations were discovered, with different proportions of production depending on development, and with different frequency characteristics.
Aux alentours de son premier anniversaire, l'enfant humain prononce son premier mot. Cette première production n'est pourtant pas le début de son apprentissage de la langue. Celui-ci commence dès sa naissance. En effet, tout au long de sa première année, l'enfant développe des capacités motrices lui permettant de produire une gamme de vocalisations de plus en plus large, en les calibrant au langage qui l'entoure. Les moyens d'enregistrements et de stockage récents permettent de construire de nouvelles bases de données de vocalisations produites tout au long de l'année. Nous construisons dans cette thèse une telle base et présentons trois contributions pour aider à étudier la question des vocalisations infantiles pré-langagières. Nous proposons d'abord une méthodologie pour détecter et classifier automatiquement les vocalisations dans les enregistrements audios massifs. Elle permet l'apprentissage d'un réseau de neurones à partir d'un peu plus d'une heure de données étiquetées, qui fait ensuite le travail d'extraction de vocalisations d'enregistrements naturels massifs. Elle a été appliquée sur deux ensembles d'enregistrements, prouvant son adaptabilité : les enregistrements de bébé récoltés pour ce travail de thèse ainsi que des enregistrements d'un mois d'un enclos de singe, permettant de produire deux nouveaux ensembles de données, un de vocalisation de bébé et un de vocalisation de singe. Nous avons rendu ce dernier librement accessible, tout comme le code permettant de reproduire la méthodologie. Nous emmenons ensuite des preuves empiriques de l'intérêt d'incorporer une information topologique dans la représentation d'un signal vocal humain pour une tâche de classification. Nous quantifions la plus-value d'une approche topologiquement augmentée et les différences selon l'objet représentant une vocalisation identique. On montre que l'information topologique est complémentaire à une information fréquentielle et que les homologies persistantes calculées sur chaque objet sont complémentaires entre elles. Pour répondre à cette question, nous avons construit une nouvelle base d'enregistrements de 11 200 voyelles, que nous avons rendu librement accessible. Nous avons comparé les résultats sur trois tâches de classification selon que la représentation du signal est topologiquement augmentée ou non, ainsi que la meilleure façon de vectoriser l'information contenue dans un diagramme de persistance. Enfin, nous avons classifié de manière non-supervisée, par une modélisation bayésienne non-paramétrique, les vocalisations produites par un enfant durant sa première année de vie, à partir d'une représentation topologiquement augmentée du signal. On découvre huit classes de vocalisations, dont la proportion de production varie selon le développement, et avec des caractéristiques fréquentielles différentes.
Fichier principal
Vignette du fichier
these.pdf (29.43 Mo) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)
licence

Dates et versions

tel-04607513 , version 1 (10-06-2024)

Licence

Identifiants

  • HAL Id : tel-04607513 , version 1

Citer

Guillem Bonafos. Classification non-supervisée des productions vocales chez le bébé humain entre 0 et 12 mois. Statistiques [math.ST]. Aix-marseille University, 2023. Français. ⟨NNT : 2023AIXM0487⟩. ⟨tel-04607513⟩
0 Consultations
0 Téléchargements

Partager

Gmail Mastodon Facebook X LinkedIn More