Jean-Louis DURRIEU
PhD in Signal Processing,
Télécom ParisTech (a.k.a. ENST)






Tamy - from the MTG MASS database. With annotated notes for the singer and the guitar.
Title:
Automatic Transcription and Separation of the Main Melody in Polyphonic Music Signals
[PhD Thesis (validation pending - ~7Mo)][Slides]
[HTML slides (better in full-screen mode)].

PhD defended on Friday May 7th 2010, 2pm, at
Télécom ParisTech,
46 Rue Barrault, 75013 Paris, France


Jury:
    "Rapporteurs":
      Dan Ellis (Columbia University)
      Christian Jutten (Grenoble INP)
    "Examinateurs":
      Frédéric Bimbot (IRISA)
      Simon Godsill (University of Cambridge)
      Emmanuel Vincent (IRISA)
    Supervisors:
      Bertrand David (Télécom ParisTech)
      Gaël Richard (Télécom ParisTech)

You can find out more about my research on the publication section or on the (outdated) research section. The abstract can be found at the end of this page, with a French version after.

You can also directly access to the demo pages below:

Abstract:
    We propose to address the problem of melody extraction along with the "monaural lead instrument and accompaniment separation" problem. The first task is related to Music Information Retrieval (MIR), since it aims at indexing the audio music signals with their melody line. The separation problem is related to Blind Audio Source Separation (BASS), as it aims at breaking an audio mixture into several source tracks.

    Many recent research works have more or less explicitly brought these two fields together. Indeed, MIR and BASS share a common goal: we desire some atomic decomposition of an audio mixture. Of course, the back-end applications may be different. The "atoms" have therefore different meanings: for MIR, the extracted elements should have some musical, high-level semantics, while for BASS, these elements are more related to low-level aspects of the signals. This often leads to MIR systems that tend to discard information in order to directly access to the desired level of description. BASS systems usually consider only physical aspects allowing to distinguish the different sources. Intuitively, combining these approaches can lead to mutual improvements in both areas.

    In this thesis, we propose to address the leading instrument source separation and the main melody extraction in a unified framework. We first describe the signal models: the lead instrument is modelled thanks to a source/filter production model. Its signal is generated by two hidden states, the filter state and the source state. The proposed signal spectral model therefore explicitly uses pitches (fundamental frequencies) both to separate the lead instrument from the other instruments and to transcribe the pitch sequence played by that instrument, the so-called "main melody". This model gives rise to two alternative models, a Gaussian Scaled Mixture Model (GSMM) and a model we called the Instantaneous Mixture Model (IMM), each of which having their own advantages and drawbacks. The accompaniment is modelled with a more general spectral model which can describe a large variety of musical backgrounds.

    The estimation of the different parameters and of the melody sequence is addressed thanks to methodologies borrowed from Non-negative Matrix Factorization (NMF) literature. Indeed, within the proposed statistical framework, the parameter estimation is very similar to an NMF problem. Since the proposed models have several layers of hidden states, several different strategies can be investigated, with various levels of approximations. From these strategies, we have extracted five systems. Three of them aim at detecting the fundamental frequency sequence of the lead instrument, in other words estimating the main melody. Another system is designed to return a musical transcription of the main melody, that is the sequence of notes (pitch in the Western musical scale, on-setting and off-setting times) and the last system targets the separation of the lead instrument from the accompaniment.

    The results in melody transcription and source separation are at the state of the art, as shown by our participations to several international evaluation campaigns (MIREX'08, MIREX'09 and SiSEC'08). This means that a completely joint system for transcription and separation is possible. The proposed systems use estimation algorithms for which we have worked on reducing the approximations that were made. Our results for source separation also provided an interesting insight in the field: the proposed extension of previous works using "MIR" knowledge is a very successful combination.

    At last, the chosen statistical framework enables further refinement of the model. Constraints and priors on the parameters can be defined: an example of a semantically motivated prior, recalling sparsity and de-correlation constraints, is given and discussed in this work. Future directions for research go through the improvement of the lead instrument model, as well as the use of a more complex accompaniment model. An interesting path for research could be to model the high level dependency between the lead and the accompaniment: what notes is the lead most likely to play, knowing what kind of chord the accompaniment is playing? Answering this question, among others, may improve the performance in terms of transcription into a musical score and, to a certain extent, our understanding of how we perceive music and its structure.

Résumé :
    Nous proposons de traiter l'extraction de la mélodie principale, ainsi que la séparation de l'instrument jouant cette mélodie. La première tâche appartient au domaine de la recherche d'information musicale (MIR en Anglais), parce que nous cherchons à indexer les morceaux de musique à l'aide de leur ligne mélodique. La seconde application est un problème de séparation aveugle de sources sonores (BASS en Anglais), avec pour but d'extraire une piste audio pour chaque source présente dans un mélange sonore.

    De nombreux travaux ont récemment jumelé ces deux domaines. En effet, la MIR et la BASS visent un même résultat, la décomposition du mélange en "atomes", avec cependant des interprétations différentes suivant le domaine. Ainsi, en MIR, ces éléments comportent une connotation musicale, avec une sémantique relativement abstraite. En BASS, ces atomes revêtent plutôt un sens physique. En général, on constate alors que les systèmes orientés MIR tendent à éluder du traitement une partie de l'information de sorte à se concentrer directement sur le niveau de description voulu, alors que les systèmes de séparation ont plutôt tendance à ne considérer que peu d'information autre que des aspects physiques tels que les informations spatiales, par exemples. La combinaison des deux types d'approches semble pourtant intuitivement intéressante, étant donnés leurs buts respectifs.

    Dans cette thèse, nous proposons d'effectuer le problème de séparation de la mélodie principale et de l'accompagnement ainsi que l'extraction de cette mélodie à l'aide d'un même cadre statistique. Le modèle pour l'instrument principal est un modèle de production source/filtre. Il suppose deux états cachés correspondant respectivement à l'état du filtre et à l'état de la source. Le modèle spectral choisi permet ainsi de prendre explicitement en considération les fréquences fondamentales (ou pitches) de l'instrument désiré, afin d'estimer d'abord la séquence de pitches joués, la "mélodie principale", mais aussi de séparer l'instrument qui la joue de l'accompagnement. Deux modèles de signaux sont proposés, un modèle de mélange de gaussiennes amplifiées (GSMM en Anglais) ainsi qu'un modèle que nous avons désigné comme un modèle de mélange instantané (IMM en Anglais). Chacun de ces modèles présente des avantages et des inconvénients. L'accompagnement est lui modélisé par un modèle spectral plus général qui permet d'envisager un éventail assez large de types d'accompagnement possibles.

    Le lien entre les modèles statistiques choisis et la factorisation en matrices non-négatives (NMF en Anglais) nous a permis d'employer et d'adapter les algorithmes d'estimation de paramètres déjà existant pour estimer les paramètres de nos modèles. Par ailleurs, afin d'estimer les séquences mélodiques de fréquences fondamentales et de notes, nous proposons des approximations à des degrés variés, des stratégies qui réduisent la difficulté des problèmes posés. Cinq systèmes sont ainsi proposés, trois d'entre eux ont pour but de fournir la mélodie sous forme de séquence de fréquences fondamentales, un autre système vise à fournir la suite de notes musicales jouées et enfin le dernier système permet d'effectuer la séparation de l'instrument principal et de l'accompagnement.

    Les résultats obtenus en estimation de la mélodie et en séparation sont du niveau de l'état de l'art, comme l'ont montré nos différentes participations aux évaluations internationales (MIREX'08, MIREX'09 et SiSEC'08). Cela valide la possibilité d'un système intégrant ces deux aspects. Durant cette thèse, nous avons aussi cherché à réduire les différentes approximations réalisées lors de l'estimation. Un résultat important de notre travail est d'avoir intégré de la connaissance inspirée de la communauté MIR afin d'améliorer les résultats de travaux antérieurs sur la séparation de sources sonores.

    Enfin, le cadre statistique de nos modèles permet d'imaginer d'éventuels raffinements du modèle. Des contraintes et des a priori peuvent être facilement définis : l'exemple d'un a priori sémantiquement motivé, formellement proche des contraintes de parcimonie et de décorrélation, est discuté dans cette thèse. D'autres améliorations des modèles sont possibles, notamment pour celui de l'instrument principal, ou celui de l'accompagnement, voire par l'ajout d'une modélisation des interactions entre ces deux contributions. Quelles sont les notes les plus probables pour la mélodie, étant donné les accords de l'accompagnement ? Répondre à ce type de questions permettra sans doute d'obtenir des transcriptions musicales plus réalistes, en ouvrant aussi la voie à une meilleure compréhension des mécanismes cognitifs qui régissent à notre perception de la musique et de sa structure.




Document made with Nvu