Activités
Atelier de formation
Midi BIN-PHuN // Similarité sémantique et techniques de base en analyse de texte assistée par ordinateur
Description
Quatre méthodes de calcul de similarité entre textes seront présentées: Jaccard, tf-idf, LDA et LSA. En appliquant ces méthodes à trois corpus (courriels de la compagnie ENRON, discours des présidents américains et des livres du projet Gutenberg), plusieurs questions intéressantes surgissent. Si deux textes sont jugés similaires par une méthode, seront-ils similaires pour une autre méthode ? Est-ce que les conclusions tiennent pour différentes versions d'une même méthode ? Comment comparer deux méthodes ? Est-ce que les ressemblances entre deux méthodes tiennent pour différents corpus ? Nous aborderons ces excitantes réflexions dans ce magique Midi-BIN-PHuN!
À propos des intervenants
Louis Renaud-Desjardins est agent de recherche au BIN depuis 4 ans déjà! En plus de combattre le crime lorsque la lune danse dans le ciel, il s'intéresse à l'utilisation d'outils informatiques pour aider la recherche en sciences humaines et sociales. Il a très hâte de vous voir à sa présentation!