Détails de la formation

Notebooks Jupyter : initiation au TAL avec Spacy

Thème :

Produire et publier : production et traitement du document numérique, édition électronique, publication scientifique, propriété intellectuelle

Objectifs

Cette formation propose une continuité à l’introduction aux notebook Python (cf. formation du 31 mars ) permettant d’aborder les fondamentaux opérationnels des sciences de données sous une perspective SHS.

Dans ce module vous apprendrez à travers un ensemble d’exemples applicatifs à introduire un niveau sémantique à vos données textuelles par l’identification des catégories grammaticale, la lemmatisation et l’extraction de lexique à partir de textes au format brut (exempt de mise en forme) collecter et nettoyer des données HTML pour en extraire le texte.

Nous discuterons des limites et potentiels applicatifs de ces traitements.

Programme

En survolant les fondamentaux de la linguistique nous mettrons en application à l’aide de l’IA de la librairie Spacy pour :

  • Charger un modèle statistique ;
  • Réaliser l’étiquetage automatique de deux documents textuels (qui pourraient être les vôtres sous couvert d’être dans le bon format et autres conditions dont nous discuterons) ;
  • Extraire les lemmes de catégories grammaticale pour produire (par ex.) le lexique nominal d’un texte
  • Nous séparerons alors le lexique des deux textes : spécifique ou commun aux deux

 

Prérequis

Avoir suivi la formation Notebooks Jupyter et bases de la programmation OU  être très à l’aise avec les fondamentaux notebook et programmation.

Connaissance d'éléments de linguistique et de TAL

Intervenant : David REYMOND

Public concerné

Tous publics URFIST