Accueil
Offre de formation
Master
Sciences humaines et sociales
Sciences du langage
Master Sciences du langage - Parcours : Phonétique et phonologie
Méthodologie
Bloc méthodologique
Recueil et structuration de corpus

Recueil et structuration de corpus

ECTS
2 crédits

Description

SL4BY050

De la détection d'encodage à la normalisation de données en passant par l'extraction de contenus Web, les étudiants aborderont au cours de ce module les étapes préalables à la constitution d'un corpus textuel en vue de son exploitation par les outils état de l'art. Ils tireront partie de méthodes de nettoyage et de structuration automatisées (python, perl) pour produire des documents dans des formats variés (TXT, CSV, XML/TEI).

Lire plus

Dernière mise à jour le 26 mai 2023

Recueil et structuration de corpus

ECTS

Description

Contact