Analyse des données textuelles

Livre numérique

Analyse des données textuelles
  • Éditeur québécois

L’analyse des données textuelles (ADT) permet d’explorer et de visualiser les recueils de textes les plus divers : œuvres littéraires, transcriptions d’entretien, discours politiques, dossiers de presse, documents d’archives, enquêtes en ligne avec questions ouvertes, fichiers de réclamations, sondages de satisfaction. Le présent ouvrage procède à une présentation rigoureuse des méthodes de l’ADT, qui combinent statistique exploratoire, visualisations, procédures de validation quantitative et approche qualitative (retour au texte). Plaçant le texte au centre de l’analyse, l’ADT répond pleinement aux attentes des humanités numériques. Plusieurs niveaux de lecture sont possibles : les développements plus techniques paraissent dans des encadrés, tandis que des programmes illustratifs simples (en Python et R) sont donnés en annexe. Le propos est systématiquement illustré par des applications concrètes issues de corpus variés (données d’enquête, romans, discours politiques) et réalisées avec des logiciels en libre accès.

Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multi­dimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.

Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.

Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.

Table des matières

Table des matières
Couverture 1
Collection Mesure et Évaluation 4
Crédits 8
Table des matières 9
Liste des figures 17
Liste des tableaux 27
Liste des sigles 33
Introduction 35
CHAPITRE 1 - L’analyse statistique des données textuelles: champs et objets d’étude 41
1. LE CHAMP DE L’ANALYSE STATISTIQUE DES DONNÉES TEXTUELLES (ADT) 42
2. LES DISCIPLINES VOISINES 49
3. LES CORPUS ET LES ENQUÊTES 62
CHAPITRE 2 - Les unités d’analyse et les observations 73
1. LA SEGMENTATION DU TEXTE EN UNITÉS 77
2. L’ANNOTATION DE SURFACE AUTOMATIQUE 95
3. LES UNITÉS SÉQUENTIELLES 106
CONCLUSION ET PERSPECTIVES 114
ANNEXE A. Annexe Python du chapitre 2 117
CONCLUSION 125
CHAPITRE 3 - Les unités en contexte 127
1. LA CONCORDANCE 129
2. UNE TYPOLOGIE DES FORMES DE RETOUR AU TEXTE 138
3. LA COOCCURRENCE, UNE SYNTHÈSE STATISTIQUE DES CONTEXTES 147
4. LE CALCUL DES SPÉCIFICITÉS, UN OUTIL POUR LA CARACTÉRISATION CONTRASTIVE DES CONTEXTES LOCAUX ET GLOBAUX 156
ANNEXE B. Annexe Python du chapitre 3 169
CONCLUSION 172
CHAPITRE 4 - Exploration, visualisation, validation et inférence: les principes de base 175
1. LES APPROCHES EXPLORATOIRES ET CONFIRMATOIRES 175
2. LES MÉTHODES D’ANALYSE EN AXES PRINCIPAUX 178
3. LES MÉTHODES DE CLASSIFICATION 191
4. LA VALIDATION PAR RÉÉCHANTILLONNAGE 194
ANNEXE C. Annexe R du chapitre 4 199
CHAPITRE 5 - L’analyse en composantes principales (ACP) 203
1. LES INTERPRÉTATIONS GÉOMÉTRIQUES 204
2. LE PROBLÈME DES ÉCHELLES DE MESURE ET LA TRANSFORMATION DES DONNÉES 207
3. LA REPRÉSENTATION DES MOTS ET DES RÉPONDANTS 210
4. L’ANALYSE DU NUAGE DES P VARIABLES (COLONNES) 211
5. OBSERVATIONS ET VARIABLES SUPPLÉMENTAIRES 213
6. L’ANALYSE FACTORIELLE EN FACTEURS COMMUNS ET SPÉCIFIQUES 215
7. LA VALIDATION PAR RÉÉCHANTILLONNAGE (BOOTSTRAP) 217
8. DEUX EXEMPLES D’APPLICATION 219
ANNEXE D. Annexe technique: analyse canonique, régression et variables supplémentaires 235
ANNEXE E. Annexe R du chapitre 5 241
CHAPITRE 6 - L’analyse des correspondances (AC) 245
1. LA DÉMARCHE D’APRÈS UN EXEMPLE 246
2. LA REPRÉSENTATION SIMULTANÉE DES LIGNES ET DES COLONNES 253
3. LES ÉLÉMENTS SUPPLÉMENTAIRES 256
4. LES AIDES À L’INTERPRÉTATION 257
5. LA VALIDATION PAR RÉÉCHANTILLONNAGE 261
6. L’ANALYSE DES CORRESPONDANCES MULTIPLES (ACM) 264
7. D’AUTRES MÉTHODES 271
ANNEXE F. Annexe technique du chapitre 6 275
ANNEXE G. Annexe R du chapitre 6 285
CHAPITRE 7 - La classificationdes mots et des textes 289
1. LA CLASSIFICATION ASCENDANTE HIÉRARCHIQUE (CAH) D’APRÈS UN EXEMPLE 290
2. LES MÉTHODES DE CLASSIFICATION HIÉRARCHIQUE, LES REPRÉSENTATIONS ARBORÉES 296
3. LES MÉTHODES DE PARTITIONNEMENT 310
4. LA CLASSIFICATION MIXTE ET AUTRES MODÈLES 317
5. LA SÉRIATION 322
6. LA VALIDATION DES CLASSIFICATIONS 325
ANNEXE H. Annexe R du chapitre 7: calcul et tracé de l’arbrede longueur minimale (ALM) 329
CHAPITRE 8 - Les stratégies d’analyse et la complémentarité entre analyse en axes principaux et classification 335
1. LES FORCES ET LES FAIBLESSES DES MÉTHODES EN AXES PRINCIPAUX 336
2. L’UTILISATION CONJOINTE DES AXES PRINCIPAUX ET DE LA CLASSIFICATION 341
3. LA DESCRIPTION STATISTIQUE DES CLASSES OU DES CATÉGORIES : VALEURS-TEST ET SPÉCIFICITÉS 345
4. LES FRAGMENTS CARACTÉRISTIQUES (OU RÉPONSES MODALES) 352
5. LES STRATÉGIES D’ANALYSE : LE CAS DES CORPUS DE RÉPONSES LIBRES (OU DE TEXTES COURTS, NOMBREUX, QUALIFIÉS) 356
6. LA FRAGMENTATION D’UN CORPUS EN « UNITÉS DE CONTEXTE » 378
CONCLUSION 393
CHAPITRE 9 - L’articulation entre les analyses exploratoires et confirmatoires 395
1. EXPLORER, VALIDER, PRÉVOIR… 395
2. LA STYLOMÉTRIE ET LA DISCRIMINATION GLOBALE 398
3. LES UNITÉS STATISTIQUES DE LA STYLOMÉTRIE 400
4. UN EXEMPLE DE MODÈLE STATISTIQUE EN STYLOMÉTRIE 402
5. LES ANALYSES DISCRIMINANTES GLOBALES 409
6. DISCRIMINATION ET VALIDATION : UN EXEMPLE 414
7. LA DISCRIMINATION ET LES RÉSEAUX DE NEURONES 425
8. LES RECHERCHES DE THÈMES (TOPIC MODELING) :UN POINT DE VUE 433
CONCLUSION 446
ANNEXE I. Annexe technique du chapitre 9 449
ANNEXE J. Corpus 453
ANNEXE K. Logiciels d’analysedes données textuelles 459
BIBLIOGRAPHIE 475
INDEX 501
DANS LA MÊME COLLECTION 507
Quatrième de couverture 514