Analyse des données textuelles

Éditeur québécois

0 Avis(s), critique(s) et commentaire(s)

L’analyse des données textuelles (ADT) permet d’explorer et de visualiser les recueils de textes les plus divers : œuvres littéraires, transcriptions d’entretien, discours politiques, dossiers de presse, documents d’archives, enquêtes en ligne avec questions ouvertes, fichiers de réclamations, sondages de satisfaction. Le présent ouvrage procède à une présentation rigoureuse des méthodes de l’ADT, qui combinent statistique exploratoire, visualisations, procédures de validation quantitative et approche qualitative (retour au texte). Plaçant le texte au centre de l’analyse, l’ADT répond pleinement aux attentes des humanités numériques. Plusieurs niveaux de lecture sont possibles : les développements plus techniques paraissent dans des encadrés, tandis que des programmes illustratifs simples (en Python et R) sont donnés en annexe. Le propos est systématiquement illustré par des applications concrètes issues de corpus variés (données d’enquête, romans, discours politiques) et réalisées avec des logiciels en libre accès.

Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multidimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.

Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.

Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.

Table des matières

Table des matières
Couverture	1
Collection Mesure et Évaluation	4
Crédits	8
Table des matières	9
Liste des figures	17
Liste des tableaux	27
Liste des sigles	33
Introduction	35
CHAPITRE 1 - L’analyse statistique des données textuelles: champs et objets d’étude	41
1. LE CHAMP DE L’ANALYSE STATISTIQUE DES DONNÉES TEXTUELLES (ADT)	42
2. LES DISCIPLINES VOISINES	49
3. LES CORPUS ET LES ENQUÊTES	62
CHAPITRE 2 - Les unités d’analyse et les observations	73
1. LA SEGMENTATION DU TEXTE EN UNITÉS	77
2. L’ANNOTATION DE SURFACE AUTOMATIQUE	95
3. LES UNITÉS SÉQUENTIELLES	106
CONCLUSION ET PERSPECTIVES	114
ANNEXE A. Annexe Python du chapitre 2	117
CONCLUSION	125
CHAPITRE 3 - Les unités en contexte	127
1. LA CONCORDANCE	129
2. UNE TYPOLOGIE DES FORMES DE RETOUR AU TEXTE	138
3. LA COOCCURRENCE, UNE SYNTHÈSE STATISTIQUE DES CONTEXTES	147
4. LE CALCUL DES SPÉCIFICITÉS, UN OUTIL POUR LA CARACTÉRISATION CONTRASTIVE DES CONTEXTES LOCAUX ET GLOBAUX	156
ANNEXE B. Annexe Python du chapitre 3	169
CONCLUSION	172
CHAPITRE 4 - Exploration, visualisation, validation et inférence: les principes de base	175
1. LES APPROCHES EXPLORATOIRES ET CONFIRMATOIRES	175
2. LES MÉTHODES D’ANALYSE EN AXES PRINCIPAUX	178
3. LES MÉTHODES DE CLASSIFICATION	191
4. LA VALIDATION PAR RÉÉCHANTILLONNAGE	194
ANNEXE C. Annexe R du chapitre 4	199
CHAPITRE 5 - L’analyse en composantes principales (ACP)	203
1. LES INTERPRÉTATIONS GÉOMÉTRIQUES	204
2. LE PROBLÈME DES ÉCHELLES DE MESURE ET LA TRANSFORMATION DES DONNÉES	207
3. LA REPRÉSENTATION DES MOTS ET DES RÉPONDANTS	210
4. L’ANALYSE DU NUAGE DES P VARIABLES (COLONNES)	211
5. OBSERVATIONS ET VARIABLES SUPPLÉMENTAIRES	213
6. L’ANALYSE FACTORIELLE EN FACTEURS COMMUNS ET SPÉCIFIQUES	215
7. LA VALIDATION PAR RÉÉCHANTILLONNAGE (BOOTSTRAP)	217
8. DEUX EXEMPLES D’APPLICATION	219
ANNEXE D. Annexe technique: analyse canonique, régression et variables supplémentaires	235
ANNEXE E. Annexe R du chapitre 5	241
CHAPITRE 6 - L’analyse des correspondances (AC)	245
1. LA DÉMARCHE D’APRÈS UN EXEMPLE	246
2. LA REPRÉSENTATION SIMULTANÉE DES LIGNES ET DES COLONNES	253
3. LES ÉLÉMENTS SUPPLÉMENTAIRES	256
4. LES AIDES À L’INTERPRÉTATION	257
5. LA VALIDATION PAR RÉÉCHANTILLONNAGE	261
6. L’ANALYSE DES CORRESPONDANCES MULTIPLES (ACM)	264
7. D’AUTRES MÉTHODES	271
ANNEXE F. Annexe technique du chapitre 6	275
ANNEXE G. Annexe R du chapitre 6	285
CHAPITRE 7 - La classificationdes mots et des textes	289
1. LA CLASSIFICATION ASCENDANTE HIÉRARCHIQUE (CAH) D’APRÈS UN EXEMPLE	290
2. LES MÉTHODES DE CLASSIFICATION HIÉRARCHIQUE, LES REPRÉSENTATIONS ARBORÉES	296
3. LES MÉTHODES DE PARTITIONNEMENT	310
4. LA CLASSIFICATION MIXTE ET AUTRES MODÈLES	317
5. LA SÉRIATION	322
6. LA VALIDATION DES CLASSIFICATIONS	325
ANNEXE H. Annexe R du chapitre 7: calcul et tracé de l’arbrede longueur minimale (ALM)	329
CHAPITRE 8 - Les stratégies d’analyse et la complémentarité entre analyse en axes principaux et classification	335
1. LES FORCES ET LES FAIBLESSES DES MÉTHODES EN AXES PRINCIPAUX	336
2. L’UTILISATION CONJOINTE DES AXES PRINCIPAUX ET DE LA CLASSIFICATION	341
3. LA DESCRIPTION STATISTIQUE DES CLASSES OU DES CATÉGORIES : VALEURS-TEST ET SPÉCIFICITÉS	345
4. LES FRAGMENTS CARACTÉRISTIQUES (OU RÉPONSES MODALES)	352
5. LES STRATÉGIES D’ANALYSE : LE CAS DES CORPUS DE RÉPONSES LIBRES (OU DE TEXTES COURTS, NOMBREUX, QUALIFIÉS)	356
6. LA FRAGMENTATION D’UN CORPUS EN « UNITÉS DE CONTEXTE »	378
CONCLUSION	393
CHAPITRE 9 - L’articulation entre les analyses exploratoires et confirmatoires	395
1. EXPLORER, VALIDER, PRÉVOIR…	395
2. LA STYLOMÉTRIE ET LA DISCRIMINATION GLOBALE	398
3. LES UNITÉS STATISTIQUES DE LA STYLOMÉTRIE	400
4. UN EXEMPLE DE MODÈLE STATISTIQUE EN STYLOMÉTRIE	402
5. LES ANALYSES DISCRIMINANTES GLOBALES	409
6. DISCRIMINATION ET VALIDATION : UN EXEMPLE	414
7. LA DISCRIMINATION ET LES RÉSEAUX DE NEURONES	425
8. LES RECHERCHES DE THÈMES (TOPIC MODELING) :UN POINT DE VUE	433
CONCLUSION	446
ANNEXE I. Annexe technique du chapitre 9	449
ANNEXE J. Corpus	453
ANNEXE K. Logiciels d’analysedes données textuelles	459
BIBLIOGRAPHIE	475
INDEX	501
DANS LA MÊME COLLECTION	507
Quatrième de couverture	514

Analyse des données textuelles

Table des matières

Compléments

Détails du livre

Table des matières

Accessibilité

EPUB

Biographies des auteurs

À propos de Ludovic Lebart

À propos de Bénédicte Pincemin

À propos de Céline Poudat

Avis et commentaires

Compléments

Détails du livre