Analyse des données textuelles
-
Par
Livre numérique
- Éditeur québécois
0 Avis(s), critique(s) et commentaire(s)
L’analyse des données textuelles (ADT) permet d’explorer et de visualiser les recueils de textes les plus divers : œuvres littéraires, transcriptions d’entretien, discours politiques, dossiers de presse, documents d’archives, enquêtes en ligne avec questions ouvertes, fichiers de réclamations, sondages de satisfaction. Le présent ouvrage procède à une présentation rigoureuse des méthodes de l’ADT, qui combinent statistique exploratoire, visualisations, procédures de validation quantitative et approche qualitative (retour au texte). Plaçant le texte au centre de l’analyse, l’ADT répond pleinement aux attentes des humanités numériques. Plusieurs niveaux de lecture sont possibles : les développements plus techniques paraissent dans des encadrés, tandis que des programmes illustratifs simples (en Python et R) sont donnés en annexe. Le propos est systématiquement illustré par des applications concrètes issues de corpus variés (données d’enquête, romans, discours politiques) et réalisées avec des logiciels en libre accès.
Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multidimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.
Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.
Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.
Table des matières
| Couverture | 1 |
|---|---|
| Collection Mesure et Évaluation | 4 |
| Crédits | 8 |
| Table des matières | 9 |
| Liste des figures | 17 |
| Liste des tableaux | 27 |
| Liste des sigles | 33 |
| Introduction | 35 |
| CHAPITRE 1 - L’analyse statistique des données textuelles: champs et objets d’étude | 41 |
| 1. LE CHAMP DE L’ANALYSE STATISTIQUE DES DONNÉES TEXTUELLES (ADT) | 42 |
| 2. LES DISCIPLINES VOISINES | 49 |
| 3. LES CORPUS ET LES ENQUÊTES | 62 |
| CHAPITRE 2 - Les unités d’analyse et les observations | 73 |
| 1. LA SEGMENTATION DU TEXTE EN UNITÉS | 77 |
| 2. L’ANNOTATION DE SURFACE AUTOMATIQUE | 95 |
| 3. LES UNITÉS SÉQUENTIELLES | 106 |
| CONCLUSION ET PERSPECTIVES | 114 |
| ANNEXE A. Annexe Python du chapitre 2 | 117 |
| CONCLUSION | 125 |
| CHAPITRE 3 - Les unités en contexte | 127 |
| 1. LA CONCORDANCE | 129 |
| 2. UNE TYPOLOGIE DES FORMES DE RETOUR AU TEXTE | 138 |
| 3. LA COOCCURRENCE, UNE SYNTHÈSE STATISTIQUE DES CONTEXTES | 147 |
| 4. LE CALCUL DES SPÉCIFICITÉS, UN OUTIL POUR LA CARACTÉRISATION CONTRASTIVE DES CONTEXTES LOCAUX ET GLOBAUX | 156 |
| ANNEXE B. Annexe Python du chapitre 3 | 169 |
| CONCLUSION | 172 |
| CHAPITRE 4 - Exploration, visualisation, validation et inférence: les principes de base | 175 |
| 1. LES APPROCHES EXPLORATOIRES ET CONFIRMATOIRES | 175 |
| 2. LES MÉTHODES D’ANALYSE EN AXES PRINCIPAUX | 178 |
| 3. LES MÉTHODES DE CLASSIFICATION | 191 |
| 4. LA VALIDATION PAR RÉÉCHANTILLONNAGE | 194 |
| ANNEXE C. Annexe R du chapitre 4 | 199 |
| CHAPITRE 5 - L’analyse en composantes principales (ACP) | 203 |
| 1. LES INTERPRÉTATIONS GÉOMÉTRIQUES | 204 |
| 2. LE PROBLÈME DES ÉCHELLES DE MESURE ET LA TRANSFORMATION DES DONNÉES | 207 |
| 3. LA REPRÉSENTATION DES MOTS ET DES RÉPONDANTS | 210 |
| 4. L’ANALYSE DU NUAGE DES P VARIABLES (COLONNES) | 211 |
| 5. OBSERVATIONS ET VARIABLES SUPPLÉMENTAIRES | 213 |
| 6. L’ANALYSE FACTORIELLE EN FACTEURS COMMUNS ET SPÉCIFIQUES | 215 |
| 7. LA VALIDATION PAR RÉÉCHANTILLONNAGE (BOOTSTRAP) | 217 |
| 8. DEUX EXEMPLES D’APPLICATION | 219 |
| ANNEXE D. Annexe technique: analyse canonique, régression et variables supplémentaires | 235 |
| ANNEXE E. Annexe R du chapitre 5 | 241 |
| CHAPITRE 6 - L’analyse des correspondances (AC) | 245 |
| 1. LA DÉMARCHE D’APRÈS UN EXEMPLE | 246 |
| 2. LA REPRÉSENTATION SIMULTANÉE DES LIGNES ET DES COLONNES | 253 |
| 3. LES ÉLÉMENTS SUPPLÉMENTAIRES | 256 |
| 4. LES AIDES À L’INTERPRÉTATION | 257 |
| 5. LA VALIDATION PAR RÉÉCHANTILLONNAGE | 261 |
| 6. L’ANALYSE DES CORRESPONDANCES MULTIPLES (ACM) | 264 |
| 7. D’AUTRES MÉTHODES | 271 |
| ANNEXE F. Annexe technique du chapitre 6 | 275 |
| ANNEXE G. Annexe R du chapitre 6 | 285 |
| CHAPITRE 7 - La classificationdes mots et des textes | 289 |
| 1. LA CLASSIFICATION ASCENDANTE HIÉRARCHIQUE (CAH) D’APRÈS UN EXEMPLE | 290 |
| 2. LES MÉTHODES DE CLASSIFICATION HIÉRARCHIQUE, LES REPRÉSENTATIONS ARBORÉES | 296 |
| 3. LES MÉTHODES DE PARTITIONNEMENT | 310 |
| 4. LA CLASSIFICATION MIXTE ET AUTRES MODÈLES | 317 |
| 5. LA SÉRIATION | 322 |
| 6. LA VALIDATION DES CLASSIFICATIONS | 325 |
| ANNEXE H. Annexe R du chapitre 7: calcul et tracé de l’arbrede longueur minimale (ALM) | 329 |
| CHAPITRE 8 - Les stratégies d’analyse et la complémentarité entre analyse en axes principaux et classification | 335 |
| 1. LES FORCES ET LES FAIBLESSES DES MÉTHODES EN AXES PRINCIPAUX | 336 |
| 2. L’UTILISATION CONJOINTE DES AXES PRINCIPAUX ET DE LA CLASSIFICATION | 341 |
| 3. LA DESCRIPTION STATISTIQUE DES CLASSES OU DES CATÉGORIES : VALEURS-TEST ET SPÉCIFICITÉS | 345 |
| 4. LES FRAGMENTS CARACTÉRISTIQUES (OU RÉPONSES MODALES) | 352 |
| 5. LES STRATÉGIES D’ANALYSE : LE CAS DES CORPUS DE RÉPONSES LIBRES (OU DE TEXTES COURTS, NOMBREUX, QUALIFIÉS) | 356 |
| 6. LA FRAGMENTATION D’UN CORPUS EN « UNITÉS DE CONTEXTE » | 378 |
| CONCLUSION | 393 |
| CHAPITRE 9 - L’articulation entre les analyses exploratoires et confirmatoires | 395 |
| 1. EXPLORER, VALIDER, PRÉVOIR… | 395 |
| 2. LA STYLOMÉTRIE ET LA DISCRIMINATION GLOBALE | 398 |
| 3. LES UNITÉS STATISTIQUES DE LA STYLOMÉTRIE | 400 |
| 4. UN EXEMPLE DE MODÈLE STATISTIQUE EN STYLOMÉTRIE | 402 |
| 5. LES ANALYSES DISCRIMINANTES GLOBALES | 409 |
| 6. DISCRIMINATION ET VALIDATION : UN EXEMPLE | 414 |
| 7. LA DISCRIMINATION ET LES RÉSEAUX DE NEURONES | 425 |
| 8. LES RECHERCHES DE THÈMES (TOPIC MODELING) :UN POINT DE VUE | 433 |
| CONCLUSION | 446 |
| ANNEXE I. Annexe technique du chapitre 9 | 449 |
| ANNEXE J. Corpus | 453 |
| ANNEXE K. Logiciels d’analysedes données textuelles | 459 |
| BIBLIOGRAPHIE | 475 |
| INDEX | 501 |
| DANS LA MÊME COLLECTION | 507 |
| Quatrième de couverture | 514 |
Accessibilité
EPUB
- Navigation via une table des matières
Biographies des auteurs
À propos de Ludovic Lebart
Ludovic Lebart, ex-directeur de recherche au Centre national de la recherche scientifique (CNRS), est statisticien et enseignant- chercheur à Télécom ParisTech. Ses sujets de recherche sont la statistique multidimensionnelle, la qualité des enquêtes socio- économiques, l’inférence statistique en analyse des données et les logiciels d’analyse des données qualitatives et textuelles. Il est l’auteur de nombreux livres sur ces thèmes traduits en plusieurs langues.
À propos de Bénédicte Pincemin
Bénédicte Pincemin est chargée de recherche en linguistique au CNRS, au sein de l’Institut d’histoire des représentations et des idées dans les modernités de l’École normale supérieure de Lyon. Elle est membre du projet Textométrie, qui développe le logiciel TXM. Ses travaux portent sur la modélisation de la textualité et de l’activité interprétative pour l’analyse sémantique de corpus.
À propos de Céline Poudat
Céline Poudat est linguiste et maître de conférences en analyse du discours à l’Université Côte d’Azur à Nice. Elle étudie les typologies textuelles et les genres de la communication médiée par les réseaux, qu’elle explore avec les méthodes de l’analyse de données textuelles et de la linguistique de corpus. Elle codirige le consortium national français Corpus, Langues et Interactions.
Avis et commentaires
Compléments
Détails du livre
- Éditeur
- Presses De L'Université Du Québec
- Collection
- Mesure et évaluation
- Catégorie
- Probabilité et statistiques
- Parution
- Août 2019
- Pages
- 514
- Chapitres
- 86
- Langue
- Français
- ISBN EPUB
- 9782760550544
- ISBN Papier
- 9782760550520