Culturomique

Cet article ne cite pas suffisamment ses sources (juillet 2021).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

La culturomique est une discipline issue des sciences sociales, alliant des avancées et analyses dans des champs de recherche du langage. C'est une forme de lexicologie informatique qui étudie notamment le comportement humain et les tendances culturelles grâce à l'analyse quantitative de textes numérisés^[1].

Comme c'est le cas pour la génomique – science visant à étudier le vivant en analysant les séquences génétiques – la culturomique se base sur l'analyse de mégadonnées ou de séquences d'information sur un langage, afin d'en tirer des méta-informations. Cela étant, la culturomique n’a rien à voir avec la génomique si ce n’est l'analyse d’une séquence de signes que sont les nucléotides – en génomique – et les mots (ou phrases/expressions) – en culturomique. En somme: au lieu d'étudier un texte en particulier, la culturomique se propose de passer par la méta-analyse de textes d'un corpus, voire de l'ensemble des textes de l'humanité^[2].

Étymologie

Le terme culturomique (« culturomics », en anglais) est un néologisme américain formé des mots culture et omique.

Malgré son apparente « universalité » artistique, le terme culturomique s'applique quasi-exclusivement aux écrits, à la littérature et aux pratiques linguistiques.

Historique

La discipline est récente dans l'histoire des Sciences sociales et l'on peut identifier la genèse de cette technique d'analyse au croisement entre linguistique, sciences de l'informatique et histoire^[3]. Elle apparaît ainsi dans certaines sources francophones sous le nom de « culturmétrique ».

Le terme est utilisé pour la première fois en 2010 dans un article du journal Science intitulé: « Quantitative Analysis of Culture Using Millions of Digitized Books », coécrit par les chercheurs de Harvard Jean-Baptiste Michel et Erez Lieberman Aiden^[4].

Dans un article publié en 2012^[5], Alexander M. Petersen et ses coauteurs ont constaté un « changement spectaculaire dans le taux de natalité et de mortalité des mots » : les « décès » ont augmenté et les « naissances » ont ralenti. Ils identifient ainsi un « point de bascule » universel dans le cycle de vie de nouveaux mots : ils entrent dans le lexique à long terme ou tombent en désuétude environ 30 à 50 ans après leur introduction dans une langue^[6].

Des approches culturomiques ont été adoptées dans l'analyse du contenu des journaux dans un certain nombre d'études réalisées par I. Flaounas et ses co-auteurs^[7]. Ces études ont montré des tendances macroscopiques à travers différents organes de presse et pays. En 2012, une étude portant sur 2,5 millions d'articles suggère que les préjugés sexistes dans la couverture de l'actualité dépendent du sujet et de la lisibilité des articles de journaux.

Une autre étude menée par les mêmes chercheurs, portant sur 1,3 million d'articles provenant de 27 pays, a montré des schémas macroscopiques clairs dans le choix des sujets à couvrir^[8]. Cette étude suggère que des pays font des choix similaires lorsqu'ils sont liés par des liens économiques, géographiques et culturels. (Les liens culturels ont été suggérés par la similitude des votes pour le concours de l'Eurovision.) Cette étude a été réalisée à grande échelle, en utilisant des techniques de traduction automatique, de catégorisation de texte et d'extraction d'informations.

En 2013, une étude s'intéresse au potentiel de détection de changement « d'humeur » ou de « mentalité » d'une population, via le réseau social en ligne Twitter (T. Lansdall-Welfare et al^[9].). L'étude prend en compte 84 millions de tweets générés par plus de 9,8 millions d'utilisateurs au Royaume-Uni, sur une période de 31 mois, montrant comment le sentiment du public a changé avec l'annonce de réductions de dépenses et investissements publics.

Toujours en 2013, dans une étude réalisée par S. Sudhahar et al., l'analyse syntaxique automatique de corpus textuels a permis d'extraire des méta-informations concernant des sujets et leurs réseaux relationnels à une vaste échelle, transformant des données textuelles en données de réseau^[10]. Ces réseaux, pouvant contenir des milliers de nœuds, sont ensuite analysés à l'aide d'outils issus de la théorie des réseaux afin d'identifier les acteurs clés, des communautés, et des propriétés générales telles que la robustesse ou la stabilité structurelle du réseau global, ou la « centralité » de certains nœuds (ou sujets).

Recherche

Les chercheurs en culturomique exploitent usuellement des mégadonnées de bases de données internationales pour étudier les phénomènes culturels qui se reflètent par exemple dans le langage, l'usage des mots, la sémiotique et la sémiologie.

Les élections américaines de 2012, sous le prisme de la culturomique sémiologique (ici: tri par termes utilisés sur un média social en ligne), par Sudhahar *et al*., 2015^[11]

Les chercheurs Michel et Aiden participèrent à la création du projet Google Labs Google Ngram Viewer, qui utilise les n-grammes pour analyser la bibliothèque numérique de Google Books afin de déceler des modèles culturels dans l'utilisation des langues au fil du temps.

Étant donné que l'ensemble de données Google Ngram n'est pas un échantillon impartial^[12] et qu'il ne comprend pas de métadonnées, il existe plusieurs pièges à éviter lorsqu'on l'utilise pour étudier l'usage d'une langue ou la popularité de termes^[13]. La littérature médicale représente une part importante, mais changeante, du corpus, ce qui ne tient pas compte de la fréquence d'impression ou de lecture de la littérature.

Dans une étude intitulée Culturomics 2.0, Kalev H. Leetaru examine des archives d'actualités, y compris la presse écrite et les médias audiovisuels (transcriptions de programmes de télévision et de radio), à la recherche de mots qui donnent un ton ou une « humeur », ainsi que de données géographiques^[14]. Ces recherches ont permis de prédire rétroactivement le printemps arabe de 2011 et d'estimer avec succès l'emplacement final d'Oussama Ben Laden, à 200 km près.

En 2014, Suchanek et al. suggèrent que la culturomique peut à présent croiser les bases de données médiatiques (presse écrite) et savantes^[15] et ainsi ouvrir de nouveaux champs historiques et culturels de compréhension.

En 2015, la chercheuse Sanna Alas publie un article explicatif sur le potentiel analytique du programme Ngrams de Google^[16].

Outils

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Bases de données

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

YAGO (Institut Max-Planck]
Visualisation Ngrams (Google)
DBpedia

Exemples d'application

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Un partenariat entre la Bibliothèque nationale de France et Google a été signé au début des années 2010 pour accélérer la numérisation de centaines de milliers de livres^[17].

Arts

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Isaac Asimov imagina la psychohistoire dans les années 1940, discipline imaginaire qui étudie les mouvements sociaux historiques à l'aune de la psychologie de groupe^[18]. Certaines études culturomiques mettent en avant ce lien entre psychologie de masse et reconstitutions historiques ou études prévisionnelles.

Limitations

Cette technique d'analyse étant basée quasi-exclusivement sur des bases de données numériques (récentes et largement incomplètes), elle tend à exclure tout ce qui n'y est pas présent ou présenté expressément. Par exemple, des mots-clés ou des langues entières peuvent y être sous-représentés ou sur-représentés et ainsi fausser les conclusions d'une étude basée sur ces méta-données^[19]. Ainsi, on peut avancer que ce champ de recherche doit être d'abord étudié lui-même et bien défini, avant d'être utilisé comme un outil impartial de recherche.

Des limitations sérieuses ont également été émises envers le programme Ngrams de Google^[20].

Sources

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Culturomics » (voir la liste des auteurs).
(en) Culturomics: Quantitative Analysis of Culture Using Millions of Digitized Books (vidéo https://yewtu.be)

Notes et références

↑ Big Data La Révolution des données est en marche, Kenneth Cukier, Éd. Robert Lafont, 2013 p. 104
↑ (fr) https://hal.archives-ouvertes.fr/hal-03152747/document
↑ (fr) https://www.clionautes.org/etudes-culturmetriques.html
↑ (en) Michel, Jean-Baptiste; Liberman Aiden, Erez (2010). Quantitative Analysis of Culture Using Millions of Digitized Books. Science. 331 (6014): 176–82. doi:10.1126/science.1199644
↑ Petersen AM, Tenenbaum J, Havlin S, Stanley HE. Statistical laws governing fluctuations in word use from word birth to word death. Sci Rep. 2012;2:313. doi:10.1038/srep00313
↑ https://www.wsj.com/articles/SB10001424052702304459804577285610212146258
↑ (en) Flaounas, Ilias; Ali, Omar; Lansdall-Welfare, Thomas; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2013). Research Methods in the Age of Digital Journalism. Digital Journalism. 1: 102–116. doi:10.1080/21670811.2012.714928
↑ (en) Flaounas, Ilias; Turchi, Marco; Ali, Omar; Fyson, Nick; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2010). The Structure of the EU Mediasphere. PLOS ONE. 5 (12): e14243.
↑ (en) https://dl.acm.org/doi/10.1145/2187980.2188264
↑ (en) Sudhahar, Saatviga; De Fazio, Gianluca; Franzosi, Roberto; Cristianini, Nello (2015). Network analysis of narrative content in large corpora. Natural Language Engineering. 21: 81–112. doi:10.1017/S1351324913000247
↑ (en) Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2015). Automated analysis of the US presidential elections using Big Data and network analysis. Big Data & Society. 2. doi:10.1177/2053951715572916.
↑ (en) Eitan Adam Pechenick, Christopher M. Danforth et Peter Sheridan Dodds, « Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution », PLoS ONE, vol. 10, n^o 10,‎ 7 octobre 2015 (ISSN 1932-6203, PMID 26445406, PMCID 4596490, DOI 10.1371/journal.pone.0137041, lire en ligne, consulté le 22 août 2021).
↑ (en-US) « The Pitfalls of Using Google Ngram to Study Language », Wired,‎ 10 décembre 2015 (ISSN 1059-1028, lire en ligne, consulté le 22 août 2021).
↑ (en) Kalev H. Leetaru, « Culturomics 2.0: Forecasting Large-Scale Human Behavior Using Global News Media Tone In Time And Space », First Monday, vol. 16, n^o 9,‎ 5 septembre 2011 (DOI 10.5210/fm.v16i9.3663, lire en ligne).
↑ (en) Fabian M. Suchanek et Nicoleta Preda, « Semantic culturomics », Proceedings of the VLDB Endowment, vol. 7, n^o 12,‎ 1^er août 2014, p. 1215–1218 (ISSN 2150-8097, DOI 10.14778/2732977.2732994, lire en ligne, consulté le 22 août 2021).
↑ Sanna Alas, « Quantifier la littérature, qualifier la quantification : la culturomique et le N gramme de Google », Statistique et société, vol. 3, n^o 3,‎ décembre 2015 (lire en ligne).
↑ https://www.franceculture.fr/emissions/lessai-et-la-revue-du-jour-14-15/le-numerique-et-la-culture-revue-reseaux
↑ (en) https://www.nextbigfuture.com/2011/09/culturomics-20-forecasting-large-scale.html
↑ (fr) https://images.math.cnrs.fr/+Des-intuitions-trompeuses-en+.html
↑ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4596490/