Le corpus des Ouvriers des deux mondes : des images et des URLs - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Article De Blog Scientifique Année : 2020

Le corpus des Ouvriers des deux mondes : des images et des URLs

Résumé

Si les documents d’archives ont une part prépondérante dans le projet Time us, ils ne représentent pas pour autant l’intégralité de sa documentation. Les imprimés sont également présents, sous la forme de trois importants dossiers : la collection de la presse ancienne lyonnaise, divers imprimés portant sur le textile en France au XIXe siècle, et le corpus des Ouvriers des deux mondes. Les Ouvriers des deux mondes sont des enquêtes sociologiques réparties en 3 séries et 126 monographies. Initiée par le sociologue Frédéric Le Play (1806-1882), la publication est assurée par la Société internationale des études pratiques d’économie sociale de 1857 à 1928 et représente un total de 13 volumes. Ceux-ci sont aujourd’hui intégralement consultables sur le site Internet Archive. Nous allons nous intéresser dans ce billet aux fichiers de transcription de ces volumes et au lien entre ceux-ci et les images numérisées d’origine. Le script lse od2m, écrit par Alix Chagué, avait automatiquement segmenté et transcrit les images, puis encodé et structuré en xml-tei les textes bruts ainsi obtenus; la sortie avait résulté en 13 fichiers xml. Ces fichiers « sources » avaient ensuite été scindés en 222 fichiers xml correspondant à autant de divisions logiques des volumes : les monographies bien sûr, mais également les introductions, tables des matières et autres éléments de paratexte. Des opérations de vérification ont permis de réduire le nombre de fichiers à 192.
Fichier principal
Vignette du fichier
des_img_aux_urls.pdf (118.28 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03118736 , version 1 (22-01-2021)

Licence

Paternité

Identifiants

  • HAL Id : hal-03118736 , version 1

Citer

Jean-Damien Généro. Le corpus des Ouvriers des deux mondes : des images et des URLs. 2020. ⟨hal-03118736⟩
298 Consultations
67 Téléchargements

Partager

Gmail Facebook X LinkedIn More