Actions
  • shareshare
  • link
  • cite
  • add
add
auto_awesome_motion View all 5 versions
Other research product . Other ORP type . 2020

Le corpus des Ouvriers des deux mondes : des images et des URLs

Généro, Jean-Damien;
French
Published: 19 Jun 2020
Publisher: HAL CCSD
Country: France
Abstract
Billet du carnet de recherche de l'ANR Time Us relatif aux fichiers XML-TEI de transcription des volumes des Ouvriers des deux mondes et au lien entre ceux-ci et les images numérisées d’origine.; Si les documents d’archives ont une part prépondérante dans le projet Time us, ils ne représentent pas pour autant l’intégralité de sa documentation. Les imprimés sont également présents, sous la forme de trois importants dossiers : la collection de la presse ancienne lyonnaise, divers imprimés portant sur le textile en France au XIXe siècle, et le corpus des Ouvriers des deux mondes. Les Ouvriers des deux mondes sont des enquêtes sociologiques réparties en 3 séries et 126 monographies. Initiée par le sociologue Frédéric Le Play (1806-1882), la publication est assurée par la Société internationale des études pratiques d’économie sociale de 1857 à 1928 et représente un total de 13 volumes. Ceux-ci sont aujourd’hui intégralement consultables sur le site Internet Archive. Nous allons nous intéresser dans ce billet aux fichiers de transcription de ces volumes et au lien entre ceux-ci et les images numérisées d’origine. Le script lse od2m, écrit par Alix Chagué, avait automatiquement segmenté et transcrit les images, puis encodé et structuré en xml-tei les textes bruts ainsi obtenus; la sortie avait résulté en 13 fichiers xml. Ces fichiers « sources » avaient ensuite été scindés en 222 fichiers xml correspondant à autant de divisions logiques des volumes : les monographies bien sûr, mais également les introductions, tables des matières et autres éléments de paratexte. Des opérations de vérification ont permis de réduire le nombre de fichiers à 192.
Subjects

Python, Information extraction, Digital humanities, TEI, XML, Time us, Humanités numérique, Edition, Extraction d'informations, Histoire du textile, Images, [SHS]Humanities and Social Sciences, [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [SHS.INFO]Humanities and Social Sciences/Library and information sciences

moresidebar