Acfas (2017) Ducloy
|
Sommaire
Résumé
Avec le soutien du programme ISTEX, le démonstrateur Wicri expérimente l’élaboration d’informations de synthèse en explorant des corpus scientifiques. Son socle est un réseau de wikis sémantiques (Semantic MediaWiki). Les corpus sont traités dans des plateformes de curation et d’exploration, fabriquées, sous Unix, avec une bibliothèque de composants XML ou PHP. Avec un haut niveau de personnalisation, la version actuelle permet de fusionner des métadonnées hétérogènes (ISTEX, HAL, Pascal/Francis, PubMed, PubMed Central) avec réduction des doublons et homogénéisation des données. Il est possible ensuite d’exploiter le texte intégral.
Le rédacteur, humaniste numérique, est le véritable pilote d’une étude. Il bénéficie des performances de MediaWiki pour rédiger un texte scientifique en mode collaboratif. Il assemble des briques XML pour obtenir des modèles wiki contenant des cartes et des tableaux de résultats qu’il introduira dans les pages wiki. Il manipule l’environnement sémantique pour exprimer les règles utilisées dans la curation des données.
Cette infrastructure, encore expérimentale, est notamment utilisée pour des travaux dirigés dans des Master en science de l’information. Sur des sujets en rapport avec le contenu des wikis thématiques (environnement, linguistique, informatique…) ou régionaux (Allemagne, France, Brésil, Lorraine…), un groupe d’étudiants peut ainsi analyser un ensemble de plusieurs milliers de documents et rédiger des observations synthétiques.
Les diapositives
Les supports complets sont disponibles sous les formats :
Introduction
Le projet LorExplor veut explorer les usages relatifs à l'exploration de vastes corpus dans un contexte de coopération (accompagnement) entre les spécialistes du domaine d'application et ceux du numérique. En pratique, trois cibles sont privilégiées :
- Aide au pilotage stratégique
- Les démarches exploratoires avec des contraintes de temps. Par exemple, dans le cadre d'une procédure de réponse à un appel d'offres de l'Agence universitaire de la Francophonie : quelles sont, par exemple, les principales équipes canadiennes avec lesquelles l'Université Paris 8 pourrait s'allier sur une thématique portant sur les bibliothèques numériques.
- A côté de services très fortement concernés par ce type d'approche (relations internationales, partenariats, valorisation), toute équipe de recherche peut tirer parti de ce type d'approche une à deux fois par an. Une estimation du nombre d'interventions de ce type est comprise entre 50 000 à 150 000 par an.
- Utilisation d'une infrastructure encyclopédique pour les formation
- La constitution de sites encyclopédique de références, s'inscrivant sur du long terme.
- Des projets éditoriaux dans le cadre de formations en Master ou en dernière année d'école d'ingénieur. Ils reposent sur des sessions d'une à deux semaines où un groupe d'étudiants rédige collectivement un dossier de synthèse sur un wiki sémantique en explorant des corpus. La même approche pour une thèse dans la phase d'étude de l'existant est plus conséquente (ordre de grandeur un mois).
- Formation à l'exploration de corpus de textes scientifiques
Exploration des connaissances, serveur d'exploration
- Recherche
- On sait qu'une information existe, mais on a perdu le chemin pour y accéder.
- Exploration
- On recherche des informations que l'on ne connait pas :
- Quelle est l’œuvre de Mozart la plus citée ?
- Sur Wicri/Musique Sonate pour deux pianos (Mozart)
Pour la plus ancienne référence à l'hypertexte voir sur le wiki Ticri/H2PTM :
- Recherche débouchant sur des explorations
- Où trouver une explication compréhensible sur la relation entre les 8 tons de l'office (magnificats de la Renaissance) et les tonalités classiques (Do majeur...) ?
Un exemple, en cours de mise au point (curation), sur ce wiki :
- les principaux organismes intervenant dans la recherche sur le Parkinson au Canada
- Université de Toronto (1266)
- Université McGill (537)
- Université de Calgary (317)
- Université du Manitoba (192)
- Université McMaster (173)
- Université du Québec à Montréal (96)
- Université Columbia (48)
- University College de Londres (44)
- Université de Washington (38)
- Université de Cambridge (38)
- Université de médecine d'Innsbruck (35)
- Baylor College of Medicine (33)
- Université de Floride du Sud (29)
- Université de Californie du Sud (26)
- Université de Manchester (25)
Un exemple, les coopérations du Canada avec la France autour de la Maladie de Parkinson
Un autre exemple sur la lixiviation du plomb dans le verre avec une projection sur le Canada.
Une cyberinfrastructure humaniste
Mediawiki
La nature de l'information, culturelle ou scientifique, amène de fortes contraintes éditoriales. La page Aussois, sur le wiki Wicri/France, donne un exemple d'introduction. Le début utilise « de façon classique » les outils et pratiques de Wikipédia. La fin de la page a été réalisée avec les techniques présentées ici.
- Exemples plus significatifs
- Sur ce wiki :
- cette présentation pour le colloque de l'Acfas est enrichie par un ensemble de démonstrations, avec notamment des liens vers des serveurs d'exploration dont le contenu évolue dans le temps.
- Dans le réseau Wicri,
- l'adaptation de la traduction française de la pièce de Pouchkine Mozart et Salieri demande de manipuler un outil de notation musicale (LilyPond).
- elle est intégrée dans un dossier Mozart qui donne accès à environ 15 000 documents (en majorité ISTEX).
- Aspects techniques concernant MediaWiki
La solution MediaWiki est puissante mais son utilisation avancée demande un dispositif d'accompagnement. Sur un plan informatique il faut un soutien logistique relativement léger en termes de temps d'intervention mais possédant une solide expertise technique. Au niveau des pratiques, elle demande une stratégie de formation et d'accompagnement des contributeurs.
Semantic MediaWiki
Voir, sur ce wiki, les pages :
Le réseau Wicri
Le réseau
Un atelier flexible
Quelques résultats
Pour voir quelques statistiques :
Dans le cadre des TD du master «document numérique de l'Université de Lorraine en 2016[1].
- Le scalaire (poisson) - sur Wicri/Eau.
- L'oranger - sur Wicri/Bois et Wicri/Agronomie.
- Le Libre accès en Belgique sur Wicri/Belgique, et sur le wiki Ticri/CIDE
- La visibilité du Havre sur Wicri/France et Wicri/Eau.
- Le cobalt au Maghreb sur Wicri/Terre, Wicri/Maroc et Wicri/Afrique.
Dans le cadre des TD du master « humanités numériques de l'Université Paris 8 en 2017[2].
- La maladie de Parkinson en France.
- La paléopathologie.
- Le nickel au Maghreb.
- L'Université de Trèves.
- L'esturgeon.
- La thérapie familiale en francophonie,
- Le renard.
- Système d'information stratégique et agriculture.
- Le chêne en Belgique.
Retours d'expériences
Conclusion
Visite guidée
Voir aussi
- Notes
A pour auteur | Thierry Daunois + et Ali Tebbakh + |
A pour premier auteur | Jacques Ducloy + |
A pour personnalité citée | Lyne Da Sylva + |
A pour titre | Une cyberinfrastructure numérique et humaniste pour analyser et diffuser la science + |
Est dans les actes | Acfas 2017 Montréal - Analyser la science + |