Plateforme LorExplor

De Wicri France
Aller à : navigation, rechercher

La plateforme LorExplor est une solution technique, développée dans le cadre du projet LorExplor, et qui permet d'exploiter localement un corpus de documents numériques extrait de la plateforme de services ISTEX.

La démarche LorExplor

Une expérimentation collective d'exploration de données.

Objectif pédagogique

Le cadre initial qui a conduit à l'évolution de la plateforme LorExplor est la formation d'ingénieurs ou de chercheurs aux techniques et pratiques de l'ingénierie de la connaissance.

Trois volets sont abordés :

  1. La rédaction collective d'articles ou de documents scientifiques techniques destinés à un assez large public[1] sur Internet. Ce premier objectif rejoint celui de nombreuses universités, notamment américaines, qui investissent sur Wikipédia, ou mieux qui développent des applications autonomes. Un excellent exemple est donné par le projet MicrobeWiki (LogoWicriWicriFrMars2010.png)[2] dans lequel près de 3000 étudiants d'une vingtaine d'universités américaines construisent un site de référence[3] à visibilité internationale[4] sur la microbiologie.
  2. La structuration d'un ensemble plus ou moins complexe de connaissances par des techniques sémantiques. Nous nous appuyons notamment sur les travaux de l'Université de Karlsruhe (Semantic MediaWiki) dont les utilisations dans l'enseignement supérieur sont multiples[5]. Un objectif de ce volet est de donner aux étudiants une ouverture sur technologies utilisables pour aborder ultérieurement un large spectre d'applications : documentation techniques, données de la recherche, édition avancée.
  3. Concernant plus particulièrement LorExplor, l'objectif fondamental est de donner aux étudiants une bonne maîtrise des techniques courantes d'exploration et d'analyse de corpus de documents. Plus précisément :
    • De façon générale, l'exploration des métadonnées permet une identification des acteurs et des grandes tendances d'un domaine scientifique,
logo import Wikipedia Suite en cours de rédaction

Démarches exploratoires accompagnées

Un des objectifs principaux de la plateforme LorExplor est la capacité à donner des éléments de réponse à un problème informationnel en quelques heures. Cet objectif est un intermédiaire entre les deux approches les plus courantes :

  • utilisation basique d'un portail, où l'on espère une réponse en 3 clics.
  • procédure classique de type veille avec sous-traitance (et donc cahier des charges).

Dans les 2 situations, on suppose que le demandeur n'a aucune compétence dans la résolution de problèmes informationnels. Au contraire l'approche LorExplor s'inscrit dans une démarche d'appropriation, ou au moins de travail en équipe.


Plus précisément sur un problème donné[6], la démarche initiale LorExplor consiste à :

  • identifier, puis télécharger un corpus censé contenir la réponse à la question posée,
  • construire un serveur d'exploration et démarrer des investigations par des navigations dans le serveur,
  • pousser les investigations plus avant en utilisant des outils informatiques,
  • élaborer des règles de curation qui vont améliorer la qualité du corpus (par rapport à la question posée),
  • restituer les résultats.

Ce processus est naturellement itératif.

Observatoires, portails, sites éditoriaux

La plateforme LorExplor

TP Paris 8 2015 Diapositive03.jpg

Elle se compose des éléments suivants :

  • la bibliothèque DILIB,
  • un générateur de Serveurs d'exploration,
  • la solution Semantic MediaWiki,
  • le réseau Wicri.

Adaptations Dilib pour LorExplor

LogoDilib.gif

Le sigle DILIB (Data & Information LIBrary) identifie un projet de bibliothèques de composants logiciels pour les applications liées aux documents et au traitement de l'information.

L'idée générale est celle d'un jeu de construction type Logo ou Meccano où les composants de base sont des fonctions logicielles avec des interfaces normalisées XML. Par exemple, un fichier inverse est un ensemble de documents XML (voir un extrait du fichier inverse auteur sur le serveur Aussois).

Le noyau est un parser XML qui est adapté aux flots de données qui peut traiter des flux de plusieurs millions de documents XML.

Voir aussi

Notes
  1. La cible principale est celle des partenaires des universités et centres de recherche. Les articles devraient rester lisibles par des lycéens.
  2. Le projet MicrobeWiki est décrit sur Wicri/Eau
  3. près de 2000 pages de contenu au 30 aout 2015
  4. 78.980.882 visites au 30 aout 2015.
  5. Voir par exemple l'article de Daniel Schneider & Julien DaCosta de l'Université de Genève : Adding power to educational and research wikis with Semantic MediaWiki
  6. Par exemple : quelles sont le communautés scientifiques qui sont présentes à Aussois ?