Je me fais l'écho d'un billet d'Eli Jacobowitz publié sur son blog "Clarifying and Explaining" et intitulé : The virtues and limits of cataloging.

Dans cet article de vulgarisation, l'auteur met en balance la pratique des tags et de la folksonomie -i.e. indexation par les internautes- d'une part et d'autre part le catalogage professionnel des bibliothécaires, dans une société débordante d'informations et de données. Les premiers constats ne sont pas en faveurs des tags qui semblent fragiles :

  • tous apparaissent au même niveau sans réelle catégorisation au contraire des standards MARC ou DUBLIN CORE ;
  • il n'y a aucun contrôle dans le vocabulaire utilisé et "italien" ne donnera pas les mêmes résultats qu' "Italien" ou "italiens" au contraire des vocabulaires contrôlés des professionnels
  • de nombreux problèmes persistent ensuite au moment du catalogage pour décrire correctement l'objet, qui plus est pour des ressources numériques et là encore, les bibliothécaires l'emportent en ce qu'ils ont établi des règles de catalogages ;
  • On pourrait ajouter le caractère personnel d'une indexation non contrôlée et les problèmes de synonymie (une personne pourra utiliser "roman" quand une autre emploiera le terme "littérature") ou encore passer outre les barrières de l'homographie (le mot-clef "mousse" désigne-t-il un marin, un dessert, un végétal ?)...
Les pratiques professionnelles semblent donc avoir de beaux jours devant elles. Oui mais voilà, le problème est que pour s'en servir, il faut avoir un diplôme en bibliothéconomie alors même que la masse d'information disponible sur internet semble doubler tous les trois ans et l'auteur de se demander : "It is a serious and valid question whether it will be humanly possible to catalog even the fraction of information that we find worth keeping". Il conclut alors que le catalogage professionnel doit s'adapter, ou mourir.

Confiant, le billet se poursuit sur la remarque qu'aujourd'hui nous pouvons avoir des outils qui écoutent et suivent les recommandations des bibliothécaires mais ne peut s'empêcher de conclure :

Eventually, robots might catalog for us. (Librarians shudder.) What we now know is just how far away that is - bot catalogers will need much better AI than currently exists. But in order for this project to even be possible, we have to make our data bot-readable. That means implementing some of the cataloging technologies invented and refined by librarians over the centuries.

Les robots au final devraient cataloguer pour nous, mais pour ce faire, il faut rendre nos données aisément accessibles à ces robots. Nous avons besoin, poursuit-il, de standardiser formats et contenus des métadonnées. Les ressources numériques n'ont pas seulement besoin de métadonnées, mais également de méta-métadonnées qui décrivent les standards qu'elles reconnaissent.

Plusieurs solutions sont à l'étude pour régler ces problèmes et se rapprocher d'un web sémantique, ce que Xavier Lacot précise :

L'expression de faits non ambigus au sujet de ressources données peut se faire par le biais d'ontologies ; depuis 2004, le W3C (World Wide Web Consortium) s'est doté d'un langage XML permettant de décrire des ontologies (OWL - Web Ontology Language). Ce qui manque, désormais, ce sont les outils adaptés pour peupler ces ontologies. Les wikis sémantiques sont une tentative, mais leur emploi demeure encore trop complexe pour obtenir du succès auprès du grand public. Une fois que ces outils seront en place, l'universalisation des informations disponibles sur le Web pourra à nouveau faire un pas en avant.

Et Eli Jacobowitz de clore en affirmant qu'utiliser des formats ouverts serait déjà une première étape.

Autrans 2004


Pour aller plus loin: