Vers une corrélation sémantique entre documents
sur le corpus du J.O.R.F.


Alors que de plus en plus de textes sont diffusés sous forme électronique, l'accès à l'information pertinente est un des principaux problèmes soumis à l'informatique documentaire. D'après la définition de Vickery, l'analyse documentaire consiste à dériver d'un document un ensemble de mots qui lui sert de représentation condensée. Cette représentation peut être utilisée pour identifier le document, pour procurer des points d'accès dans la recherche de la documentation, pour renseigner sur son contenu, ou pour servir de substitut au document. Aujourd'hui, cette définition reste valable et le problème de l'analyse documentaire se pose par rapport aux techniques informatiques existantes, les principaux outils mis à notre disposition pour interroger des bases documentaires sont les moteurs de recherche.

Les moteurs de recherche traditionnels se caractérisent par le fait, qu'ils prennent en entrée une question et qu'ils renvoient en sortie un panel de réponses plus ou moins pertinentes triées selon leur qualité informationnelle. Cette utilisation qui peut, la plupart du temps, être très utile, comporte tout de même une limitation majeure qui est que l'utilisateur doit formuler correctement sa question s'il souhaite obtenir une réponse intéressante. Malheureusement dans bon nombre de cas l'utilisateur a en sa possession un article sur lequel il voudrait en savoir plus et à partir duquel il aimerait trouver des documents similaires. Dans ce cas précis, le moteur de recherche peut être considéré comme un obstacle car il nécéssite de formaliser correctement la problématique pour espérer avoir un retour utile.

Dans cette optique notre but est de vouloir réaliser une méthode de corrélation sémantique entre documents pour faciliter la recherche d'information sur le web. Notre approche est en premier lieu  de vouloir comprendre d'un point de vue sémantique un texte donné pour essayer de le rapprocher de documents ayant une signification voisine. Dans cette voie nous nous devons d'appréhender la problématique du sens qui est une notion complexe. Ainsi en se référant aux études menées par Gérard Sabah pour tenter de la formaliser, on s'aperçoit qu'elle reste floue car a priori "le sens d'un terme est ce qu'il veut dire". Des travaux antérieurs menés par Ogden et Richard montrent la volatilité de cette notion, ainsi en témoigne le nombre d'interprétations que l'on peut faire du sens, ce qui souligne la difficulté pour statuer sur son éventuelle définition précise et non-ambigüe. Toutefois l'ensemble des travaux qui lui sont consacrés permettent la mise en avant d'une différence importante entre le sens intrinsèque et le sens interprété, elle porte notamment sur la prise en considération ou non du contexte pour analyser la sémantique d'un document par exemple.

La mise au point de notre méthode de corrélation sémantique doit nécessairement tirer avantage de cette constatation et utiliser la notion de contexte pour effectuer une mise en relation des documents. L'objectif de notre travail est dans un premier temps de concevoir un modèle qui fractionne chaque document en élément sémantique unitaire, des éléments qui peuvent représenter alors une idée, une notion, un syntagme nominal ou encore un mot. Ce premier travail doit nous permettre de créer, pour chaque document à corréler, un résumé pertinent du document initial.

La corrélation qui s'en suit prend comme point de départ ce résumé pour rechercher tous les documents de notre base documentaire contenant toute ou partie des éléments du résumé. Il ne s'agit pas simplement de faire une vérification sur la présence ou l'absence de certains mots du vocabulaire du texte initial dans les autres documents de notre base mais il s'agit bel et bien de voir si leur signification est présente ou non.

Dans cette optique, nous espérons obtenir une méthode de corrélation singulière qui se détache des conceptions antérieures, une réalisation qui ne s'appuye pas sur une somme de connaissance existante comme des dictionnaires ou des thésaurus mais qui se justifie par l'étude nominale de chaque élément sémantique du texte.

Ce sujet s'étend naturellement à la génération automatique de résumé, à la l'étude des candidats termes ainsi qu'à l'extraction des syntagmes nominaux pour un document.

Ce sujet comprend une partie importante d'implémentation et d'expérimentation qui reste en liaison avec des industriels dans le domaine de la « recherche d'information » sur internet.