Méthodes et outils d'exploration multilingue sur internet en vue d'une veille technologique sur un domaine restreint

Accueil JeROniMo
Mon CV (HTML)
Mon sujet de thèse
Etat d'avancement 98
M'écrire

Méthodes et outils d'exploration multilingue sur internet en vue d'une veille technologique sur un domaine restreint.

Doctorant
Jérôme CHARRON

Directeur de thèse
Christain FLUHR

Mots clés : internet, world wide web, collecte document, robot, multilinguisme, identification langue, méta-moteur, langage naturel

Introduction

La croissance exponentielle d'Internet en terme de nombre de documents disponibles, et le besoin stratégique de plus en plus important des entreprises d'aujourd'hui de maîtriser l'information disponible nécessitent la mise en place d'outils de veille informative sur Internet toujours plus puissants et surtout toujours plus efficaces.

Ainsi, les informations accessibles grâce au réseau Internet sont tout à la fois très diverses et de qualité très inégales. Elles représentent toutefois une information très riche, sans cesse renouvelée et de ce fait très utile, à condition de pouvoir traiter un sujet de manière exhaustive, de disposer d'outils de récupération, de tri et de synthèse de l'information et de briser la barrière des langues.

La structure d'Internet et l'impressionnant volume des ressources qui y sont disponibles forcent à des choix quantitatifs et qualitatifs quant au fonctionnement des systèmes de recherche. Privilégier l'aspect qualitatif oblige à ne prendre en compte qu'un nombre restreint de sources d'information, mais permet d'apporter des services à forte valeur ajoutée ; alors qu'un système mettant l'accent sur l'aspect quantitatif effectue typiquement une indexation automatique sur le plus grand nombre de pages possibles, mais avec des méthodes élémentaires pour être rapide.

Nous nous proposons de mettre en place un système de veille alliant quantité et qualité se basant sur des outils linguistiques puissants et des méthodes et outils d'exploration multilingues sur Internet à la fois exhaustifs et robustes.

Nos travaux sur les systèmes de recherche d'information sur internet ont débuté en DEA (DEA IST - Information Scientifique et Technique - Université Paris 7) pendant un stage au CEA (Commissariat à l'Energie Atomique) qui consistait à développer une passerelle d'interrogation d'un serveur documentaire Spirit à partir d'un navigateur W3 (World Wide Web) standard. Basée sur l'interface CGI (Common Gateway Interface), cette application baptisée SPIRIT-W3 est aujourd'hui largement utilisée pour la recherche documentaire sur l'ensemble des centres du CEA.

Au terme de ce travail, SPIRIT-W3 était le premier système permettant l'interrogation de bases documentaires par le biais d'un navigateur W3 standard (Mosaïc, Netsape, Internet Explorer, etc.). Tout en conservant les fonctionnalités du système client/serveur traditionnel, SPIRIT-W3 reposait sur une architecture modulaire totalement ouverte pouvant être adaptée à toutes les situations par la simple modification de quelques fichiers HTML enrichis (nous posions les bases du langage XML - eXtensible Markup Language).

De ce premier rapprochement entre le système documentaire Spirit et Internet, il nous semblait tout naturel dans une deuxième phase de doter Spirit d'un robot de collecte de documents sur Internet afin d'utiliser ce dernier comme source de documents de Spirit. Le robot de collecte devant parcourir de manière automatique et systématique les liens hypertexte composant la structure du W3 (à la manière d'autres outils tels que Lycos ou Alta Vista), afin de récupérer l'ensemble des documents accessibles, de les indexer et enfin de permettre d'effectuer des recherches sur la base de documents ainsi constituée. Un tel système pourrait fournir toute la richesse et la souplesse du multilinguisme, de la reformulation et de l'interrogation en langage naturel sur du texte intégral proposés par Spirit, et ne plus être borné à l'interrogation par mots-clés ou par expressions booléennes comme dans les systèmes aujourd'hui disponibles sur Internet.

Présentation du sujet de thèse

Notre thèse se positionne comme le premier maillon d'une veille sur Internet. Il nous appartient d'explorer le réseau afin de découvrir et récupérer (nous emploierons souvent le terme de collecte) tous les documents présents sur Internet appartenant à un sujet de veille formulé par un utilisateur.

L'ensemble de notre réflexion va donc s'axer autour de deux pôles essentiels : la veille technologique et Internet. Chacun de ces mondes nous impose des problématiques différentes.

La veille nous impose trois contraintes essentielles pour la collecte des documents :

la limitation du bruit : la veille s'effectuant sur un domaine restreint, nous devons limiter notre collecte aux documents appartenant ou étant fortement connexes à ce domaine ;
la limitation du silence : afin d'effectuer une veille efficace, il faut tendre vers l'exhaustivité des documents récupérés et ne surtout pas "rater" des documents pertinents pour le domaine ;
la gestion du facteur temporel : la veille doit permettre de connaître la situation d'un domaine à un instant donné, mais également de connaître les tendances et évolutions dans le temps du domaine étudié.

Quant à Internet, il peut être caractérisé par :

son multilinguisme et l'utilisation de codages de caractères variés ;
son aspect dynamique : à chaque instant des documents et des serveurs se créent, d'autres disparaissent, sont temporairement indisponibles, dupliqués ou déplacés ;
son absence de structure : aussi bien au niveau des documents, que de leur organisation ;
ses formats hétérogènes : on retrouve sur Internet tous les formats de fichiers existant en informatique. Il faut alors pouvoir les interpréter ;
sa taille : le nombre de ressources disponibles sur Internet impose de fortes contraintes sur l'optimisation des algorithmes à utiliser, ainsi que sur les ressources informatiques à mettre en œuvre.

Notre problématique générale va donc être de collecter l'ensemble des documents accessibles sur Internet qui entrent dans le champs du domaine de la veille, tout en trouvant des solutions aux différents problèmes posés aussi bien par la veille que par Internet.

Evaluation et comparaison des outils de recherche d'information sur Internet

La première étape de notre travail de thèse fut donc de dresser un état de l'art des systèmes et outils de recherche d'information sur Internet, ainsi que de mener une réflexion sur les spécificités d'Internet et des problèmes qui en découlent pour la recherche d'information.

Dans un premier temps, le recensement des outils de recherche disponibles sur Internet, la définition de critères d'évaluation, et enfin leur évaluation proprement dite suivant les critères mis en place précédemment ont permis de dresser un état de l'art sur les systèmes de recherche d'information sur Internet.

Le recensement des outils, sans être exhaustif, prend en considération les principaux systèmes. La définition des critères d'évaluation a nécessité l'étude des différentes fonctionnalités des multiples systèmes afin de définir des critères pertinents et applicables à l'ensemble des outils. Enfin, l'évaluation de chaque moteur de recherche s'est faite suivant un protocole de test s'inscrivant dans le cadre des critères précédemment définis.

Ensuite, cette étude a permis de dégager les fonctionnalités, les atouts et les lacunes des différents outils de recherche sur Internet. Ceci, couplé à une réflexion sur les spécificités et les contraintes d'Internet, tant au niveau de sa structure que de son contenu, nous a conduit à l'identification et à la formulation des différents problèmes posés par la recherche d'information sur Internet à travers les quatre étapes clés de ce processus :

la collecte des documents ;
l'indexation des documents ;
la recherche et la pondération des documents réponses ;
et enfin la présentation des résultats.

Finalement, ces deux études ont donné naissance à un document d'une centaine de pages intitulé « Evaluation et comparaison des outils de recherche d'information sur Internet » qui est disponible sur le serveur W3 de la DIST (Direction de l'Information Scientifique et Technique) du CEA à l'adresse suivante :

http://www-dist.cea.fr/ext/neuf/moteur/

La collecte des pages statiques

La première étape pour une exploration automatique des documents sur Internet est celle consistant à parcourir le réseau de manière exhaustive et à récupérer l'ensemble des documents rencontrés en suivant les liens hypertextes du réseau. C'est de cette manière que fonctionne aujourd'hui l'ensemble des moteurs de recherche tel qu'AltaVista (http://altavista.digital.com/) pour la collecte des documents.

Nous avons donc développé un robot de collecte de documents basé sur la bibliothèque de développement libwww-5.0a du W3C (World Wide Web Consortium – http://www.w3c.org/).

Ce travail nous a confronté de manière concrète à la réalité d'internet et à de très nombreux problèmes que nous avons dû résoudre :

mettre en œuvre un système de vérification des pages visitées afin de ne pas parcourir plusieurs fois la même page ;
détecter les pages modifiées entre deux visites pour ne récupérer que celles-ci ;
utiliser un parser HTML souple et robuste pour en extraire un maximum d'informations ;
prendre en charge les différents formats de fichiers trouvés sur internet (HTML, PostScript, PDF, Texte, Word, RTF, etc.), afin de pouvoir les traiter et les convertir vers un format commun ;
identifier la langue des documents récupérés.

Le développement de ce robot baptisé SAMbot a donné naissance au sein de la DIST à un projet baptisé W3CEA-Direct. Ce service qui sera, dans quelques temps, mis à la disposition de l'ensemble du CEA est un système de recherche d'information sur les serveurs Web du CEA basé sur notre robot SAMbot et sur l'architecture documentaire Spirit-W3.

Ainsi, de manière périodique, SAMbot parcourt l'ensemble des serveurs Web du CEA et récupère les pages nouvelles ou modifiées. Il les traite (conversion de format, traitement des accents et autres problèmes de reformatage, identification de la langue) afin que Spirit les indexe. L'interface d'interrogation Spirit-W3 est alors utilisée pour interroger la base constituée. Ce service est actuellement dans sa phase finale de développement (assuré par un stagiaire) avant sa mise en exploitation et une mise à disposition sur l'ensemble du CEA.

Comme nous l'avons déjà signalé, ce travail m'a permis d'appréhender les nombreuses difficultés soulevées par le traitement automatique des documents présents sur Internet. En effet, il faut parvenir à un système fiable, robuste et rapide.

L'identification automatique de la langue des documents

Un des problèmes majeurs soulevé dans toute application de traitement automatique de documents sur Internet est celui du multilinguisme dès lors que nous souhaitons effectuer des traitements linguistiques. Dans le cadre du développement de SAMbot et de W3CEA-Direct, nous devions donc parvenir à identifier automatiquement la langue des documents collectés afin d'effectuer les traitements linguistiques adéquats.

Deux approches statistiques sont aujourd'hui utilisées afin d'identifier automatiquement la langue d'un document :

La première, basée sur les mots outils des différentes langues, n'est pas bien adaptée aux documents courts et nécessite de disposer pour chaque langue d'une liste de mots outils.
La seconde, qui est celle que nous utilisons, est basée sur la technique des n-grams (séquence de n caractères consécutifs). Elle permet après une phase d'apprentissage pour chaque langue sur un corpus relativement réduit en taille (2 à 3 Mo suffisent) d'évaluer avec une bonne efficacité la langue d'un document.

L'originalité de notre approche est de vouloir parvenir à identifier et extraire les différentes parties d'un document multilingue sans faire aucune supposition sur le document à traiter. En effet, les quelques systèmes effectuant un tel traitement se basent sur le découpage en phrases du document afin d'identifier la langue de chacune d'elles. Ainsi, ces systèmes sont totalement dépendant du codage de caractères utilisé pour parvenir à extraire les phrases.

Notre approche pouvant s'adapter à n'importe quel codage de caractère montre à travers différents tests qu'on identifie avec une bonne précision les différentes langues composant le document.

Le problème majeur restant à résoudre est de trouver une méthode pour localiser avec précision (au caractère près) les différents endroits du document où il y a une rupture de langue (passage d'une langue à une autre).

La collecte des pages dynamiques

L'aspect le plus innovant de l'exploration multilingue sur Internet que nous avons étudié consiste à récupérer les documents dynamiques, c'est à dire ceux accessibles au travers de formulaires et qui ne sont donc pas accessibles de manière simple par un lien hypertexte. Ceci représente un véritable challenge, puisque aujourd'hui, l'information scientifique et technique disponible sur Internet est de plus en plus souvent accessible par ce biais, et aucun moteur de recherche ne l'exploite.

Dans un premier temps, nous avons défini les bases d'un protocole simple d'interrogation des formulaires sur Internet. Ce protocole n'est aujourd'hui pas encore totalement stabilisé et évolue régulièrement. Il est basé sur HTTP (HyperText Transport Protocol), et sur un formalisme de description des ressources. Cette description écrite en XML (eXtensible Markup Language) est basée sur plusieurs DTD (Document Type Defintion) qui composent l'essentiel du protocole. Les différents fichiers XML composent une base de connaissance décrivant la manière d'interroger une base de données accessible par un formulaire d'interrogation mais aussi la manière d'extraire les résultats présentés par le système.

Nous développons actuellement en Java une application bâtie sur ce protocole qui permet d'interroger sur Internet des systèmes de recherche hétérogènes et de récupérer l'ensemble des résultats. En se basant sur le protocole d'interrogation que nous avons défini, notre système est à la fois ouvert (des ressources sont rajoutées par simple ajout de descriptions en XML), distribué (les descriptions XML doivent être accessibles via un URL et peuvent donc être localisés sur des sites distants) et dynamique (travaux futurs - voir la description dans le planning prévisionnel du déroulement de la thèse). Plusieurs personnes sont d'or et déjà intéressées par un tel système.

Cependant, si les applications d'un tel système sont très variées (méta-moteur de recherche d'information sur Internet, accès à des bases de données distribuées, référencement automatique dans les moteurs de recherche, étude d'offres de produits et service, etc.), il faut bien reconnaître qu'il nécessite une intervention humaine non négligeable pour l'alimentation et la maintenance de sa base de connaissance. C'est pourquoi nous avons commencé à étudier la possibilité d'alimenter et de maintenir automatiquement cette dernière. Les problèmes posés sont les suivants :

comment repérer les nouveaux formulaires disponibles sur Internet ;
comment identifier si un formulaire est bien un formulaire d'interrogation de base de données, et non pas un formulaire de renseignement commercial par exemple, ou de commande de produit ;
comment remplir le formulaire pour interroger la base de données (à quoi correspondent les champs d'interrogation, quelle syntaxe utilisent-ils ?) ;
et enfin comment récupérer les documents réponses (quelles informations sont délivrées par le système, comment les identifier et les extraire ?).

Planning prévisionnel du déroulement de la thèse

Au vu des travaux déjà effectués et de ceux en cours que nous venons de présenter, nous pouvons dresser un planning prévisionnel du déroulement futur de la thèse :

2 mois (juillet 98) pour la stabilisation du protocole en cours d'élaboration, et la poursuite du développement de notre application bâtie sur ce protocole.

Nous consacrerons 3 mois (octobre 98) à l'étude et au développement d'un module d'extraction automatique des connaissances nécessaires à l'interrogation des formulaires et à la récupération des résultats. Nous avons déjà effectué quelques travaux sur ce sujet montrant comment identifier un formulaire de recherche (l'idée étant de calculer un ratio entre l'information à fournir au système et l'information qu'il nous délivre), et comment extraire les réponses des systèmes de recherche (l'idée est ici d'effectuer des comparaisons entre plusieurs interrogations afin de dégager des règles générales à chaque outil).

De plus, afin de développer l'aspect multilingue de notre système, nous prévoyons de mettre en place durant 2 mois (décembre 98) une procédure de reformulation à partir des profils de veille définis par les utilisateurs. Cette procédure devra (à l'aide des dictionnaires de Spirit) étendre le profil aux termes équivalents, et toutes leurs formes dans chacune des langues sur lesquelles nous désirons effectuer la recherche. Ce nouveau profil devra par la suite être factorisé et converti en requête booléenne ou liste de mots clés afin de pouvoir être utilisé pour une interrogation automatique des systèmes de recherche sur Internet.

A ce stade, nous disposerons à la fois d'un système opérationnel et robuste pour la récupération des pages statiques, ainsi que pour la recherche des pages dynamiques sur des systèmes hétérogènes. Nous proposons donc de consacrer environ 1 mois (janvier 99) au couplage de ces deux systèmes permettant ainsi, à partir des résultats des pages dynamiques, de récupérer le contexte et tous les documents liés afin d'élaborer des stratégies de récupération de l'information.

Enfin, nous pensons investir 1 mois (février 99) de travail pour finaliser notre module d'identification de la langue à l'aide d'un stagiaire spécialisé en traitement du signal.

Pour terminer, la rédaction du mémoire de thèse devrait nous demander un travail variant de sept à neuf mois (septembre 99-novembre 99)

Publications

Jérôme CHARRON (1997). "Evaluation, comparaison des outils de recherche sur Internet", [En ligne]. CEA/DIST.

URL : http://www-dist.cea.fr/ext/neuf/moteur/

Rechercher sur le site

Rechercher un livre

Auteur : Jérôme Charron
E-mail : jcharron@france-mail.com
Web : http://www.chez.com/jcharron/

Date de création : 25 Août 1998
Date de modification : 15 Décembre 1998
Date d'expiration : Aucune