Lucene
Lucene est une bibliothèque open source écrite en Java qui permet d'indexer et de chercher du texte. Il est utilisé dans certains moteurs de recherche.
C'est un projet de la fondation Apache mis à disposition sous licence Apache. Il est également disponible pour les langages Ruby, Perl, C++, PHP, C#, Python.
Historique
modifierLucene est d'abord mis en téléchargement par Doug Cutting sur le site SourceForge.net en . Il est alors publié sous licence publique générale limitée GNU[1]. Son transfert vers Apache Jakarta est annoncé en .
Le projet Lucene vient du livre Lucene in Action (Lucene en action) publié en décembre 2004. Il est écrit conjointement par Erik Hatcher, un des responsables des projets open source Ant, Lucene et Tapestry, et par Otis Gospodnetic, un membre actif du projet Apache Jakarta.
Le , Lucene effectue sa migration vers le projet Apache Jakarta. La base de code source est convertie au contrôleur de version SVN.
Le lundi , Grant Ingersol présente un cas d'étude en Java à l'ApacheCon US sur l'utilisation avancée des composants de Lucene[2] en donnant notamment des détails techniques sur le traitement du langage naturel.
Aujourd'hui, Lucene est utilisé pour le moteur de recherche d'un très grand nombre de produits et de sites web dans le monde[3].
Fonctionnement de Lucene
modifierIndexation
modifierJusqu'à l'explosion de l'internet, la classification décimale de Dewey était très efficace pour catégoriser des objets dans une bibliothèque. Cependant, sur le Web, la masse des données disponibles est devenue si gigantesque qu'il faut maintenant utiliser des moyens alternatifs et plus dynamiques pour trouver de l'information.
Au cœur de tous les moteurs de recherche se trouve un mécanisme d'indexation automatique : en traitant une seule fois les données brutes et en leur donnant de multiples liens hautement efficients, on accélère l'opération de recherche. Le concept est assez analogue à l'index terminologique que l'on trouve généralement à la fin d'un livre, qui permet de trouver rapidement les pages qui traitent d'un sujet donné.
Si l'on a besoin de couvrir un large champ de fichiers ou de trouver une chaîne de caractères précise dans un seul fichier, il ne faut pas scanner séquentiellement chaque fichier pour la phrase donnée. Car, plus le nombre de fichiers est grand, plus longue est la recherche d'information. Il vaut mieux établir un index des textes dans un format qui permet la recherche rapide, ce qui évite la méthode séquentielle. Ce processus est appelé indexation.
Recherche
modifierLa recherche est l'action de regarder des mots dans un index pour trouver des références aux documents où ils apparaissent. La qualité d'une recherche est évaluée par le positionnement et la pertinence des résultats. Cependant, d'autres facteurs entrent en compte dans une recherche. La rapidité est un facteur déterminant pour traiter une vaste quantité d'informations. De même, pouvoir supporter des requêtes simples ou complexes, des interrogations de phrases, des caractères, les résultats de positionnement et de tri sont aussi importants qu'une syntaxe facile à prendre en main pour entrer ces requêtes.
Classes
modifierLes sections suivantes fournissent une brève introduction aux principales classes qui servent à construire ce moteur de recherche.
Classes d'indexation
modifier- IndexWriter - La classe IndexWriter est le composant central du processus d'indexation. Cette classe crée un nouvel index et ajoute des documents à un index existant. On peut se la représenter comme un objet par lequel on peut écrire dans l'index mais qui ne permet pas de le lire ou de le rechercher.
- Directory - La classe Directory représente l'emplacement de l'index de Lucene. IndexWriter utilise une des implémentations de Directory, FSDirectory, pour créer son index dans un répertoire dans le Système de fichiers. Une autre implémentation, RAMDirectory, prend toutes ses données en mémoire. Cela peut être utile pour de plus petits indices qui peuvent être pleinement chargés en mémoire et peuvent être détruits sur la fin d'une application.
- Analyzer - Avant que le texte soit dans l'index, il passe par l'Analyser. Celui-ci est une classe abstraite qui est utilisée pour extraire les mots importants pour l'index et supprime le reste. Cette classe tient une part importante dans Lucene et peut être utilisée pour faire bien plus qu'un simple filtre d'entrée.
- Document - La classe Document représente un rassemblement de champs. Les champs d'un document représentent le document ou les métadonnées associées avec ce document. La source originelle (comme des enregistrements d'une base de données, un document Word, un chapitre d'un livre, etc.) est hors de propos pour Lucene. Les métadonnées comme l'auteur, le titre, le sujet, la date, etc. sont indexées et stockées séparément comme des champs d'un document.
- Field - Chaque document est un index contenant un ou plusieurs champs, inséré dans une classe intitulé Field. Chaque champ (field) correspond à une portion de donnée qui est interrogé ou récupéré depuis l'index durant la recherche.
Classes de recherche
modifier- IndexSearcher - La classe IndexSearcher est à la recherche ce que IndexWriter est à l'indexation. On peut se la représenter comme une classe qui ouvre un index en mode lecture seule.
- Term - Un terme est une unité basique pour la recherche, similaire à l'objet field. Il est une chaîne de caractère : le nom du champ et sa valeur. Notez que les termes employés sont aussi inclus dans le processus d'indexation.
- Query - La classe Query est une classe abstraite qui comprend BooleanQuery, PhraseQuery, PrefixQuery, PhrasePrefixQuery, RangeQuery, FilteredQuery, et SpanQuery.
- TermQuery - C'est la méthode la plus basique d'interrogation de Lucene. Elle est utilisée pour égaliser les documents qui contiennent des champs avec des valeurs spécifiques.
- QueryParser - La classe QueryParser est utilisée pour générer un décompositeur analytique qui peut chercher à travers un index.
- Hits - La classe Hits est un simple conteneur d'index pour classer les résultats de recherche de documents qui apparaissent pour une interrogation donnée. Pour des raisons de performances, les exemples de classement ne chargent pas depuis l'index tous les documents pour une requête donnée, mais seulement une partie d'entre eux.
Ressources
modifierOutils
modifier- Luke (Lucene Index Toolbox) est un outil de diagnostic et de développement pratique qui accède aux index de Lucene déjà existants et permet de montrer et modifier leur contenu de plusieurs façons. Luke est couvert par la Licence Apache sauf pour une section de son code.
- LIMO (Lucene Index Monitor) donne des informations de bases sur les index utilisés par le moteur de recherche Lucene. C'est un projet de SourceForge.
Projets liés
modifierTous ces projets sont ou ont été des sous-projets d'Apache Lucene et permettent la mise en place d'un moteur de recherche.
Composants d'un moteur de recherche
modifier- Apache Solr : Serveur de recherche basé sur Lucene.
- Apache Nutch : Robot d'indexation.
- Apache Hadoop : Système de fichiers distribué (HDFS) et calcul distribué à l'aide du paradigme MapReduce.
- Apache Tika : Bibliothèque d'extraction de données et de meta-données pour une très grande variété de formats de fichiers.
- Elasticsearch : Serveur pour l'indexation et la recherche des données
Notes et références
modifier- La page de Lucene sur SourceForge
- La session présentée à l'ApacheCon
- (en) Liste d'applications utilisant Lucene
Annexes
modifierBibliographie
modifier- "Introduction to Apache Lucene: Construction of Java Open Source Full Text Retrieval Systems" by Koshi Sekiguti ; Gijutsu-Hyohron Co, Ltd; (ISBN 4774127809)
- "Lucene In Action" par Erik Hatcher et Otis Gospodnetić; Manning Publications; ; (ISBN 1932394281)(en) [1]
- Manfred Hardt, Dr. Fabian Theis: "Suchmaschinen entwickeln mit Apache Lucene"; Software & Support Verlag, Francfort-sur-le-Main, Allemagne; ; (ISBN 3935042450)
Articles connexes
modifierLiens externes
modifier- (en) Site officiel
- (en) Wiki sur Lucene