Apache Solr Enterprise Search Server / Lucene integriert

Veröffentlicht am

Seit Anfang des Jahres wurde eine Integration des Enterprise Search Server Apache Solr und der zugrundeliegenden Bibliothek Lucene mit den LivingLogic Produkten WAF-Server und Content Managment System XIST4C durchgeführt. Apache Solr stellt einen ausgereiften Enterprise Search Server zur Verfügung. Im Gegensatz dazu ist Lucene nur eine Java-Bibliothek mit einem hohen Anpassungsaufwand an die konkrete Situation.

Update: Inzwischen wurde auf der Basis von Apache/Solr eine aufwändige Suchengine für deraktionaer.de realisiert (wird Anfang August freigeschaltet). Damit besitzt deraktionaer.de künftig eine Suche, die das Portal aus der Menge vergleichbarer Börsenportale weit heraushebt. Bei der immensen Menge an Artikeln, die auf dem Portal zu finden sind, ist die Suche ein wichtiges Kriterium für die Besucher, das Portal häufiger zu besuchen.

Wir wollen Ihnen die Hintergründe verständlich machen und fokussieren uns auf die technischen Hintergründe und ihren Einfluss auf Nutzung und konkreten Einsatz.

Nutzerfreundliche Web-Suchmaschinen und ein innovatives System zur Dokumentenverwaltung LivingDVS

Der Suchserver Apache Solr und das Suchmaschinen-Framework Lucene sind die Grundlage zweier neuer LivingLogic-Lösungen: Erstens nutzerfreundliche Web-Suchmaschinen für individuelle Websites und zweitens, das neue innovative Modul zur Dokumentenverwaltung (LivingDVS) für das Intranet, Extranet und die Website.

Öffentlich einsehen können Sie die Integration von Solr seit längerem bei der Artikelsuche auf www.flyerpilot.de. Beachten Sie bitte auch die Live-Suche mit AJAX-basierten Textvorschlägen / Textergänzungen und die Facettierung der Produkteigenschaften als Navigation in der Suche (Kategorien der Artikel) in der linken Spalte.

Anwendung findet Apache Solr in der neu entwickelten Dokumentenverwaltung LivingDVS, die insbesondere im Intranet der Apollo Optik angewandt wird.

Grundlagen von Apache Solr / Lucene

Wir fokussieren uns auf den Enterprise Search Server Solr und weniger auf Lucene. Das Open Source Projekt Apache Solr ist ein immens aktives Unterprojekt von Lucene und beruht auf den Java-Bibliotheken von Lucene. Ähnlich wie kommerzielle Enterprise Search Server ist Solr eine Komponente, die nach Installation sofort gestartet werden kann. Der Zugriff auf zu indizierende Dokumente und die Steuerung der Indizierung erfolgt über http/xml.

Solr ist hochskalierbar. Suchanfragen können auf viele Server verteilt und wiederholt gestellte Anfragen können gecacht werden. Die Konfiguration erfolgt hauptsächlich über xml und erlaubt es, einen Suchserver schnell zu erstellen und bei Bedarf anzupassen. So kann die Formatierung der Suchergebnisse, der interne Aufbau des Index und die beim Indizieren verwendeten Analyser per xml-Konfiguration angepasst werden.

Solr erlaubt es, Facetten zu bilden. Facetten sind Kategorisierungen von Informationen. Damit kann dann eine Navigation gebaut werden, die hochdynamisch an die jeweils vorkommenden Kategorien angepasst wird. Oft wird so eine Art der Navigation in komplexen Artikelstämmen (beispielsweise in sehr großen Webshops) angewandt (vgl. baur.de — es wurde nach "Hemd" gesucht und "Herrenmode" ausgewählt ...).

Die Facettierung zeigt es bereits, Apache Solr liefert weit mehr als eine Volltextsuche. Darüber hinaus bringt Solr eine Reihe von Analysern mit, um die Inhalte aus Dokumenten gezielt extrahieren und für den Index zugänglich machen zu können.

Mit dem Enterprise Search Server Apache Solr und der zugrundeliegenden Java-Bibliothek Lucene stehen heutzutage ausgereifte und sehr leistungsfähige Open Source Produkte zur Verfügung. Wie bei Open Source geläufig kommt es auf die Erfahrungen an, die ein Dienstleister beim Einsatz der Open Source Produkte vorzuweisen hat. Testen Sie uns. Wir überzeugen Sie gerne von unserer Kompetenz für Enterprise Search speziell für Apache Solr und Lucene. PS.: Auch Migrationsprojekte von anderen Enterprise Search Servern nach Apache Solr sind möglich! Sprechen Sie mit uns.