Das Projekt

Das Ziel von Opencrawl ist es, eine Plattform für den Aufbau von kleinen fokussierten Suchmaschinen ("Minisuchern") anzubieten. Personen und Organisationen, die in einem Themengebiet aktiv sind, sollen in die Lage versetzt werden, URLs und Reichweiten für einen individuellen Crawler vorzugeben und den daraus erzeugten Index nachfolgend in eigene Websites einzubinden.

Die Technik

Opencrawl setzt auf einem Nutch/Hadoop-Cluster auf. Bereitgestellt wird diese Plattform von der Suchmaschine netluchs.de, die bereits als Standard-Datenquelle für die Metasuchmaschinen metager.de und metager2.de dient. Aktuell sind hier sieben Server (Pentium 4, 2 GB RAM) zusammengeschaltet und werden je Monat über 5 Millionen Suchanfragen beantwortet.

Die Administration der Minicrawler erfolgt über ein einfaches Webinterface, das die Verwaltung der URLs und der "Reichweite" des jeweiligen Einstiegspunkts erlaubt. Die Reichweite kann dabei auf Subdomains, Domains, Unteräste und einzelne Dokumente begrenzt werden. Da der Crawler im Batchbetrieb arbeitet, erfolgt die Rückmeldung nach einem erfolgreichen Job per E-Mail an den Administrator.

Die Einbindung der Suchmaske und Ergebnisse kann per Tabellenfragment oder per Opensearch-Schnittstelle erfolgen. Sofern die Suche nicht in ein bestehendes Angebot integriert werden soll, kann im Rahmen von opensearch eine einfache Standardmaske bereitgestellt oder ein virtueller Webserver aufgebaut werden.

Die Rahmenbedingungen

Im Rahmen der üblichen Internetnomenklatur befindet sich auch opencrawl im beta-Stadium. Die einzelnen Komponenten wurden zwar im Vorfeld ausgiebig getestet, wir können und wollen aber Fehler und Macken nicht ausschliessen. Nur mit Ihrer Hilfe können wir aus unseren Fehlern lernen und organisch wachsen.

opencrawl ist ein freiwilliges Angebot, das allen Teilnehmern einen Nutzen bringen soll. Auf Gund unserer Struktur müssen wir zur Zeit die folgenden Grenzen aufzeigen:

  • Der Betrieb erfolgt auf der Basis des "best effort". Wir müssen uns leider das Recht vorbehalten jederzeit Teile des Dienstes ohne Angabe von Gründen begrenzen oder einstellen zu können.
  • Neben der individuellen Suchmaske des Minisuchers werden wir die einzelnen Teilindices auch in integrierter Form in unseren Metasuchmaschinen nutzen.
  • Um eine reibungslose Kommunikation zu ermöglichen ist eine persönliche Anmeldung zur Teilnahme notwendig. Opencrawl wird von Menschen für Menschen betrieben. Bitte beachten Sie dieses auch bei den Umgang miteinander.


info@opencrawl.de - Impressum