|
||||||||
| |
||||||||
Das ProjektDas Ziel von Opencrawl ist es, eine Plattform für den Aufbau von kleinen fokusierten Suchmaschinen ("Minisuchern") anzubieten. Personen und Organisationen, die in einem Themengebiet aktiv sind, sollen in die Lage versetzt werden, URLs und Reichweiten für einen individuellen Crawler vorzugeben und den daraus erzeugten Index nachfolgend in eigene Websites einzubinden. Die TechnikOpencrawl setzt auf einem Nutch/Hadoop-Cluster auf. Bereitgestellt wird diese Plattform von der Suchmaschine netluchs.de, die bereits als Standard-Datenquelle für die Metasuchmaschinen metager.de und metager2.de dient. Aktuell sind hier sieben Server (Pentium 4, 2 GB RAM) zusammengeschaltet und werden je Monat über 5 Millionen Suchanfragen beantwortet. Die Administration der Minicrawler erfolgt über ein einfaches Webinterface, das die Verwaltung der URLs und der "Reichweite" des jeweiligen Einstiegspunkts erlaubt. Die Reichweite kann dabei auf Subdomains, Domains, Unteräste und einzelne Dokumente begrenzt werden. Da der Crawler im Batchbetrieb arbeitet, erfolgt die Rückmeldung nach einem erfolgreichen Job per E-Mail an den Administrator. Die Einbindung der Suchmaske und Ergebnisse kann per Tabellenfragment oder per Opensearch-Schnittstelle erfolgen. Sofern die Suche nicht in ein bestehendes Angebot integriert werden soll, kann im Rahmen von opensearch eine einfache Standardmaske bereitgestellt oder ein virtueller Webserver aufgebaut werden. Die RahmenbedingungenIm Rahmen der üblichen Internetnomenklatur befindet sich auch opencrawl im beta-Stadium. Die einzelnen Komponenten wurden zwar im Vorfeld ausgiebig getestet, wir können und wollen aber Fehler und Macken nicht ausschliessen. Nur mit Ihrer Hilfe können wir aus unseren Fehlern lernen und organisch wachsen. opencrawl ist ein freiwilliges Angebot, das allen Teilnehmern einen Nutzen bringen soll. Auf Gund unserer Struktur müssen wir zur Zeit die folgenden Grenzen aufzeigen:
|
||||||||
|
info@opencrawl.de - Impressum |