Der Url-Server verwaltet die Internetadressen (Urls), welche noch nicht in den Index aufgenommen wurden. Anmeldungen einzelner Webseiten bei Suchmaschinen werden also zumeist an den Url- Server übermittelt. Dieser gibt die Daten an den oder die einzelnen Crawler weiter.
Die Crawler wandeln nun jede einzelne Url in eine IP-Adresse um, damit sie mit den jeweiligen Servern in Verbindung treten können. Um die Dauer der Übertragung zu verkürzen, und die Server nicht zu überlasten, öffnet ein Crawler oftmals mehrere hundert Verbindungen gleichzeitig. Treten bei einer Verbindung Probleme auf, kann er schnell und ohne großen Zeitverlust auf die nächste Verbindung zugreifen. Durch dieses Rotationsverfahren kann nur ein Robot bis zu 30 Seiten pro Sekunde erfassen. Nach erfolgreicher Übergabe liefert der Crawler die Daten der Webseiten dem Parser.
Der Parser erstellt nun von jeder einzelnen HTMLSeite eine vereinfachte Form und leitet diese an den Store Server weiter. Ein Store Server hat die Aufgabe, die in den vereinfachten Seiten enthaltenen Informationen zu extrahieren. Enthaltene Links werden an den Url- Server übermittelt, der enthaltene Text bzw. die enthaltenen Begriffe werden, wenn sie noch nicht bekannt sind, dem Index hinzugefügt.
Der Index besteht vereinfacht gesagt aus dem Lexicon, den Hit Lists und dem Repository. Das Lexicon ist eine zumeist in Form einer Hashtabelle dargestellte Sammlung aller im Netz gefundenen Begriffe. Nur jene Begriffe, welche im Lexicon enthalten sind, liefern auch eigenständige Suchergebnisse. Jeder Begriff bzw. jedes Wort des Lexicons enthält einen Vermerk auf die entsprechende Hit List. Die Hit Lists enthalten zu jedem Wort Verweise auf die entsprechenden Seiten im Repository. Im Repository werden die Webseiten gespeichert. Gleichzeitig wird in den Hit Lists vermerkt, welche Bedeutung den einzelnen Seiten in Bezug auf die einzelnen Begriffe bzw. Suchwörter zukommt.
Um mit einer Suchmaschine interagieren zu können, benutzt man das Frontend oder den Searcher. Das Frontend ist nichts anderes, als die sichtbare Komponente einer Suchmaschine, also die Benutzeroberfläche. Stellt der Benutzer eine Suchanfrage, zeigt der Searcher eine aus dem Lexicon und den Hit Lists erstellte Ergebnisliste.
Jede Suchmaschine verwendet einen eigenen Algorithmus, also eine Methode, nach der die Ergebnisse gelistet werden. Dieser Algorithmus ist das eigentliche Herzstück einer Suchmaschine. Er besteht aus hunderten von Kriterien, welche darüber entscheiden, an welcher Position eine Webseite bezüglich einer bestimmten Suchanfrage gelistet wird...



