Funktionsweise der Suchmaschinen

Die bekanntesten Suchmaschinen wie Google, Yahoo!, MSN, Ask.com und auch die anderen Suchmaschinen bestehen aus den folgenden drei Komponenten: Crawler, Indexer und Abfragemodul.

Inhalt:

1. Begriffe rund um Suchmaschinen
2. Komponenten der Suchmaschinen
3. Hyperlinks als Orientierungspunkte für Suchmaschinen
4. Suchmaschinen brauchen Inhalte als Futter
5. Indexierung in Suchmaschinen mit Verzögerung
6. Kommunikation mit Suchmaschinen

 

1. Begriffe rund um Suchmaschinen

Zu Beginn sind zunächst einige Begriffe rund um die Suchmaschinen zu klären. Wenn es im folgenden Abschnitt um Suchmaschinen geht, meine ich damit nur die maschinen-gestützte Indexierung von Inhalten einer Webseite ohne deren redaktionelle Überprüfung. Es geht also im Folgenden nicht um die Sammlung, Überprüfung und Kategorisierung von Webseiten in Verzeichnissen durch reale Menschen. Letztere ist von der Arbeit der Suchmaschinen deutlich zu unterscheiden und verdient auch ein eigenes Kapital im Rahmen der Suchmaschinen-Optimierung. Suchmaschinen-Betreiber wie Google, Yahoo!, MSN und Ask.com (um nur einige wenige zu nennen) schicken vielmehr ihre Robots zu jeder Tages- und Nachtzeit durch das große und weite Internet, immer auf der Suche nach neuen Inhalten. An diesem Prozess sind reale Menschen nicht beteiligt und es findet auch keine redaktionelle Überprüfung der gefundenen Inhalte durch reale Menschen statt.

 

2. Komponenten der Suchmaschinen

Crawler – auch Spider, Robot oder Bot genannt – durchsuchen das gesamte Internet nach neuen Inhalten. Sie bedienen sich dabei den Hyperlinks auf den Webseiten, an denen sie sich orientieren. Der Indexer verarbeitet die von den Crawlern gesammelten Daten und erstellt daraus einen Index in Form einer Datenbank. Das Abfragemodul der Suchmaschinen ist der Teil, den der Internetuser zu sehen bekommt. Hier werden die Suchanfragen eingegeben und die entsprechenden Suchergebnisse angezeigt.

 

3. Hyperlinks als Orientierungspunkte für Suchmaschinen

Die Suchmaschinen-Crawler sind bei ihrer Suche nach neuen Webseiten und neuen Inhalten auf Hyperlinks angewiesen, um sich in dem Dickicht des Internets zurechtzufinden. Die Hyperlinks dienen den Crawlern quasi als Orientierungspunkte, indem sie die Suche nach neuen Webseiten und Inhalten von einem Link zum nächsten durchführen. Genau hier setzt bereits die Arbeit der Optimierung einer Webseite an. Geben Sie den Crawlern die Möglichkeit, Ihre Webseite zu finden und dann auch bis in die Tiefe zu erfassen.

Am schnellsten und sichersten wird Ihre Webseite von den Crawlern gefunden, wenn Sie Ihre Homepage bei den Suchmaschinen anmelden und dort gleichzeitig mittels einer standardisierter XML- Datei eine Art Inhaltsverzeichnis hinterlegen. Bei Google erfolgt dies im Bereich Webmaster- Tools unter google.com/webmasters. Yahoo bietet einen ähnlichen Service unter search.yahoo.com/info/submit.html. Ohne ein solches Inhaltsverzeichnis werden Unterseiten nur gefunden und indexiert, wenn Sie die Crawler mittels interner Links in die Tiefen Ihrer Webseite führen.

Die Einschätzung der Fachleute bezüglich der Wirkung von XML- Inhaltsverzeichnissen ist unterschiedlich. Die Betreiber der Suchmaschinen selbst sagen ganz offen, dass ein XML- Inhaltsverzeichnis keine Auswirkung auf das Ranking einer Webseite in den Suchergebnissen hat. Es ist lediglich eine Hilfe für die Crawler, die Inhalte der Webseite schneller und effektiver einzulesen. Aus diesem Grund macht es aus meiner Sicht keinen Sinn, eine Sitemap manuell zu erstellen, da die hierfür benötigte Zeit sinnvoller in den Aufbau von Backlinks eingesetzt werden kann. Der Einsatz eines Plugin im Rahmen eines Blogs oder eines Forums ist dagegen durchaus sinnvoll.

 

4. Suchmaschinen brauchen Inhalte als Futter

Für Suchmaschinen- Crawler sind nach wie vor nur Textinformationen relevant, weil sie nur diese Informationen verarbeiten können. Geben Sie den Crawlern also Futter, indem Sie ihnen möglichst viele Informationen in Textform zur Verfügung stellen. Sogar die Bildersuche von Google orientiert sich in erster Linie an dem Dateinamen des Bildes bzw. der Beschreibung, die Sie einem Bild auf der Webseite hinzufügen. Mit unbeschrifteten Bildern können Suchmaschinen so gut wie gar nichts anfangen. Finden Crawler auf Ihrer Webseite neue Inhalte, kommen sie auch gerne wieder. Als Betreiber einer Webseite haben sie also einen indirekten Einfluss auf die Häufigkeit der Crawler- Besuche, indem sie regelmäßig neue Inhalte hinzufügen oder bestehende Inhalte aktualisieren.

 

5. Indexierung in Suchmaschinen mit Verzögerung

Die Verarbeitung der gefundenen Inhalte im Indexer ist noch immer mehr oder weniger ein Geheimnis der Suchmaschinen-Betreiber. Gewiss ist jedoch, dass erfasste Webseiten nicht sofort in den Katalog der Suchmaschinen übernommen werden. Bei Google werden zeitliche Verzögerungen bis zu 6 Monaten als normal betrachtet, wobei dies auch stark vom Thema der Webseite und der Konkurrenz abhängig sein kann.

Ferner werden Webseiten nicht in einem Durchgang erfasst, sondern nach einer Art Stufensystem. Zunächst wird nur die Startseite erfasst und vom Indexer verarbeitet. Erst später werden auch tiefere Navigationsebenen eingelesen und an den Indexer übergeben. Je tiefer also eine Webseite verschachtelt ist, desto länger dauert die vollständige Indexierung aller vorhandenen Inhalte. In diesem Zusammenhang ist auch darauf hinzuweisen, dass Inhalte in tieferen Ebenen vom Indexer geringer bewertet werden und schon allein deshalb weniger Aussichten auf eine Top- Platzierung in den Suchergebnissen haben.

Die Startseite zählt für die Crawler als Einstiegsseite mit einer Crawlertiefe 0. Von der Startseite abgehende Links führen zur Navigationsebene 1. Weiterführende Links führen dementsprechend zur Navigationsebene 2 und so weiter. Eine sehr wirksame Suchmaschinen-Optimierung einer Webseite berücksichtigt die Regel, dass jedweder Content auf der Webseite mit maximal 3 Links von der Startseite aus zu erreichen ist.

 

6. Kommunikation mit Suchmaschinen

Über eine einfache Textdatei namens robots.txt können Sie den Crawlern der Suchmaschinen auch Anweisungen geben, wie sich diese auf Ihrer Webseite zu verhalten haben. Sie können mit einer solchen Textdatei alle oder einzelne Crawler ansprechen. Bei dem Einsatz einer solcher Datei ist jedoch höchste Vorsicht geboten, weil Sie durch einen kleinen Syntax- Fehler verheerende Auswirkungen hinsichtlich der Aufnahme Ihrer Webseite oder Teile davon verursachen können.

Der Einsatz einer robots.txt Datei macht dann Sinn, wenn Sie einzelne Seiten, Verzeichnisse oder ganze Projekte vorläufig davor schützen wollen, dass sie von Crawlern eingelesen werden, weil sie noch nicht fertig gestellt sind. Ein weiteres Anwendungsfeld der robots.txt Datei eröffnet sich für den Schutz privater Bereiche einer Webseite vor dem Einlesen durch Crawler.

Es muss jedoch ganz deutlich gesagt werden, dass eine robots.txt Datei keine technische Hürde für Crawler darstellt. Es ist lediglich eine Anweisung, an die sich Crawler seriöser Suchmaschinen- Betreiber auch halten. Eine wirkungsvolle Sperre für alle Suchmaschinen erreichen Sie dagegen nur durch eine .htaccess Datei in Ihrem Webspace. Lesen Sie hierzu mehr unter Planet HTML.





Weitere Artikel zum Thema finden Sie hier: