SISTRIX Toolbox
SISTRIX Toolbox

Mehr erfahren
AdWords, KMU, wir machen den Unterschied!
Mehr erfahren

Wenn der Index nicht mehr schluckt

Google  |   |  , 15:57 Uhr  |  17 Kommentare

Bereits im Sommer letzen Jahres berichtete man bei Google, dass die Zahl von 1.000.000.000.000 indexierten Seiten überschritten wurde. Wie viele Seiten genau in der Zwischenzeit indexiert worden sind, erscheint bei dieser Zahl gar nicht mehr wichtig. Interessant ist jedoch, dass der Index weiter wächst und nahezu jede neu gefundene Information gespeichert und verarbeitet werden muss…

Die wirkliche Anzahl der vorhandenen Informationen wird einem vielleicht erst bei folgender Rechnung klar. Die Library of Congress in den USA dürfte mit rund 31 Millionen Büchern die weltweit größte Bibliothek sein. Nehmen wir einmal an, ein Buch hat durchschnittlich 600 Seiten. Macht nach einer einfachen Rechnung ungefähr 18.600.000.000 Seiten Informationen.

Diese Zahl ist war bereits unvorstellbar groß, der Goolge-Index ist allerdings noch 53x größer. Auch wenn diese Rechnung nicht unbedingt der Wahrheit entspricht, so zeigt sie doch recht anschaulich wie groß der Index der Suchmaschine Google in etwa sein könnte. Der größte Teil des Deep Web, Experten vermuten hier noch wesentlich mehr Inhalte, ist dabei noch gar nicht berücksichtigt.

Fakt ist, dass die veröffentlichten Informationen rasant zunehmen. Foren, Blogs, Microblogs, Wikis, Communitys, alle diese System ermöglichen es dem User, Informationen extrem leicht einzustellen. Und weil Content King ist, freuen wir SEOs uns über diese Entwicklung und bereiten alles für eine Indexierung durch die Suchmaschinen vor. Diese nehmen das Angebot noch immer dankend an und speichern die neuen Informationen ab.

Derzeit schluckt der Index nahezu alles, was der Crawler auch findet. Dabei wird weder die Qualität berücksichtigt noch die Frage, ob Informationen bereits im Index vorhanden sind. Ob Webkataloge, Artikelverzeichnisse oder eines der unzähligen Informationsportale, aus Sicht von Google gibt es hier zwar selten etwas Neues zu finden, auch diese Seiten werden jedoch obgleich ihrer fragwürdigen Daseinsberichtigung noch immer alle fein säuberlich gecrawlt und abgespeichert.

Auch wenn Google den Index bis heute nicht beschränkt, heißt es nicht, dass es bereits morgen zu so einer Einschränkung kommen kann. Vorstellbar wäre z.B. auch, dass Informationen zwar gespeichert werden, aber wie auch bei der Abfrage nach Backlinks nicht vollständig ausgegeben werden. Dieses würde zwar einige Existenzen kosten, die Qualität der veröffentlichten Inhalte aber möglicherweise nachhaltig verbessern.

Machen wir uns nichts vor, dass Internet quillt über mit unnützenden, doppelten und wieder und wieder neu aufbereiteten Informationen. Nicht selten hege ich mittlerweile den Wunsch, Google würde einfach nicht mehr alles speichern…

Constantin

Sie befinden sind hier: Wenn der Index nicht mehr schluckt

Kommentare zu diesem Beitrag:

  1. der-nette-seo sagt:

    Da geb ich dir vollkommen recht. Nicht selten kommt es vor, dass ich bei einer Suchanfrage in einem Forum lande. In diesem wird meine Frage nicht benatwortet, aber dafür gibt es 3 Links zu weiteren Seiten und Foren wo das Thema schon einmal behandelt wurde…

  2. Marc Website sagt:

    Na ja wie soll eine Maschine auch erkennen ob eine Information sinnvoll oder nützlich ist. Alleine anhand des Textes ist es denke ich extrem schwer. Beispielsweise zwei Seiten auf denen der Text einer Fehlermeldung den Hauptanteil bildet. Auf der einen steht drunter „Scheiß Microsoft, kotzt mich tierisch an!“ und beim andern „Update mal X, dann geht es wieder“. Wäre natürlich blöde wenn die erste in den Index kommt und die zweite nicht.

  3. Pascal Website sagt:

    „1.000.000.000.000 indexierten Seiten überschritten“ ist falsch. Der GoogleBot hat nur so viele unique Seiten gefunden, aber nicht in den Index aufgenommen :)

  4. Constantin sagt:

    @Marc: Es ist einfach nicht notwendig, dass beispielsweise die Suche nach dem Amtsantritt von Angela Merkel 55.000 Ergebnisse liefert. Immerhin handelt es sich ja um ein Faktum.

    @Pascal: Wenn er weiß, dass es so viele Seiten gibt, muss er sie ja auch irgendwo gespeichert haben?!

    Liebe Grüße,
    Constantin

  5. Gerhard Zirkel sagt:

    Im Internet gilt das gleiche wie in der „echten“ Welt – wer am lautesten schreit, dem wird geglaubt. Ob die Information nun richtig ist oder völliger Schrott kann weder im Netz noch außerhalb unterschieden werden, zumal die Leute die jeweils Ahnung haben selten am lautesten schreien :)

    Eine inhaltliche Bewertung wird es also so schnell nicht geben, bis dahin wird halt alles aufgenommen und der am lautesten schreit steht auf Platz 1 – was er schreit ist Google völlig wurscht.

    Ändern können das nur die Nutzer, denn immernoch gelten Links etwas im Web. Fangen wir doch an, gezielt gute und informative Seiten freiwillig und ohne Tausch zu verlinken – wenn das alle machen, wird sich der Index ganz von alleine verbessern.

    Gerhard Zirkel

  6. Constantin sagt:

    Hallo Gerhard,

    solange es eben keine Eintrittsbarriere gibt, wird sich der User nicht anpassen oder verändern. Deswegen fordere ich eine Barriere, die eben verhindert, dass jeder Schrott aufgenommen wird.

    Ich denke Google ist durchaus in der Lage die Qualität von Texten zu bewerten, zumindest im ausreichenden Maße. Vielleicht kann man hierfür den Rechenalgorithmus von Wolfram nutzen?!

    Liebe Grüße,
    Constantin

  7. Andreas Website sagt:

    Und wer entscheidet was Schrott ist? Manche regen sich schon auf, weil Kinderpornos aus dem Netz genommen werden sollen und zücken das Damoklesschwert der freien Meinungsäußerung.

    Nur weil manche meinen, eine Information wäre unwichtig, sollte diese nicht zurückgehalten werden. Was meinst du, welchen Entrüstungssturm es auslösen würde, wenn Google dafür sorgt, dass nur noch „seriöse“ Angebote ind Netz kommen?

    Der Reiz des Internets ist doch gerade das dezentral organisierte chaotische, jeder draf sagen was, wo wann er will (china exklusive).

    Die User entscheiden doch selbst, welche Seite gut ist, welche schlecht.

    Wäre es nicht sinnvoller den Google Alg dahingehend zu optimieren, dass er auch die Besuchszeit, die Wiederkehrfrequenz von Besuchern berücksichtigt? Bis dato entscheiden ja zu mehr als 70% die Links das Ranking von Websites? Wäre es nicht besser, diese manipulierbare Größe anders zu gewichten? Sind Links den wirklich die Wahlstimmen der User, oder entscheiden diese nicht aufgrund der Besucherhäufigkeit und der Aufenthaltsdauer, wie toll eine Seite ist?

    Grüße

    Andreas

    der ehm. Bloggonaut :-)

  8. Gerhard Zirkel sagt:

    @Constantin
    Ich glaube nicht dass es möglich ist, eine Eintrittsbarriere zu schaffen. Woran willst du denn das festmachen?

    Die Richtigkeit von Informationen kann Google kaum kontrollieren, denn gerade bei Fachthemen sind sich ja oft nicht mal die Experten einig, wie soll Google denn da vorgehen? Ganz zu schweigen von neuen Ideen die hierzulande noch gar nicht bekannt sind. Da wäre die Gefahr von gekauften Medien noch größer als eh schon – oder glaubst du die Kritiker der Pharmaindustrie hätten dann noch eine Chance?

    Den Schreibstil oder die Grammatik kannst du auch nicht heranziehen, denn was wenn ein Deutscher mit Migrationshintergrund ein absoluter Experte ist aber halt nicht perfekt Deutsch kann?

    @Andreas
    Auch Besuchszeit und Wiederkehrfrequenz kannst du nicht nehmen. Was wäre denn beispielsweise eine gute Besuchszeit? Eine möglichst lange, weil der Besucher lange auf der Seite verweilt? Was wenn er nur schwer findet was er braucht? Oder eine kurze weil er schnell gefunden hat was er suchte? Was wenn er die Seite einfach mies fand?

    Die Wiederkehrfrequenz ist ebenfalls nicht geeignet, es gibt Menschen die lesen eine Seite und vergessen danach sofort welche es war und wenn sie noch so gut gewesen ist – die kehren nie wieder, fanden die Seite aber trotzdem gut. Vielleicht haben sie auch nur eine Information gesucht und gleich gefunden – wieso noch mal wiederkehren?

    So kommen wir an die Sache auch nicht ran.

    Ganz zu schweigen von manuellen Bewertungen – das geht nur so lange bis der erste 1000 Russen engagiert die Seiten bewerten … :)

    Gerhard

  9. Gerhard Zirkel sagt:

    PS: Vielleicht sollte Google einfach Adsense abschaffen – wie viele miese Seiten werden denn nur deswegen geschaffen? – Werbeverbot im Internet, das würde etwas bringen :)

    Gerhard

  10. Kristian sagt:

    @Constantin: Das Merkels Amtsantritt in 55.000 Seiten steht ist unnütz. Doch es gibt viele Meinungen, Ansichten zu dem Faktum dass sie angetreten ist. Und die wollen veröffentlicht werden 😉

  11. Andreas Website sagt:

    „Werbeverbot im Internet, das würde etwas bringen“

    Und wer soll die Seiten bezahlen?

  12. Matti Website sagt:

    Werbeverbot im Internet wäre mal ein interessanten Ansatz. Dann müste man aber eine Institution wie die GEMA schaffen die Geld von den Usern einzieht und das nach Nutzung der Inhalte an die Inhaltseigentümer weiterleitet. Damit wäre zwar das Internet nicht mehr kostenlos aber man würde nicht mehr mit Dauerwerbung berieselt werden.
    Andererseits lohnen sich viele Businessmodelle nur durch die Werbung im Internet.. Wenn man so eine Umstellung machen würde wäre das warscheinlich ein riesiger Wirtschaftlicher Schaden wenn man das mal Weltweit betrachtet. Und das möchte ja auch wieder nieman.

  13. Phil Website sagt:

    … zum letzten Kommentar:

    Und wieder andere Projekte lohnen sich noch nicht einmal deswegen (Werbung). Da werden einfach nur Millionen, von den grossen Unternehmen verpulverisiert.. man siehe Zoomer.de, die teils im Sande verlaufenene (Unter)Projekte von eBay, etc., etc …

  14. Constantin sagt:

    Guten Morgen,

    hier ist ja ganz schön was los! Freut mich natürlich, dass ich zur Diskussion anregen kann.

    Natürlich ist es schwer eine Grenze zu ziehen. Deswegen kam bei mir ja auch die Idee auf, die Inhalte einfach nicht anzuzeigen, obwohl sie indexiert sind. Ähnlich wie bei den Backlinks.+

    Dem normalen Webmaster ist dies völlig egal und nur wie SEOs würden wirklich darauf reagieren. Artikelverzeichnisse, Webkataloge, Affiliate-Produktlisten, Preisvergleiche -> raus mit dem ganzen unnützen Zeug aus dem Index.

    Es geht ja nicht darum die Inhalte komplett aus dem Index zu vertreiben, sondern lediglich deren Nutzbarkeit für SEOs SEMler einzuschränken.

    Liebe Grüße,
    Constantin

  15. Yayah Website sagt:

    Naja mir kann es ziemlich egal sein solange die User noch zu mir finden :) aber es ist schon erstaunlich wie viele Server Google letztendlich haben muss aber Geld haben sie ja genug :)

  16. […] interessanten Artikel zu Google gab es auf seo-united.de. Darin wurde die Frage gestellt, wie lange Google es sich noch leisten kann, jeden Fetzen Internet […]

  17. Sascha sagt:

    Ich denke, dass hier die Qualität schon eine wichtige Rolle spielt. Der Hauptfaktor wären aber wahrscheinlich die Kosten die durch die Indexierung dieser unglaublichen Datenmengen anfallen.

Kommentieren

Loading Disqus Comments ...

Ihre Agentur noch nicht dabei?

Ihr Job noch nicht dabei?

Ihr Beitrag noch nicht dabei?