SISTRIX Toolbox
SISTRIX Toolbox

Mehr erfahren
AdWords, KMU, wir machen den Unterschied!
Mehr erfahren

Wie Google versucht, Sprache zu verstehen

Google  |   |  , 09:06 Uhr  |  3 Kommentare

GoogleBill Slawski beschreibt in seinem kürzlich auf seobythesea.com veröffentlichten Artikel `Google Scoring Gibberish Content to Demote Pages in Rankings?´ ein kürzlich zugunsten dem Unternehmen Google Inc. genehmigtes Patent, welches noch einmal verdeutlicht, welche hohen Ansprüche die Betreiber der Suchmaschine Google mittlerweile an einen qualitativ hochwertigen Text haben. Neben dem Vorkommen von für eine bestimmte Suchanfrage relevanten Begriffen, schaut Google nun ebenfalls, ob bzw. wie viel so genanntes `Gibberish´ eine Seite enthält…

Bevor wir zu dem Patent kommen, hier zunächst die Definition des Begriffs `Gibberish´. Gibberish zählt zu den `Spielsprachen´ und kann daher ungefähr so wie folgt beschrieben werden:

Gibberish ist eine spielerische Modifikationen vorhandener Sprachen. Sie ist in vielen Regionen vor allem bei Kindern sehr beliebt und kann eine positive Rolle beim Spracherwerb spielen. Aufgrund der meist sehr strengen Umformungsregeln wird sie zu den konstruierten Sprachen gerechnet. (Quelle)

Google beschreibt in seinem Patent, dass die Analyse von wiederkehrenden Modifikationen bestimmter Sprachen unter anderem dazu genutzt werden kann, um Webspam zu erkennen. Um herauszufinden, ob es sich bei einem bestimmten Inhalt einer Seite um Spam handelt, weist Google jeder Seite bzw. jedem Inhalt einen auf allgemeine Kriterien (Herkunft der Seite, Sprache auf anderen Seiten gleicher Herkunft usw.) aufbauenden `Language Model Score´ zu und analysiert im nächsten Schritt, inwieweit dieser von den ebenfalls für diese Webseite bzw. Region ermittelten `Gibberish Score´ bzw. `Query Stuffing Score´ abweicht.

Spammers typically generate gibberish content such that the search engine returns an identification of resources associated with the gibberish content as relevant to the submitted query […] The gibberish resources can be generated in a number of ways. For example, using low-cost untrained labor, scraping content and modifying and splicing it randomly, and translating from a different language. (Quelle)

Bill Slawski beschreibt in seinem Artikel, wie Google mittlerweile dabei verfährt, unterschiedliche Texte miteinander zu vergleichen bzw. einzelne Texte auf Spam zu prüfen. Google unterteilt den Text einer Webseite in Gruppen von zum Beispiel fünf Wörtern und schaut danach nach wiederkehrenden Mustern auf der Seite bzw. auf anderen Webseiten. Wie an dem von Bill gewählten Beispiel eines Pangramms (?) zu sehen, geschieht dieses teilweise sogar auf Zeichen- (Texte), Pixel- (Bilder) bzw. Sequenzenebene (Videos):

The quick brown fox jumps
quick brown fox jumps over
brown fox jumps over the
fox jumps over the lazy
jumps over the lazy dog

Neben der in Bezug auf SEO bzw. Suchmaschinenoptimierung wichtigen Erkenntnis, dass Google bei der Relevanzbewertung von Webseiten dahin geht, nicht mehr einzelne Rankingfaktoren zu berücksichtigen, sondern Inhalte einfach in einzelne Teile zu zerstückeln und diese möglichst oft, möglichst diffus, mit möglichst vielen anderen Inhalten zu matchen (Stichwort: Hummingbird), bleibt in Bezug auf das von Bill Slawski beschriebene Patent festzuhalten, dass Google mittlerweile sehr genau erkennt, ob ein Text von einem Menschen oder einer Maschine geschrieben wurde, welche Teile eines Textes unique sind, welche nicht, und ob ein Text nicht einfach nur aus einer anderen Sprache übersetzt wurde.

Nimmt man sich die Ausführungen in den Patenten von Google zu sehr zu Herzen, ist auch dieser Artikel hier Spam. Ein wörtlich übernommenes Zitat aus einer Enzyklopädie, einfach über-nommene Passagen aus einem bereits existierenden Artikel und eine Handvoll Rumgeschwafel? Alles das ist zwar in wissenschaftlichen Arbeiten Gang und Gebe, Google mittlerweile aber ein Dorn im Auge. Warum fragt Ihr Euch? Von Dritten lediglich aufbereitete Informationen kann der Nutzer sich schließlich auch selbst suchen, wenn möglich dabei Google benutzen und wenn möglich auch noch auf eine AdWords-Anzeige klicken dabei. Darum, und weil unser `Gibberish Score´ hier auf SEO-united.de ohnehin eher Mainstream ist 😉

Weiterführende Informationen

Eure SEO-united.de Blogger
Sie befinden sind hier: Wie Google versucht, Sprache zu verstehen

Kommentare zu Wie Google versucht, Sprache zu verstehen:

  1. Daniel Website sagt:

    Zu diesen ganzen Patenten hieß es doch mal: bloß weil Google ein Patent hat, heißt das noch lange nicht, dass es auch aktiv in der Suche genutzt wird. 😉

  2. HighTower sagt:

    …tja, da wird’s spannend in den oft sinnfreien SERPs, Google hat zum Bleistift ein extremes Problem mit Tracklists umzugehen, selbst wenn es eine Überschrift H4 gibt, da sucht jemand tatsächlich sowas wie „13.09.2013 jeans“, nun kann man sich vorstellen wie blöd ich „drein geschaut habe“, ich weiß nicht einmal, wo es auf meiner Seite vorkommt, aber maximal als normaler Text (Jeans Remix???).

    Tante-G und irgendwelche Intelligenz??? – nur SEOs glauben das Bullshit-Bingo 😉

  3. Daniel Website sagt:

    Google trägt da dick auf, wenn die meinen Sprache wirklich verstehen zu können. Die können doch nicht mal wirklich doppelten Content erkennen. Und Foren bzw. Frage-Antwort Portale besetzen massiv die SERPs, obwohl da massenhaft kopiert, ähh zitiert wird.

Jetzt zu "Wie Google versucht, Sprache zu verstehen" kommentieren:

Loading Disqus Comments ...

Ihre Agentur noch nicht dabei?

Ihr Job noch nicht dabei?

Ihr Beitrag noch nicht dabei?