x
oxmo GmbH & Co. KG
OnPage.org Software
SEO DIVER

Angebot anfordern

Wie Google Spam erkennt

Google  |   |  , 17:29 Uhr  |  25 Kommentare

SpamIn dem Artikel `Google ready for action against content farms´ auf cnet.com geht Matt Cutts, Mitglied des Search Quality Teams von Google, noch einmal auf seine später auch auf dem offiziellen Google Blog gemachte Ankündigung ein, der Suchmaschinenbetreiber würde forciert daran arbeiten, seinen Index von Webspam zu befreien…

Während Google offensichtlichen Webspam (Hacking usw.) immer besser in den Griff bekommt, stellen Content Farmen, d.h. minderwertiger, oft eigens nur für Suchmaschinen generierter Content ein größeres Problem für Google dar.

Als Content Farm wird ein Geschäftsmodell bezeichnet, bei dem der Anbieter einer Internetplattform durch freie Mitarbeiter Inhalte aus Text, Videos, Fotos und Grafiken produzieren lässt, die durch Suchmaschinenoptimierung möglichst viele Seitenaufrufe anziehen sollen. Einnahmen entstehen zumeist durch Onlinewerbung.

Neben der Hoffnung, dass sich immer mehr User an der Bekämpfung von Spam beteiligen und ihrer Meinung nach minderwertige Webseiten bei Google melden, arbeitet der Suchmaschinenbetreiber offensichtlich gezielt auch an einer automatischen Erkennung von minderwertigen Inhalten. Matt Cutts schreibt hierzu:

First off, it plans to change its famous search recipe to ding sites that are clear content scrapers, or those that copy content wholesale from other sites and repost it under their own domain, credit or not [...] To respond to that challenge, we recently launched a redesigned document-level classifier that makes it harder for spammy on-page content to rank highly. The new classifier is better at detecting spam on individual web pages, e.g., repeated spammy words – the sort of phrases you tend to see in junky, automated, self-promoting blog comments.

Wo wir vor einiger Zeit noch im Scherz darüber berichtet haben, Google würde die Links aus Blogkommentaren nur ab einer bestimmten Textlänge werten, scheint Google nun tatsächlich eine Möglichkeit gefunden zu haben, minderwertige Texte als solche zu erkennen und entsprechende Webseiten in den Suchergebnissen herabzusetzen bzw. beinhaltende Links nicht werten zu können. In Bezug auf SEO stellt sich nun die Frage, woran Google diese Texte möglicherweise erkennen könnte.

Erkennungsmerkmale minderwertiger Texte

Länge eines Textes: Theoretisch ist es möglich, einem Text zu einem bestimmten Thema (Title/Überschrift) durch einen Vergleich mit anderen Texten eine gewisse Mindestlänge zuzuweisen. Liegt die Textlänge weit unterm Durchschnitt, scheint er von minderer Qualität zu sein.

Strukturierung eines Textes: Texte aus Content Farmen weisen nicht selten kaum eine inhaltliche Strukturierung (Überschriften, Unterpunkte usw.) auf. Ein durchgängiger, nicht selten auch dem Thema entsprechend viel zu kurzer Fließtext lässt auf eine mindere Qualität schließen.

Thema eines Textes: Minderwertige Texte bzw. deren zugehörige Webseiten setzen beim Themeneinstieg vergleichsweise weit im Longtail-Bereich an. Eine hautsächlich auf längere Keywordphrasen optimierte Webseite deutet auf Webspam hin.

Alternative Medien: Minderwertige Texte dürften eine vergleichsweise geringe Einbindung alternativer Medien (Bilder, Videos usw.) aufweisen und können theoretisch auch so identifiziert werden.

Verwendung von Keywords: Die offensichtliche Wiederholung bestimmter, womöglich auch im Title bzw. in der Überschrift vorkommender Begriffe deutet auf Suchmaschinenmanipulation hin.

Nichtverwendung von Keywords: Die Nichtverwendung bestimmter, im Zusammenhang mit dem Thema oft verwendeter Begriffe, deutet auf eine oberflächliche Behandlung des Themas und damit ebenfalls auf eine mindere Qualität hin.

Besucher-/Leserinteraktion: Eine in Bezug auf das Ranking einer Webseite bzw. eines Weblogs vergleichsweise geringe Beteiligung des Users (Kommentare, Bewertungen usw.) könnte ein Indiz für fehlende Relevanz darstellen.

Verwendende Werbemittel: Die Art der verwendeten Werbemittel bzw. deren Form der Einbindung ist möglicherweise ebenfalls ein Anzeichen für die Qualität eines Webinhalts.

Es gibt eine ganze Reihe Möglichkeiten, wie Google minderwertige Texte bzw. Webinhalte erkennen könnte. Allen Möglichkeiten gemein ist das vorherige Definieren gewisser, einen qualitativ hochwertigen Text üblicherweise auszeichnende Kriterien und deren Vergleich mit anderen, möglicherweise als Spam einzustufenden Inhalten.

Durch Caffeine hat Google die Infrastruktur geschaffen, beschriebene Qualitätsberechnungen tatsächlich auch durchführen zu können. Das Schwierigste an der Findung geeigneter Algorithmen zur Bekämpfung von Webspam dürfte nicht die Findung der Kriterien zur Identifizierung, sondern die Vermeidung möglicher Kolalateralschäden sein. Sollte Google jemals jedoch einen solchen Algorithmus finden, dürfte eine Bereinigung der Suchergebnisse stattfinden, dessen Ausmaß das der Auswirkungen des Mayday-Updates bei weitem noch übertreffen würde…

Gretus

VN:F [1.9.22_1171]
Bewertung: 0.0/10 - 0 Bewertungen
Sie befinden sind hier: Wie Google Spam erkennt

Diskussion zu diesem Beitrag:

Kommentare zu diesem Beitrag:

  1. Kevin sagt:

    Also geht’s jetzt doch wieder mehr zurück zu den Onpagefaktoren.

  2. Patrick Website sagt:

    [...] scheint Google nun tatsächlich eine Möglichkeit gefunden zu haben, minderwertige Texte als solche zu erkennen [...]

    Liest sich für mich wie “hat google JETZT ENDLICH die Möglichkeiten” und das ist meiner Meinung nach Schwachsinn. Nicht ohne Grund sagen die Leute immer wieder “holt euch einen Journalisten und zahlt mehr oder steckt selbst Herzblut (Schrägstrich “Hirnschmalz”) in den Text. LSO ist doch nicht erst seit gestern Thema…

    • Gretus sagt:

      Hallo Patrick,

      das Zitat bezog sich hauptsächlich auf den vorher erwähnten Artikel, nach dem Google (angeblich) die Länge von Blogkommentaren bei der Bewertung enthaltener Links heranziehen würde. Womöglich ist es tatsächlich so ;-)

      Im Übrigen ist LSO usw. in vielen Fällen noch Zukunftsmusik. Wenn Du Dir mal die Serps etwas genauer anguckst, dann ist Google bei der Bekämpfung von Spam bzw. Erkennung qualitativ hochwertiger Inhalte noch immer weit hinter dem, was man als ansatzweise als gut bezeichnen könnte.

      Die Verwendung von Synonymen usw. (LSO) funktioniert, um gute Texte noch etwas besser zu machen, die Nichtverwendung aber funktioniert nicht, um schlechte Texte als solche identifizieren zu können. Anders ausgerückt, Google kann zwar die vorderen Ergebnisse immer etwas relevanter gestalten, nicht aber die hinteren Plätze von Spam befreien. Im Zuge der Entwicklung hin zur Suche im Longtailbereich ein großes Problem, da die Userdaten (Bouncerate usw.) dort nicht so schnell gesammelt werden können, wie Spamseiten dort ranken…

      Grüße

      Gretus

  3. Meine kleine Content-Farm – oder: was ist Qualität? - tagseoblog.de Website sagt:

    [...] Auch die Kollegen von seo-United haben sich ihre Gedanken gemacht [...]

  4. Frank Website sagt:

    Ich sehe das kritisch mit der Erkennung guter Texte, denn eine Maschine kann nicht erkennen, ob ein Text gut ist, sondern nur Strukturen und Merkmal finden. Man darf von Seiten Googles nicht erwarten, dass die “Wissensinhaber” alle geborene Buchautoren sind und Texte sauber setzen. Manche “Autoren” schreiben nun mal monolithische Endlosabsätze, weil sie es nicht besser können, aber Ihr Text sagt etwas aus. Solche Texte würden dann als Spam gewertet werden.

    Ebenso ist es falsch, guten Content an der Mischung mit Bildern und Videos fest zu machen. Nach dieser Regel dürfte obiger Artikel kein hochwertiger Text sein, sondern ein Spam-Indiz darstellen :-)

    Bilder kosten Geld, haben komplizierte Lizenzregeln oder müssten erst gemacht werden, also wird der Einsatz von Bilder die nicht gerade Screenshots sind, immer etwas rarer bleiben. Oder mach mal schnell einer ein dutzend aussagekräftiger Diagramme oder irgendein Video über sein Thema.

    Ich sehe die Gefahr von Kollateralschäden sehr hoch bei dem Versuch einer Maschine, gute Texte erkennen zu wollen. Andererseits lassen sich die Regeln nach der die Maschine guten Text beurteilt, wunderbar nachbauen. Ein paar Fotos mit griffigen Begriffen, noch ein Billig-Video, Texte semantisch schön setzen und schon sieht es aus, als wäre es ein besonders wertvoller Inhalt. Ein menschlicher Besucher sieht das aber anders.

    So zum Beispiel bei Foren, auch Fachforen: Google bevorzugt sehr stark Wikipedia und Foren. Wenn ich etwas fachliches suche, dann finde ich die ersten SERP-Seiten voller Forenartikel, die selten nur eine Lösung bieten. Oft sind die Antwort-Texte in der Art: “Haste du schon die Suchfunktion benützt?” oder “Ich weiß zwar nicht was du meinst und verstehe auch vom Thema nichts, aber immerhin habe ich hier was geschrieben”, usw.

    Google mag zwar meinen, dass Foren aktuelle oder interessante Inhalten bieten, aber in Wirklichkeit ist der überwiegende Teil Spam. Jeder Menschliche Besucher würde das sehen, die Maschine aber nicht, wegen ihrer Voreinstellungen. Es gäbe noch viel zu schreiben, aber kurzum: Ich glaube nicht, dass Google es gelingen kann, guten Inhalt von Spam zu unterscheiden.

  5. Mr.Seo Website sagt:

    Ganz egal was Google anstellen wird um Spam zu erkennen wird daran scheitern, dass die Suchmaschine eben eine Maschine ist. Um tatsächlich flächenwirkend Spam zu erkennen, müssten die Pages per Hand, sprich per Mensch analysiert werden. Ist natürlich ein unmögliches Unterfangen. Deswegen wird Google immer Spammern oder Black Hat Seo’s ausgeliefert sein.

  6. Korbinian Website sagt:

    Hi,

    ich finde wir sollten das ganze nicht so schwarz/weiss darstellen. denn auch bei den Rankingfaktoren zählt das eine mehr und das andere weniger und im Mix wird Google bestimmte Blogs schwächer bzw. stärker bewerten. Und da wir ja dabei über Linkbuilding sprechen, kommt es auf die Natürlichkeit an, so sollte es in einem Portfolio einer Seite eben nicht nur gute Blogposts geben sondern auch den ein oder anderen schwächeren.

    Bin aber selbst auch gespannt wann erste große Veränderungen auftreten und wo es wirklich Kolateralschäden gibt.

    Greetz

    korbinian

  7. Flamme sagt:

    Sind die Erkennungsmerkmale von Google bestätigt, oder sind die aus eurer Hand aufgelistet?

  8. MischMasch sagt:

    Was ist denn an dieser seltsamen Aussage mit den 20% eigenen Content dran? Als ob Google so etwas preisgeben würde ;)

  9. Maik Website sagt:

    Nur weil ein Matt Cutts sagt man könne minderwertigen Content erkennen muß dies nicht stimmen. Zudem kann dies auch nicht funktionieren.

    Den nehmen wir einmal an der Gretus schreibt einen tollen Blogbeitrag. Und erhält dafür ganz viele Kommentare alle im style von “Geil geschrieben, super Beitrag”. So nun sagen wir mal er hat 50 solcher Kommentare die in die Richtung gehen. Dann würde ja jetzt nun die Beitragsseite abgestrafft werden. Denn hier sind ganz viele Kommentare die minderwertig sind. Und der Gretus hat die alle freigeschaltet was uns zur Schlußfolgerung bringt. Dieser Blog hier ist ein Spamblog mit viel minderwertigen Content. Und so lange keine linguistische Berechnung der Texte erfolgt können sie keinen minderwertigen Content erkennen.

    • Gretus sagt:

      Hallo Maik,

      wie immer wir Google nicht nur ein, sondern gleich mehrere Merkmale auf einmal betrachten…

      Grüße

      Gretus

      • Maik Website sagt:

        @Gretus Ja das streite ich ja nicht ab, aber wenn z.B. die Contentlänge als Indiz genommen wird, dann wäre deine Antwort minderwertiger Content da dieser keine 250 Zeichen z.B. beträgt. Das einzige sinnvolle was hier aus meiner Sicht nur gemacht werden kann ist, dass der Link den du angegeben hast nicht gewertet wird. Aber auch hier kann es zu Problemen kommen. Denn man kann z.B. nicht davon ausgehen, dass der User-Name immer über den Text steht, oder das der Span-Tag z.B. author-name heisst. Was hier zu 100% eigentlich funktionieren sollte. Wäre dann der XML-Feed. Nur deaktivieren den einige und dann wären wir wieder beim Problem der Zuordnung.

        Sprich was ich damit sagen will ist, nicht alles muß stimmen was ein Matt so erzählt denn in meinen Augen werden hier offensichtlich ab und an Falschmeldungen verbreitet. Und die kleinen SEO’s bekommen es dann mit der Angst zu tun und ändern dann alles. Nur bekommt Google genau das dann mit und weiß dann relativ genau das mit Projekt XYZ was nicht stimmen kann.

  10. David Website sagt:

    Hm, da bin ich ja mal gespannt wie das dann praktiziert wird und obs wirklich funktioniert. Könnte sinnvoll sein aber nur bei entsprechender Berücksichtigung aller Faktoren.

  11. Viktor Website sagt:

    Um sich nicht in den eigenen Schwanz zu beißen, bringt Google demnächst noch nen neuen Dienst raus. Ein eigenes Textbroker Portal, damit die Texte auf den Content Farmen wieder Klicks auf die eigenen Anzeigen, die ja dann immer mit eingebunden sind generieren! Ich freue mich schon auf einen Rund-um-Sorglospaket inkl. Hosting. Ich gebe nur noch meine Keywords ein und der Rest passiert wie von magischer Hand gesteuert.

  12. SEO Freak sagt:

    Ich stimme dem Beitrag von Frank in vielen Teilen zu! Außerdem lass ich mich überraschen, wie Google zukünftig Webspam in den Griff kriegen will…

    @Viktor: Kannst du die Quelle nennen?

  13. Finn Website sagt:

    Na da bin ich jetzt wirklich mal gespannt. Konnte mir nicht wirklich vorstellen, dass Google mal Ernst macht. Aber Spammer werden immer Wege finden, ihre Botschaften an den Mann zu bringen!

  14. jan Website sagt:

    Alle diesen Punkte können relativ schnell geändert werden, wenn es ein Spammer will, selbst Kommentare kann mian sich heute schon von Yahoo runterziehen, das einzige was sich am Anfang ändert ist da es ein paar andere Seiten gibt.

  15. Der SEO-Blog-Wochenrückblick KW4 | SEO Trainee Website sagt:

    [...] Zu Recht wird bei SEO-United die Frage aufgeworfen, wie Google minderwertige bzw. schlechte Texte erkennen will [...]

  16. Georg Hausmann sagt:

    Digest von Neuropower war früher brauchbar, um den Sinn aus einem Text zu destillieren. Aber heute findet man nur wenig Seiten, wo wirklich Text drauf ist. Meist Verweise auf irgendwelche Styles usw.

    Man müsste auch “Duplikate” erkennen, um wirksam mehrere Darstellungen auszuscheiden. Manchmal habe ich das Gefühl, Google könnte dies bereits. Am Beispiel Telefonnummern kann man sehen, dass irgendwo seitenweise Telefonnummern ohne jeden Informationsgehalt, ausser flackernder, blinkender und taumelnder Werbung drauf sind. Bleibt eigentlich nur das Web in einen werbefreien Teil und einen Werbeteil aufzuspalten. Was wohl keiner will, die Grenzen sind sehr im Fluss.

  17. Minderwertigkeit eines Textes und Suchmaschinenoptimierung - blog.seo-ambulance.de Website sagt:

    [...] Gretus von seo-united hat sich im letzten Monat mit der Frage beschäftigt, welche Relevanz die Unterscheidung zwischen aktiven und passiven Links durch Suchmaschinen hat [...]

  18. Google auf der Jagd nach schlechtem Content | seo-gold.de Website sagt:

    [...] Hierzu hat Gretus von seo-united.de ein paar Anhaltspunkte zusammengetragen [...]

  19. Reaktionen zum Panda Update von Google - gif-bilder.de Website sagt:

    [...] Weitere Tipps für die Texterkennung von schlechtem Content gibt es auf dem SEO-united.de [...]

  20. Die eigene Homepage, SEO und Google Panda | klages-newmedia.de Blog Website sagt:

    [...] Relativ früh, namentlich im Januar diesen Jahres, hat sich die Redaktion von seo-united.de Gedanken darüber gemacht, wie Google die Homepages bewertet und rankt. [...]

  21. Google-Panda-Update - lyrik-klinge.de Website sagt:

    [...] Erkennungsmerkmale minderwertiger Texte [...]

Kommentieren

  • Tobias: Oben im Begriff “Webhamster Sprechstunden-Hangout” fehlt ein...
  • Mori: Ich denke, was einen schlechten Backlink ausmacht, ist die Summe aus mehreren...
  • Florian: Sieht jetzt einfach lustig aus: https://www.google.de/
  • Danny Auerhahn: Man kann aus der Pressemitteilung entnehmen, dass VG Media noch immer...
  • Doreen Wie kann ich Google Ergebnisse löschen lassen?
  • Hauke Keyworddomains für Affiliate-Seiten gefährlich?
  • Thomas Breadcrump-Navigation eher etwas für Webshops?
  • Markus 301 Weiterleitungen wieder entfernen?
  • Sascha Was beachten bei System- bzw. Server-Umstellung?
  • Stephan Seiten ohne www aus dem Index entfernen?