Ryte

Mehr erfahren
AdWords, KMU, wir machen den Unterschied!
Mehr erfahren

Gibt es bald keine robots.txt mehr?

Kolumne  |  Alex  |  , 20:17 Uhr  |  3 Kommentare

Das Projekt Automated Content Access Protocol (ACAP) wurde im November 2006 von den Initiatoren World Association of Newspapers (WAN), International Publishers Association und European Publishers Council ins Leben gerufen. Hintergrund dafür waren unter anderem die Streitigkeiten zwischen verschiendenen Verlagen sowie Nachrichtenagenturen mit Suchmaschinen, allen voran Google.

Durch den Einsatz des Standards Automated Content Access Protocol (ACAP) haben Webseitenbetreiber mehr Möglichkeiten im Vergleich zu den Standarddirektiven der Datei robots.txt, wie und welche Webseiteninhalte von Suchmaschinen gecrawlet werden dürfen gezielt zu steuern.

Mein Fokus lag diesmal auf der Spezifikation, da die meisten Artikel in Blogs und Magazinen über ACAP auf die Spezifikation nur kurz und oberflächlich eingehen. Dann kann es schon mal vorkommen, dass gerade interessante Ideen untergehen bzw. gar nicht erwähnt werden.

Um ACAP zu verwenden werden die ACAP-Direktiven direkt in die robots.txt-Datei eingebaut. Deswegen stellt ACAP eher eine Erweiterung zur robots.txt-Datei dar. Mit ACAP können Webseitenbetreiber beispielsweise folgende Spielregeln für die Crawler festlegen:

Bisherige Funktionalitäten der robots.txt:

  • – Welche Verzeichnisse bzw. Dateien sollen von der Suchmaschine erfasst werden oder nicht
  • – Einschränkung der Crawlertypen
  • – Suchmaschinen zu untersagen Hyperlink-Verweisen auf einer Seite zu folgen (zur Zeit möglich durch das „nofollow“-Attribut)
  • – Vergabe von Wildcards für die Indexierungssteuerung von dynamisch generierten Inhalten

Neue Funktionalitäten:

  • – Zeitlimit-Angabe vom Contentanbieter um die Suchmaschine anzuweisen, wann der Inhalt aus dem Suchmaschinenindex wieder zu entfernen ist
    • – Wie lange Suchmaschinen Inhalte speichern dürfen
  • – Globale Definition von Ressourcen wie (/path1 oder index.html). Diese müssen dann nur einmal definiert werden und von den Direktiven referenziert werden. Die Folge ist weniger Redundanz.
  • – Definition von Einschränkungen:
    • – Ob der komplette Inhalt für Suchmaschinenbenutzer dargestellt werden soll oder nur einzelne Abschnitte
    • – Maximale Anzahl von Zeichen oder Wörtern, die von einer Webseite in der Suchmaschinenanzeige  dargestellt werden dürfen
    • – Welche Inhalte „unbedingt“ indexiert werden sollen (1). Allerdings handelt es sich hierbei um ein Feature, das noch nicht für die Implementierung abgeschlossen ist

Weiterhin sollen Spielregeln Streitigkeiten zwischen Verlagen und Nachrichtenagenturen mit Suchmaschinen künftig vermeiden. Hierbei bedarf es zuerst jeweils einer Genehmigung (1) zwischen den Verwaltern der Urheberrechte (z. B. den Verlagen) und den Suchmaschinen, wie mit den Inhalten wie beispielsweise Artikeln oder Büchern verfahren werden darf.

Wollen aber nicht gerade Nachrichtenagenturen mit ihren aktuellen Nachrichtenmeldungen von Google & Co. so schnell wie möglich gecrawlt werden und Top-Suchmaschinenpositionen erreichen um so mehr Aufmerksamkeit zu erzeugen? Sicherlich haben Verlage wie auch Nachrichtenagenturen viele Gründe dafür, weshalb sie sich für dieses Projekt einsetzen.

Seit dem 27. November 2007 steht die erste Version von ACAP zum Download zur Verfügung. Bislang wird das Projekt von bekannten Verlagen und Nachrichtenagenturen sowie auch von der französischen Suchmaschine Exalead unterstützt. Google wie auch Yahoo und Mircosoft prüfen im Moment die ACAP-Vorschläge, bevor sie sich für oder gegen das Projekt aussprechen.

Google begrüßt sogar in einer Stellungnahme „alle Initativen, die dazu führen, dass Suchmaschinen und Inhalteanbieter besser zusammenarbeiten“. Wir dürfen also gespannt sein, ob der ACAP-Standard tatsächlich die robots.txt in Zukunft ersetzen bzw. erweitern wird oder nicht.

Persönliches Fazit:

Ich finde einige der neuen Funktionalitäten der ACAP-Spezifikation interessant, allerdings ist die robots.txt für die meisten Anwendungsfälle ausreichend. Weiterhin bin ich während meiner Recherche zu der Überzeugung gelangt, dass die ACAP-Direktiven nicht unbedingt sehr intuitiv bzw. einfach gestaltet worden sind.

In diesem Sinne viele Grüße und Frohe Weihnachten

Alex

Sie befinden sind hier: Gibt es bald keine robots.txt mehr?

Kommentare zu Gibt es bald keine robots.txt mehr?:

  1. whitenexx says:

    Also mir hat auch die robots.txt gereicht, geht doch gut mit der?! Naja aber irgendwann wird immer etwas von was neuem abgelöst…

  2. Alex says:

    Hallo Michael,

    du findest die Spezifikation zu den ACAP-Direktiven hier…

    VG
    Alex

  3. Michael says:

    Ist bestimmt nicht schlecht , aber ob man alle Funktionen wirklich braucht. Wo kann man das denn downloaden, find auf der Seite nichts?

    gruß

Kommentar zu Michael abgeben "Gibt es bald keine robots.txt mehr?" kommentieren:




Ihre Agentur noch nicht dabei?


Ihre Agentur noch nicht dabei?