Suche Menü

Logfiles

Die Analyse von Logfiles wird von vielen SEOs noch immer stiefmütterlich behandelt. Dabei schlummern mit zunehmender Größer einer Website immer mehr Potenziale, die sich über eine Logfile-Analyse aufdecken lassen.

Warum sollte ich mich mit meinen Logs beschäftigen?

Auch für Google ist Zeit Geld. Das gilt selbstverständlich auch für den Crawling-Vorgang. Umso wichtiger ist es den Suchmaschinenbot nur dorthin zu schicken, wo er auch hin soll. Denn: Google stellt jeder Website nur eine gewisse Menge an Ressourcen zur Verfügung, die es für das Crawling aufwendet. Werden diese überschritten, läuft man die Gefahr, dass wichtige Seiten seltener gecrawlt oder im schlimmsten Fall gar nicht erst indexiert werden. Die Menge dieser Ressourcen hängt von verschiedenen Faktoren ab, unter anderem:

  • Ladezeit der Website
  • PageRank
  • Anzahl eingehender Links

Dies sind Punkte, an denen man ansetzen kann, um das Crwalbudget für seiner Website und damit die Wahrscheinlichekeit einer vollständigen Indexierung zu erhöhen. Häufig liegt eine unvollständige Indexierung jedoch nicht nur an zu geringem Crwalbudget, sondern an mangelnder Effizienz. Das bedeutet dass der Bot auf den falschen Seiten unterwegs ist und seine Ressourcen dort verschwendet.

Das Aufdecken dieser Ressourcenverschwendung kann zum einen durch die OnPage Crawler diverser Tool-Anbieter vorgenommen werden, diese bilden jedoch nur eine Simulation des tatsächlichen Crawlvorgangs der Suchmaschinen ab. Wenn ihr aber wissen möchtet, wie sich Google mit welchen Bots wann auf welchen URLs bewegt, solltet ihr einen Blick in eurer Logfiles werfen:

“Your log files contain the only data that is 100 % accurate in terms of how search engines are crawling your website.” – Samuel Scott

Welche Vorteile bietet eine Logfile-Analyse?

Um die Vorteile einer Analyse der Logfiles zu erkennen, muss man sich erst einmal mit der Matieria vertraut machen.

Was ist überhaupt ein Logfile?

Ein Logfile ist ein automatisch erstelltes Protokoll aller Aktivitäten auf einem Server. Das bedeutet, dass sämtliche Besuche, sei es von Menschen oder Bots mitprotokolliert werden. Auf einem Apache Server werden die Besuche der Datei access.log vorgehalten. Der Inhalt des Logs wird im sogenannten Common Log Format gespeichert das wie folgt definiert wurde:

LogFormat "%h %l %u %t \"%r\" %>s %b" common
 CustomLog logs/access_log common

Die einzelnen Bestandteile beinhalten Folgendes:

%hIP-Adresse des Rechners, der die Anfrage gestellt hat
%lIdentität des Client (in der Regel leer)
%uBenutzer-ID des Clients, z.B. bei der Verwendung von CGI
%tZeitstempel des Zugriffs
%rDer gestellte Request
%>sDer vom Server zurückgegebene Statuscode
%bDie übertragene Datenmenge in Byte

Ein mit Inhalt gefüllter Logfile-Eintrag könnte also wie folgt aussehen:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
 Quelle

Um die Log-Eintäge auch für SEO verwenden zu können, sind die Informationen innerhalb des Common Log Format jedoch zu gering. Deshalb sollten die Files durch das Combined Log Format erweitert werden. Dieses Format lässt sich über die httpd.conf Datei des Apache Servers einrichten.

Durch Hinzufügen von \”%{Referer}i\” und \”%{User-agent}i\” werden zusätzlich der Referrer und der User-Agent übermittelt und euer File wird wie folgt befüllt:

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\"" combined
CustomLog log/access_log combined

In eurerm access.log würde ein Eintrag nun beispielsweise so aussehen:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "https://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

Damit lässt sich also arbeiten. Aber was genau?

Use Cases

Wie bereits erwähnt werden in den Server Logfiles auch die Spuren sichtbar, die der Google Bot auf einer Seite hinterlassen hat. Daraus ergeben sich zahlreiche Möglichkeiten zur Analyse, die beispielsweise der Search Console in einigen Fällen überlegen sind.

Aktualität

Die Google Search Console ist für Webmaster und SEOs in der Regel die erste Anlaufstelle, wenn es darum geht das Carwlingverhalten des Google Bots zu überprüfen.

Die Daten in der Search Console sind jedoch

  • mehrere Tage alt
  • nur auf Tagesbasis
  • lassen sich nicht auf einzelne URLs herunterbrechen

Eine Auswertung der Logfiles hingegen ermöglicht ein Monitoring in Echtzeit und bei entsprechender Speicherung eine Archivierung der Daten über einen unbegrenzten Zeitraum, denn die Daten liegen bei euch und können von euch auch beliebig gespeichert und ausgewertet werden.

Nicht Indexierte URLs finden

Häufig lässt sich in den Sitemap-Berichten der Search Console eine mehr oder weniger große Differenz zwischen den gecrawlten und indexierten Seiten feststellen. Welche Seiten gecrawlt aber nicht indexiert sind sagt euch Google leider nicht, ein Abgleich eurer Sitemap mit den Logfiles kann hier Abhilfe schaffen.

(Google) Bots Verifizieren

Besonders Webseiten mit viel Traffic haben auch immer wieder mit Bots zu kämpfen, die auf der Seite nichts zu suchen haben, sei es, weil sie die Inhalte der Seiten scrapen und für sich verwenden wollen oder einfach, weil Spammer ihre “User Agentes” in euer Webanaylse-Tool katapultieren wollen (Stichwort “Referrer Spam”).

Um beispielsweise den echten Googlebot von seinen unzähligen, gefakten Namensvettern zu unterscheiden, bietet sich eine Verifikation via Reverse DNS Lookup an. Google empfiehlt dazu folgendes:

Telling webmasters to use DNS to verify on a case-by-case basis seems like the best way to go. I think the recommended technique would be to do a reverse DNS lookup, verify that the name is in the googlebot.com domain, and then do a corresponding forward DNS->IP lookup using that googlebot.com name; eg:

> host 66.249.66.11.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.comcrawl-66-249-66-1.googlebot.com has address 66.249.66.1

I don’t think just doing a reverse DNS lookup is sufficient, because a spoofer could set up reverse DNS to point to crawl-a-b-c-d.googlebot.com. Quelle

Unterschiedliche Googlebots erkennen

Auch wenn ihr wissen wollt welche Googlebots eure Seite in welcher Frequenz eure Seite Crawlen können die Logfiles Aufschluss darüber geben. Eine Überschicht, mit welchen User Agents Google aktuell crawlt, findet ihr hier.

Weitere Use Cases

Es gibt noch zahlreiche weitere Möglchkeiten eine Logfile-Analyse für sein technisches SEO zu nutzen:

  • Echtzeit Monitoring der Statuscodes
  • Aufdecken von gecrawlten URLs, die eigentlich nicht gecrawlt werden sollen
  • Erkennen von 302 Redirects
  • Testen der Wirksamkeit von maskierten Links

Die Nachteile

Wo Licht ist, ist auch Schatten. So auch bei der Logfile-Analyse. Was jedem klar sein sollte: Logfiles ersetzen kein Webanalyse-System, da euch in den Files wichtige Metriken wie Absprungrate, Verweildauer oder E-Commerce Daten fehlen.

Auch erzeugen die Logeinträge schnell Files mit mehreren Gigabyte Größe, die erst einmal verarbeitet werden wollen. Dadruch kommen Tools wie Excel schnell an ihre Grenzen.

Bei Seiten, die lokal im Browsercache gespeichert sind, wird in der Regel kein Logeintrag erstellt, das bedeutet, dass euch diese Visits verloren gehen können. Für SEO ist dies jedoch kein Problem, da die Bots nicht über Browsercaching verfügen.

Tools & Dienstleister

Die erste Herausforderung für das Arbeiten mit Logfiles ist zunächst den Zugriff auf diese zu erhalten. Sofern man nicht über einen eigenen Server verfügt, führt hier normalerweise kein Weg an der IT vorbei. Doch sind die Files erst einmal verfügbar gibt es einige Tools und Anbieter die helfen die Daten aufzubereiten.

  • Für kleine Datenmengen: Excel (eine kurze Anleitung gibt’s bei MOZ)
  • Splunk (Software as a Service)
  • Für die Nutzer von Piwik: Piwik Log Analytics
  • Sumo-logic (Software as a Service)
  • Log Expert (Desktopsoftware für Windows
  • Logz.io (Software as a Service)
  • Elasticsearch / Logstash / Kibana (ELK; Open Source Software)
  • Screaming Frog SEO Log File Analyser

Disclaimer: Diese Auflistung soll keine Wertung darstellen, da ich die Tool mit Ausnahme von Excel und ELK nicht getestet habe, der Vollständigkeit halber möchte ich jedoch eine Auswahl an Anbietern darlegen.

Hat dir der Beitrag gefallen?

Über den Autor

Michael Göpfert - SEO in München Michael Göpfert

Ich beschäftige mich seit 2009 mit Suchmaschinenoptimierung und damit, wie Webseiten erfolgreicher werden können. Seit dem durfte ich zahlreichen renommierten Unternehmen wie Sixt, SportScheck oder Weg.de dabei helfen Ihre Sichtbarkeit in Suchmaschinen zu steigern. Mittlerweile arbeite ich als Freelancer, Berater und Coach rund um das Thema SEO und teile mein Wissen gerne. Entweder hier im Blog oder in Magazinen wie der Website Boosting.