Dienstag, 2. April 2013

Tag 11 SEO Onsite Optimierung und HTML

Heute steigen wir in Search Engine Optimization ein mit

Onsite Optimierung


Wie komme ich bei Google auf den Index?
Der Crawler sendet einen Ping an die Seite und bekommt eine Server Meldung zurück, möglichst eine "200"er Meldung (Bestätigung, daß die Seite aktiv ist). Dann leitet er das an den Parser weiter, dieser überprüft die Seite. Danach kommt die Seite in den Cache, einen Vor-Index von Google. Nach Überprüfung der Seite auf Duplicate Content bzw. ähnliche Inhalte zu anderen Webseiten (negativ) wird die Seite dann in den Index aufgenommen und kann bei Google gefunden werden.
Das ganze kann eine Stunde bis zu mehreren Wochen dauern.

Eine gute und flache Hierarchie der Webseite ist wichtig, damit der Crawler möglichst schnell über die Seite gehen kann (möglichst maximal 3 Ebenen). Content Management Systeme, die auf Blogansichten beruhen, gehen oft viel zu tief (www...de/2013/März/14 - das ist schon die vierte Ebene)

Denic.de: zuständig für Deutsche Webseiten - wem gehört eine Seite/ eine Domaine?
Page rank: durch Algorithmen errechnete Bewertung einer Seite, wichtig hierfür ist die Verlinkung der Seite (Backlinks, Links, die auf diese Seite führen). Page rank 1-10 (beste Bewertung 10). Links, die von Seiten kommen, welche ganz hohe Page ranks haben, bekommen Vertrauen "vererbt" (trusted rank, trusted link). Es sei denn, diese gut bewerteten Seiten setzen den Link mit rel="nofollow", dann folgt der Crawler dem Link nicht und das Vertrauen wird nicht weitergegeben (z.B. MeineStadt.de, "vererbte" Links kosten Geld)
Linkjuice: je besser die Seite auch in sich verlinkt ist, desto besser kommt der Crawler durch und desto besser ist die Bewertung
Und hier ein Versuch, die 200 Faktoren zusammenzustellen, die das Google Ranking beeinflussen.


Schnell-Einstieg in HTML

w3schools.com: gute Seite mit allen wichtigen Bausteinen und Tips zur Erstellung einer eigenen Webseite
Validator: überprüft die Beschreibung (HTML) der Seite auf Fehler z.B. mit  dem W3C Validator - validate by file upload or html. Wichtig, weil Google invalide Codes als schlecht bewertet.

Meta Angaben
allgemein gültige Angaben für das Dokument. Hier finden sich die Definition der Tastatur-Zeichen (charset = Character Set), Keywords und - ganz wichtig - Description (ausschließlich diese ist für Google interessant).
meta name="robots" ist eine Anweisung für die Webcrawler, also z.B. content="noindex": Seite nicht indizieren, "nofollow": den hyperlinks auf der Seite nicht folgen, "noopd": eigene description verwenden und nicht Seitenbeschreibungen eines Open Directory Project wie dmoz.de.

Body
H1 Überschrift - nur eine pro Seite, sonst kann der Crawler die Seite nicht richtig auslesen. H2 Überschriften dagegen können mehrfach pro Seite eingesetzt werden.
Seiten untereinander verlinken mit dem Attribut <a href>.

Kommentar
Ganz am Anfang des Body-Bereichs können Kommentare gesetzt werden, diese sind auf der Seite nicht sichtbar, werden aber von den Robots gelesen.
<!-- hier kommt der Kommentar-->

Bilder
Ganz wichtig: Bilder mit einem Titel benennen, in dem auch wieder die Keywords vorkommen. <img title="..." /> und alt="..." als Alternative, wenn das Bild nicht angezeigt werden kann.

Tabellen
Hier können Parameter mitgegeben werden, die zu sehen sind, und die nicht zu sehen sind. Sichtbar: <legend>. Nicht sichtbar: der Zusatz <table summary>, hier kann ich weiter die Keyworddichte erhöhen!

robots.txt ist eine Textdatei, die ich auf meinem Webserver im Rootverzeichnis speichere und die direkt steuern kann, welche Dateien ein Robot einlesen darf und welche nicht, welche Seiten er also indizieren darf. Einfacher also als eine Angabe für Robots in den Meta Daten. Überprüfen, ob eine robots Datei vorhanden ist: einfach hinter die URL /robots.txt anfügen
Useragent: * (bedeutet ALLE Robots)
Disallow: /search (bedeutet, das Verzeichnis Search darf nicht ausgelesen o. gelistet werden)
Allow: / (alles andere darf ausgelesen werden)

Suchmaschinenfreundliche URLs
Wenn ich das entsprechende Plugin habe, kann ich unter Einstellungen bei Permalinks eine verkürzte URL angeben und so z.B. nur den Beitragnamen statt Verzeichnis/ Unterverzeichnis/ Beitrag nutzen. Möglichst wenig Ordner, auf jeden Fall nicht monats- und jahresbasierte Ordner.

Und immer wieder testen über SEO Quake. Keyword Density sollte bei 3-6% liegen, darüber ist es für den Crawler zu eng, zu werblich.

Weiterleitungen (mod rewrite)
Wenn ich mehrere Domains habe (mit und ohne www, .de und .com), muß ich eine Seite als Hauptseite definieren, sonst kommt es zu Duplicate Content und damit einer schlechteren Listung. Dazu brauche ich eine 301 Weiterleitung. Eine Ping Anfrage bekommt damit die Antwort 301 Weiterleitung anstatt z.B. eines 404 Fehlers, das Vertrauen bleibt so erhalten. Eine htaccess Datei enthält die rewrite Angaben und wird im Stammverzeichnis des Servers abgelegt. Um zu Überprüfen, ob eine htaccess Datei vorhanden ist: einfach hinter die URL /.htaccess anhängen.

Das canonical tag (in Kombination mit htaccess Weiterleitung, da noch nicht für alle Suchmaschinen gültig) sagt dem Crawler nochmal, welches meine Hauptdomain ist. <link rel="canonical" href="..." />

Wichtigste Voraussetzung: das Ziel! Was will ich erreichen, wie ist die Struktur der Seite, wie kann ich sie regelmäßig mit aktuellen Themen auffrischen, die wieder die Keywords enthalten?

Spider Simulator
Über einen Spider Simulator kann ich überprüfen, wie Crawler die Seite auslesen. Hier kann ich noch Optimierungspotential entdecken, z.B. sollten die allgemein gehaltenen Menüpunkte Home, Leistungen, Aktuelles etc. nicht am Anfang stehen, sondern viel eher die Keywords. Menüpunkte können als Bilder angelegt werden, dann werden sie von Robots nicht ausgelesen.

SEO kann man über White Hat, Grey Hat, Black Hat betreiben. Die letzten beiden sind aber außerhalb der Konvention und können dazu führen, daß man aus dem Index geworfen wird.

Keine Kommentare:

Kommentar veröffentlichen