Konfigurieren Sie die robots.txt-Datei für WordPress

BEARBEITEN 7. Mai 2016 : Da Google CSS-, JS- usw. …-Dateien sehen möchte, um unsere Websites und insbesondere die mobilen Aspekte ordnungsgemäß zu crawlen und zu indizieren, ist es unbedingt erforderlich, den Zugriff auf diese Dateien nicht mehr zu blockieren, wie hier beschrieben Artikel.
Die Datei robots.txt sollte nun auf das Wesentliche beschränkt sein, und die richtige “Erste Schritte”-Datei ist diese:

  User-Agent: * Verbieten:  

Den Inhalt dieses Originalartikels lasse ich jedoch zum Allgemeinwissen unverändert

Die Datei „robotos.txt“ wird im Stammverzeichnis einer Website platziert und ermöglicht es den Suchmaschinen, anzugeben, was sie für diese Website indexieren dürfen oder nicht.
Im Zusammenhang mit einer Website, die WordPress verwendet, müssen Sie der robots.txt-Datei einige spezifische Anweisungen hinzufügen, um… das Schlimmste zu vermeiden… Mal
sehen, wie es geht.

Bevor Sie fortfahren, eine kleine Erinnerung an das Crawlen und Indizieren von Engines.
Ich sagte in der Einleitung, dass die Datei robots.txt INDEXATION vermeidet. Er vermeidet den CRAWL nicht.
Indexierung ist das Auffinden einer URL im Suchergebnis einer Suchmaschine.
Der Crawl ist die Tatsache, dass eine Engine eine Seite / eine Datei der Site liest.
Die Engines und Google an der Spitze werden in der Lage sein, Dutzende, Hunderte Male auf einer Seite zu verbringen und sie daher zu crawlen, ohne dass sie auf den Ergebnisseiten erscheint.
Darüber hinaus ist das Paradox, dass Google eine Seite crawlen muss
, um zu wissen, dass es sie nicht indexieren darf ? Es gibt Techniken, um das Crawlen zu vermeiden, aber das ist ein anderes Thema.

Contents

WordPress-Struktur

Um eine robots.txt-Datei zu erstellen, müssen Sie die Struktur Ihrer Website kennen, und daher in diesem Fall die von WordPress. Zum Glück ist es ganz einfach.

Beachten Sie, dass sich die Struktur je nach den installierten Plugins stark ändern kann.
Öffnen Sie Ihr FTP und sehen Sie sich IHRE Struktur an. Auf dieser Grundlage müssen Sie Ihre eigene robots.txt erstellen.

An der Wurzel der Site finden wir:

  • Dateien
  • ein wp-admin-Ordner
  • ein wp-content-Ordner
  • ein wp-includes-Ordner

wp-admin

Wie der Name schon sagt, enthält dieser Ordner das gesamte Administrations-Backoffice.
Es besteht daher kein Grund, diesen Ordner zu indizieren.

wp-inhalt

In diesem Ordner finden wir hauptsächlich “Ihre Inhalte”. Ich spreche nicht von Ihren Artikeln, die in der Datenbank sind, sondern sagen wir „Ihre Personalisierung“ von WordPress. Wir finden hauptsächlich: Themes und WordPress-Plugins.
Abhängig von Ihrer Anpassung und den von Ihnen installierten Plugins finden wir zum Beispiel:

  • Cache-Dateien
  • Sicherungen
  • Übersetzungsdateien
  • etc …

Und schließlich finden wir in diesem Ordner auch alle Ihre Dokumente: Bilder zur Veranschaulichung Ihrer Seiten und Artikel, Ihr PDF usw. Alles, was Sie hochgeladen haben, alle Medien, die in Veröffentlichungen zu finden sind.
Das ist großartig, denn diese kleine Welt befindet sich in einem “Uploads”-Ordner: /wp-content/uploads .

wp-beinhaltet

Vereinfacht gesagt befindet sich in diesem Ordner die WordPress-Engine.
Wie beim Ordner wp-admin gibt es keinen Grund, diesen Ordner a priori indizieren zu lassen.

Der Fehler, den Sie nicht machen sollten: Kopieren / Einfügen einer robots.txt-Datei von einer anderen WordPress-Site

Nachdem wir nun wissen, wie es funktioniert, können wir mit der Erstellung unserer eigenen Datei beginnen. Aber beginnen wir auf einer leeren Seite? Nicht unbedingt.
Aber dann sei vorsichtig! Die erste Versuchung wird sein, “worpress robots.txt file” in Google einzugeben und eine große Kopie / Paste zu machen … Ich rate dringend davon ab!

Hier ist, was wir normalerweise als Beispiel finden (ich wiederhole: diesen Code nicht kopieren! ):

 User-Agent: * Verbieten: / cgi-bin Verbieten: /wp-login.php Verbieten: /wp-admin Verbieten: / wp-inklusive Verbieten: / wp-content / plugins Verbieten: / wp-content / cache Verbieten: / wp-content / themen Nicht zulassen: / Kategorie / Verbieten: * / Trackback Nicht zulassen: * / feed Verbieten: * / Kommentare Verbieten: / *? Nicht zulassen: /*.php$ Nicht zulassen: /*.js$ Nicht zulassen: /*.inc$ Nicht zulassen: /*.css$ Nicht zulassen: /*.gz$ Nicht zulassen: /*.swf$ Nicht zulassen: /*.wmv$ Nicht zulassen: /*.cgi$ Nicht zulassen: /*.xhtml$ 

Abgesehen davon, dass ich niemals Code kopiere/einfüge, ohne zu verstehen, was er tut, werde ich erklären, was mich an dieser Art von Anweisungen stört.

Disallow: /category/ : Und warum nicht ? Stellen Sie sich das Gemetzel vor, wenn Sie Ihre Kategorieseiten bearbeiten würden? Keiner von ihnen ist mehr indiziert… Ergebnis, potenzieller Rückgang des Datenverkehrs.

Disallow: */feed : Auch hier liegt es an Ihnen. A priori wissen die Motoren (ich habe nicht verstanden…) was sie lesen. Normalerweise lassen sie diese Art von Datei beiseite.

Disallow: /*? : Nicht mehr ! Möchten Sie wirklich keine URLs indexieren, die ein Fragezeichen enthalten? Überprüfen Sie Ihre URLs, bevor Sie diese Anleitung aktivieren.

Disallow: /*.php$ : Nein, immer noch nicht … Es steht Ihnen völlig frei, Dateien zu Ihrer WordPress-Installation hinzuzufügen. Wenn Sie eine benutzerdefinierte Seite haben, die in PHP ist? Dort wird es aus den Ergebnissen der Motoren verschwinden …

Disallow: /*.wmv$ : Videodateien? Warum nicht indexieren? Wie du willst

Ich bestehe darauf, dass Sie verstehen müssen, was Sie tun.
Die oben genannten Regeln sind nicht schlecht, aber sagen wir, sie entsprechen einer bestimmten Installation, einem bestimmten Standort und einem bestimmten Bedarf!

Eine robots.txt-Datei für WordPress, um loszulegen

Die gute Praxis ist, “sanft” zu beginnen, einfache Fälle zu sortieren und dann mit Zeit und ein wenig Analyse unsere robots.txt-Datei zu vervollständigen.

Ich schlage folgende Datei vor:

 User-Agent: * Verbieten: /wp-login.php Verbieten: /wp-admin Verbieten: / wp-inklusive Verbieten: / wp-content Erlauben: / wp-content / Uploads / 

Erklärungen:

User-agent: * : Betrifft alle Roboter

Disallow: /wp-login.php : die WordPress-Anmeldeseite. Es ist nicht erforderlich, es zu indizieren.

Disallow: /wp-admin : das Verzeichnis des Administrations-Backoffice. Es besteht kein Zweifel, kein Grund, es indexieren zu lassen, wir verbieten es vollständig.

Disallow: /wp-includes : Wie für das Verzeichnis /wp-admin. Es sei denn, Ihre Installation erfordert eine Ausnahme. Das heißt, es ist selten …

Disallow: /wp-content : Empfindlicher. Aber wir werden darauf zurückkommen. Nehmen wir an, dass wir diesen Ordner standardmäßig auch sperren, ABER wir Ausnahmen hinzufügen.

Allow: /wp-content/uploads/ : Dies ist die Ausnahme! Beachten Sie das “Zulassen” anstelle von “Verbieten”. Obwohl wir die Indexierung von /wp-content nicht zulassen, erlauben wir dennoch die Indexierung von Bildern und anderen Dateien, die sich in /wp-content/uploads/ befinden.

Hier ist eine Basis! Klassisch. Ich sagte es und sagte es noch einmal, passe dich an deine Bedürfnisse an.
Aber hier könnten wir normalerweise nicht einfacher und “risikoarmer” sein. Aber du musst testen!

Testen Sie Ihre robots.txt-Datei

Der einfachste Weg, Ihre robots.txt-Datei zu testen, besteht darin, zu den Google Webmaster-Tools zu gehen.
Gehen Sie zum Ad-hoc-Bereich und fügen Sie den Inhalt Ihrer Datei in den Anleitungsbereich ein.
Geben Sie dann einige URLs ein, um zu sehen, ob sie “akzeptiert” werden oder nicht.
Versuchen Sie es mit der Startseite, einer Seite, einem Artikel, einer Kategorieseite, einem Bild, einer Datei… alles, was repräsentativ sein kann. Logischerweise geht alles.

Wenn Sie zufrieden sind, laden Sie Ihre robots.txt-Datei in das Stammverzeichnis Ihrer Website hoch.

Eine erweiterte Version der robots.txt-Datei für WordPress

Jetzt werden wir versuchen zu sehen, ob es spezielle Regeln gibt.
Um zu sehen, was Google indiziert hat, verwenden Sie den Befehl “site:”:

 https://www.google.fr/search?q=site:votre-domaine.tld 

Ziehen Sie die Seiten nacheinander ab und beobachten Sie, was dabei herauskommt.

Angenommen, Sie sehen eine Ihrer CSS-Dateien. Da können wir sagen, dass es nutzlos ist. So können wir es global entfernen.
Und bei Erweiterungen das gleiche für Javascript-Dateien oder andere.
So können wir unsere robots-Datei so vervollständigen:

 User-Agent: * Verbieten: /wp-login.php Verbieten: /wp-admin Verbieten: / wp-inklusive Verbieten: / wp-content Erlauben: / wp-content / Uploads / Nicht zulassen: /*.css$ Nicht zulassen: /*.js$ 

Die letzten 2 Zeilen sagen: “alles was mit .css endet” und “alles was mit .js endet”.

Da bist du, du weißt alles.
Konfigurieren Sie Ihre robots.txt nach Belieben und vor allem… TES-TEZ!