journal d’analyse croisée crawlLe but de ce guide est de vulgariser ce type d’analyse qui est très riche en enseignements sur le comportement d’un moteur de recherche sur un site. Nous l’appelons communément, .
Ce type d’audit est souvent réalisé par des référenceurs expérimentés qui exigent une bonne connaissance des comportements des moteurs de recherche et une approche technique du référencement.
A voir aussi : Quelle est la meilleure application pour rencontrer des gays ?
Il est souvent considéré comme complexe (et c’est parfois le cas avec de grands volumes) et est maintenant accessible au plus grand nombre possible de personnes grâce à la pléthore d’outils proposés. Pour cela, vous devez vous équiper d’un outil payant ou gratuit, surtout si vous avez de la volumétrie et souhaitez obtenir des macros graphiques de données. La journalisation des journaux du serveur est souvent utile pour comprendre les phénomènes d’indexation, par exemple, ou pour déterminer les fenêtres d’analyse (durée de l’analyse en indexant Didogoglepour voir lela plupart de vos pages).
Le but de ce guide, qui est destiné à être complet mais non exhaustif, est d’être très opérationnel avec un petit concept et des théories pour comprendre la valeur de mettre vos mains (peu ou beaucoup selon les solutions choisies) au cœur de la « matrice ».
A lire également : klarmobil Allnet-Flat 2000 dans le meilleur réseau de télécommunication pour 14,99 € par mois (Allnet-Flat, SMS-Flat, 2 Go LTE)
Ces outils d’analyse de l’analyse d’un site n’ont qu’un seul rôle : valider vos hypothèses, évaluer la volumétrie d’un problème, mesurer la numérisation ou la fréquence des pages actives, etc., vous serez en mesure d’améliorer vos performances SEO sauf si vous êtes capable d’interpréter les résultats. Pire, il est courant de voir les référents prendre de mauvaises décisions sans se rendre compte que l’analyse ou les journaux sont incomplets (ce qui est une erreur très courante).
Nous disons souvent à nos clients (et à nos jeunes), l’outil n’est pas une fin en soi, vienesemplicement confirmer ce que vous apparaissez dans votre travail depré-analyse. Ces outils ne remplaceront pas votre style, l’analyse sur site, la mise à jour Google de la date de mise à jour et la baisse du trafic, l’analyse des données analytiques, etc.
Selon les outils que vous utiliserez, vous devrez parfois utiliser des lignes de commande pour analyser (par exemple en python) ou pour filtrer les journaux, surtout si vous travaillez sur des volumes élevés. Cependant, avec des outils payants comme Oncrawl ou Botify, le lancement de ce type d’étude nécessite moins d’expertise technique. D’autre part, les résultats obtenus exigent une bonne maîtrise des indicateurs et de l’expérience pour interpréter correctement les résultats.
En outre, Search Foresight s’est fixé comme objectif de publier un guide complet, présentant ce qu’est l’analyse croisée, quels résultats sont utiles à exploiter. Grâce à l’installation d’un outil open source ou payant. En bref, un aperçu de cette pratique SEO qui peut êtreredoutable dans les sites de croissance découverts et dans la formation de bots sur vos sites Web.
Plan de l'article
Historique de l’analyse des journaux
Aujourd’hui, ce type d’approche est de plus en plus proposé par des agences ou des consultants en particulier avec les services SAAS tels que Botify ou Oncrawl. En outre, la première agence française à développer ce type d’approche a été Appleion. De plus, certains des anciens employés qui ont lancé aujourd’hui ces solutions à Saas sont nés de cette agence : Botify, KELOGS, WatusBox,…
Philippe Yonnet et moi le connaissons bien pour avoir été employé là-bas pendant plusieurs années, ces dernières années « vite ». Elle a existé pendant 10 ans (2002-2012) et a développé ses propres outils qui étaient généralement utilisés sur la ligne de commande. Elle avait ainsi acquis une réputation d’agence de référencement technique reconnue par tous les experts dans le domaine.
Aujourd’hui, plusieurs solutions sont à votre disposition et nous en discuterons dans ceguide :
Solution « à la main » : Excel (avec Macro) et ligne de commande qui a l’avantage de ne rien coûter « financièrement parlant », mais peut prendre beaucoup de temps si vous n’automatisez pas vos tâches.
Solutions OpenSource : ELK (Elasticsearch, Logstash & Kibana), Watussibox en version open source, solutions économiques, mais nécessitant des compétences de développement et Linux.
Solutions payantes : Botify, Oncrawl, Kelogs, DeepCrawl, Screaming Frogs, etc. qui sont des services pour fournir une solution « tout compris » : Installation ou Saas, récupération de journaux et leur traitement, interfaces graphiques, formation dans leurs outils, stockage de données. Les coûts sont importants mais aussi des investissements financiers sur l’optimisation SEO. Il devient essentiel de pouvoir mesurer l’efficacité des actions à l’aide de tels outils.
Comparez vos besoins et votre capacité à faire pour choisir le meilleur deces solutions ! Dans une deuxième partie, nous discuterons de la mise en œuvre des solutions « à la main » et « Opensource ».
Surveillance des dossiers et analyse croisée
Vous devez distinguer la surveillance (suivie de journaux) de l’analyse croisée qui inclut la numérisation du site avec un robot d’exploration qui joue la passe d’un bot. En fait, nous ne sommes pas sur les mêmes types d’analyse :
Analyse croisée analyse — Botify
Analyse croisée : log analyse par indexation
L’ analyse croisée que nous appelons Deep Audit chez Search Foresight vous permet de superposer deux couches :
- un concernant le passage des bots sur le site avec les contraintes qu’ils subissent : performances du serveur, profondeur, fraîcheur, budget de numérisation, classement interne des pages, etc.
- l’ autre est obtenu avec un crawler jouant le passage deun bot sans les contraintes mentionnées ci-dessus et vous permettant ainsi d’obtenir un inventaire exhaustif de toutes les URL accessibles qu’un moteur de recherche peut potentiellement récupérer.
Ensuite, en comparant les deux niveaux, vous mettez en surbrillance les zones où Googlebot scanne et ne scanne pas. Plus important encore, vous pouvez voir ce qui rampe quand il ne devrait pas le voir (piège à araignée et pages orphelines dont nous parlerons plus loin dans ce guide) et inversement, les pages que les moteurs de recherche ne voient pas ou peu, bien qu’elles soient stratégiques pour le site.
Suivi des dossiers
Boîte Watussi
Le suivi des journaux est intéressant à effectuer au fil du temps en analysant, sur une base quotidienne, les « hits » (visites) des robots et les visites des utilisateurs depuis les moteurs de leur site. Les premiers indicateurs suivis sont, en général, la fréquence de balayage, la fréquence des pagesactif, les codes de réponse (3xx, 4xx, 5xx). Vous pouvez aller plus loin en mesurant, par exemple, la fenêtre d’indexation qui vous permettra de connaître la capacité d’un moteur de recherche à scanner un site entier. Enfin, cela vous permet de mesurer l’impact de ces développements entrepris sur son site pour mesurer l’impact sur l’exploration des robots.
Catégorisation de vos URL
Que ce soit pour la surveillance des journaux ou l’analyse croisée, pour obtenir une vue précise par modèle de page ou par univers, vous devrez catégoriser les pages, en général, en passant par des modèles d’URL à l’aide d’expressions régulières plus ou moins complexes selon le degré de précision souhaité.
Outil de catégorisation du Registre — Botify
Obtenez des graphiques par type de pages que vous avez choisi d’identifier afin d’étudier ces types de pages
SEO visite des pages orphelines — Oncrawl
Qu’ est-ce que les journaux du serveur ?
Les journaux du serveur enregistrent tout passage d’un humain ou d’un moteur à votre site.
Attention, selon la Cour d’appel de Paris, les entreprises sont tenues, en tant que fournisseurs d’accès Internet, de stocker les données de connexion de leurs employés et de les divulguer sur demande judiciaire, pour une période d’au moins 1 an Voir le décret
Ainsi, vous êtes en mesure de voir le passage des robots d’indexation (Glop J), des robots d’outils SEO (glop J), des robots de spam (pas glop L), des personnes qui essaient de donner des injections SQL (pas glop L), etc. serveurs sont basés sur le langage du serveur. Les plus courants sont Apaches qui adhèrent généralement à un format standard et IIS qui est généralement plus exotique parce qu’ils manipulent souvent à partir d’équipes infra.
Sans solution payante, il est souvent nécessaire de trouver le format des journaux dans la récupérationexécuté par le serveur ou sur la ligne de commande pour repositionner les informations dans les colonnes de droite.
Si nous prenons l’exemple d’un format de journal Apache standard, voici ce que nous attendons comme Information :
217.89.107.37 — [29 juillet/2016:00:00:08 0200] « GET /detail-vente-edaa74b2-99d8-93ae-4fa7-dbcae055130c.htm HTTP/1.1 » 410 7101 « — » « Mozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29p) AppleWeb/ 7.36 (KHTML Gecko) Me/41.0.2272.96 Mobile Safari/537.36 (compatible ; Googlebot/2.1 ; http://www.google.com/bot.html) »
- Date et heure
- L’ adresse IP du client distant
- Le référent
- Agent utilisateur
- URI de requête complète (ce champ doit contenir tous les paramètres de la méthode GET)
Avertissement : L’URI de la requête doit être celui appelé par le client distant et non celui effectivement appelé par le serveur en cas de réécriturede l’URL.
- Réponse du serveur HTTP : La méthode HTTP n’est pas facultative (GET/POST/HEAD/OPTIONS/…) vous permet de détecter comment Google et Bing, par exemple, considèrent une partie du site.
- Longueur du contenu : la longueur du contenu détecte automatiquement le surpoids de la page. Ces informations nous permettent de comprendre les problèmes potentiels avec la lenteur de Crawl.
- Domaine de requête : Dans certains cas, les URL demandées ne sont pas demandées dans le domaine principal (elles sont obligatoires sur un sous-domaine, une adresse IP ou un domaine sans www).
Nous verrons dans la partie suivante, comment installer des analyseurs de journaux dans les versions « main », « open source » et payantes.
Restez à l’écoute !