Une erreur soft 404 se produit lorsqu’un utilisateur demande un site Web inexistant ou incorrect avec son navigateur et que le serveur envoie incorrectement un code d’état HTTP « 200 OK » ou « 302 Found » au client (navigateur). L’utilisateur reçoit un code d’erreur 404 à l’écran, mais le serveur envoie un code de réponse différent lors de la communication entre le client et le serveur web. Le contenu du site web n’est pas lié à la réponse HTTP du serveur.
Cela peut affecter le crawling et l’indexation du site demandé. De plus, c’est parfois frustrant pour les utilisateurs car la réponse du serveur ne correspond pas à leur requête de recherche. Les erreurs soft 404 sont également appelées faux 404 ou codes d’erreur soft 404.
Informations générales sur le sujet
Typiquement, un serveur envoie un code d’erreur « 404 Not Found » chaque fois qu’un site web demandé n’existe pas ou n’est plus présent sur le serveur ou que l’URL est corrompue. C’est souvent le cas lorsqu’une ressource est stockée à un autre endroit sur le serveur, en d’autres termes, le contenu a été déplacé, et les liens internes qui pointent vers la ressource n’ont pas été corrigés. Un code d’erreur 404 peut également être affiché si des liens externes pointent vers une ressource qui n’existe plus. Ces liens sont appelés liens morts. Le serveur envoie également un code d’erreur 404 si une URL correcte a été modifiée par l’utilisateur.
Le soft 404 diffère de ces cas en ce que le serveur répond avec un code d’état HTTP tel que 200 ou 302, même si le site n’existe plus et qu’en conséquence un 404 serait la réponse correcte. Le serveur interprète une URL incorrecte ou invalide comme l’adresse correcte et redirige vers la page de démarrage, par exemple.
Les problèmes peuvent survenir car le serveur n’envoie pas seulement des codes d’état aux navigateurs, mais aussi aux crawlers des moteurs de recherche. Le crawler va progressivement travailler à travers les liens qui sont à sa disposition. S’il rencontre un site web qui n’existe plus et qui a toujours un code de réponse 200 ou 302, il traite cette ressource comme un site web normal avec du contenu. Cela peut signifier qu’il ne visitera plus et n’explorera plus les autres pages du même domaine, car il ne passe qu’un temps limité sur chaque site du World Wide Web. Ainsi, il crawle des ressources qui ne fournissent pas de contenu significatif et les utilisateurs se voient présenter un contenu qu’ils n’ont pas demandé.
Comment réparer une erreur soft 404
Les erreurs de crawling sont répertoriées sous l’élément de menu Diagnostics de la Google Search Console (anciennement appelée Google Webmaster Tools). Si des erreurs soft 404 y sont notées, les mesures suivantes peuvent être prises.
- Si des erreurs soft 404 sont répertoriées, l’URL correspondante doit être vérifiée.
- Si elle contient le contenu correct, le site devrait sortir un code 200 OK.
- Si la réponse est un code d’erreur 301, rediriger vers un site plus approprié.
- Si aucun site web n’existe sous l’URL, un code 404 ou 410 doit être émis dans l’en-tête de la page.
Il est très important que le serveur émette le bon code HTTP en réponse à une requête. Un site web pourrait être retiré de l’index, si ce n’est pas le cas.
Des modules complémentaires tels que Firebug ou l’outil Fetch as Google sont également très utiles. Il permet aux webmasters de voir si la communication HTTP entre le client et le serveur fonctionne et comment le Googlebot lit le site web. Les deux versions affichent les codes d’état HTTP. Une comparaison avec le site Web, qui est appelé par le navigateur, révèle les modifications nécessaires. Dans les Bing Webmaster Tools, cette opération peut être effectuée dans l’explorateur d’index sous l’élément de menu 404 error.
Typiquement, un code d’erreur 404 n’est émis que pour les mauvaises URL ou les sites inexistants. Nous recommandons également des pages d’erreur 404 personnalisées pour fournir aux utilisateurs une alternative au contenu demandé et ainsi les garder comme visiteur du site. Une bonne page d’erreur 404 :
- sort le code d’état correct,
- comprend des informations concises pour l’utilisateur,
- fournit à l’utilisateur un moyen de naviguer sur le site,
- suggère des pages avec un contenu similaire,
- et contient une fonction de recherche afin que l’utilisateur puisse rechercher des mots-clés.
Importance pour l’optimisation des moteurs de recherche
Des codes d’erreur différents peuvent apparaître lorsqu’un site Web est remanié, que son contenu est migré ou que des actions promotionnelles saisonnières sont entreprises. En particulier, les projets de grande envergure peuvent créer des milliers de codes d’erreur. Cependant, les produits qui ne sont plus disponibles et même les sites Web avec très peu de contenu (thin content) peuvent donner lieu à des codes d’erreur 404 mous. L’impact est énorme. Les moteurs de recherche peuvent retirer les sites concernés de leur index, ce qui peut entraîner une baisse des ventes dans le cas de sites commerciaux. Les utilisateurs peuvent parfois être frustrés et le coût de la résolution des problèmes augmente proportionnellement au nombre de codes d’erreur émis.
Il est recommandé de vérifier régulièrement les éventuels messages d’erreur. Ils ne peuvent pas être complètement évités, mais au moins maintenus à un petit nombre. Dès que les messages d’erreur ont été corrigés, cela doit être communiqué au moteur de recherche respectif dans les Webmaster Tools afin que le crawler puisse lire le site web avec le code d’erreur corrigé le plus rapidement possible. Les résultats de ces changements peuvent avoir un impact indirect sur le trafic si Google désindexe ou déclasse certains sites Web comportant des erreurs Soft 404. Cela peut se produire lorsque le rapport entre les erreurs Soft 404 et les pages indexées est exceptionnellement élevé. Le budget temps du crawler est alors largement utilisé par les pages d’erreurs Soft 404.