Il y a 2 jours j’ai eu besoin d’extraire la liste des titles et des h1 du site d’un client afin de réaliser un audit et une série de recommandation son optimisation onsite.
J’ai cherché quelques minutes un outil permettant de faire cela simplement et rapidement mais je n’ai pas trouvé (j’ai surement mal cherché
)
Du coup je l’ai codé en php et je vous le livre.
Ce tool scrap une liste d’urls et extrait pour chaques urls :
- la balise title
- la balise h1
- le status du header (200, 404,500, etc ..)
- le charset de la page
- la balise keywords (ca coutais rien de l’ajouter)
- la balise description
- la redirection (si il y en a une, meta refresh incluse)
A la fin du scrap vous recupérez un fichier csv pret à être ouvert dans votre tableur préféré.
Il y a quelques optis a faire, par exemple mettre un timer entre chaque scrap car avec une grosse liste d’urls vous risquez de mettre votre serveur a genou
Que rajouteriez vous a cette liste pour completer l’outil ?



Posted in
Tags: 
nice script
une petite fonction qui va parcourir le serveur recursivement et générer automatiquement toutes les urls serait nice.
Le tableau des url est ensuite trié par strlen de l’url ( pour avoir un semblant de tri par profondeur dans l’étude et avoir les urls les plus importantes en haut.
Sympa comme script. Je vais le tester de ce pas ! Merci pour la balise keywords, même si ça ne sert plus, c’est un bon outil pour faire de la veille sur les positionnements souhaités des concurrents.
Screaming Frog SEO Spider faisait à peu près ce que tu désirais mais il était limité à 500 pages dans sa version gratuite. Essaie de le tester quand même, il t’apportera sûrement pas mal d’idées d’amélioration.
Merci je vais zieuter ca
Xenu ne fait pas tout ça ?
Surement
J’ai pas beaucoup cherché !
Merci pour le script !
Je découvre ton blog
Belle initiative mais voici un tool qui fait tout ça :
Likexaminer.
Enjoy !!
Ah ben voila, c’est ca qu’il me fallait, merci !
Il a tout de meme un defaut : ca tourne sur windows
Extra Linkexaminer, merci.
Comme le dit « Vendée », Xenu fait déjà tout cela… sauf, si je ne me trompes, les balises H1, Hn et la keywords mais cette dernière on s’en moque…
Vraiment sympa ton script, je l’ai testé, et je te tire mon chapeau. Je découvre via le script, un très bon blog
seeyourank le fait maintenant dans sa version falcon
Merci pour ce script fort sympathique ! Même si certain logiciel possède déjà cette fonctionnalité, c’est toujours intéressant d’avoir une version PHP et pourquoi pas l’adapter pour d’autres choses….
Merci pour ce script, ca pourrait m’être bien utile ! Merci pour le partage, c’est très sympa =)