Xenu User Agent: Cómo Modificarlo

Xenu User Agent

Muchas veces necesitamos realizar el crawling de un sitio web para realizar distintos análisis, como por ejemplo chequear errores 404 en nuestra página. Otras, necesitamos ejecutar el mismo procedimiento sobre la página de un cliente, pero nos encontramos con la sorpresa de que el servidor bloquea a Xenu. Cómo proceder ante estos casos?

En este artículo veremos una manera muy simple de modificar el User Agent de Xenu y sobrepasar este límite.

INTRODUCCION

Si estás en la industria del SEO y de los negocios web, seguramente habrás escuchado muchas veces hablar de Xenu, una maravillosa herramienta que nos permite realizar el crawling de un sitio web de manera rápida y simple.

Podemos utilizar Xenu para realizar distintas tareas, como por ejemplo detectar contenido roto en las páginas de nuestros clientes, o tener un panorama general de los tag TITLE y META DESCRIPTION de las mismas, pudiendo decidir “a ojo” si están optimizados o no.

Si usas Xenu a menudo, habrá habido casos en los que te encontraste con la sorpresa de que el sitio que estás intentando crawlear bloquea las solicitudes de Xenu, y también habrás podido notar que este Software NO posee la opción de modificar el User Agent de manera integrada.

Antes de ver cómo sobrepasar esta limitación con un simple truco, vamos a ver que es el User Agent, para que todos nuestros lectores, aún los menos técnicos puedan disfrutar de esta solución.

QUE ES EL USER AGENT

Sin entrar en complicadas explicaciones técnicas, el User Agent es un “nombre”, un identificador en formato texto, que le dice a la página web que estamos visitando, que programa cliente estoy usando yo para acceder a esa determinada página.

Algunos ejemplos de User Agent:

  • Firefox 11: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:11.0) Gecko Firefox/11.0
  • Internet Explorer 8: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)
  • iPhone: Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1A543a Safari/419.3
  • Xenu: Xenu Link Sleuth 1.2j

NOTA: Los User Agent elencados son a modo de ejemplo y pueden diferir de versión en versión. Puedes ver una lista completa de User Agents en la siguiente página: UserAgents.org

La página que estamos visitando muchas veces utiliza el User Agent para decidir que versión del sitio nos va a mostrar. Si por ejemplo el User Agent corresponde al de un celular o un tablet, automaticamente el servidor nos va a redirigir a la versión para tablets/móvil de ese sitio.

Así mismo, cuando el servidor detecta que el User Agent pertenece a Xenu, puede decidir bloquear el acceso, para evitar consumir recursos innecesarios.

COMO SOLUCIONAR EL PROBLEMA

La manera más fácil de solucionar este problema es simplemente utilizar un crawler que nos permita modificar el User Agent, como por ejemplo Screaming Frog. Cabe aclarar que la versión gratuita de Screaming Frog NO permite modificar el User Agent, por lo tanto tendremos que usar la versión de pago.

Otra forma, si poseemos el contacto de nuestro cliente, es avisarle simplemente que necesitamos hacer unas pruebas, y que deshabiliten en sus servidores las reglas que bloquean el acceso de Xenu.

Si no queremos/podemos recurrir a ninguna de las anteriores, podremos aún así modificar el User Agent de Xenu con un simple truco.

COMO MODIFICAR EL USER AGENT DE XENU





Para modificar el User Agent de Xenu lo único que necesitamos usar es un Proxy gratuito que nos permita reescribir todo el tráfico HTTP que pasa por él, con unas simples reglas. De esta manera le diremos al Proxy que reescriba todos los request HTTP que contienen el User Agent de Xenu, y los modificaremos por el que más nos guste.

Existen muchos Proxys gratuitos que podríamos usar. Para nuestro ejemplo voy a utilizar Fiddler, que podés descargar acá.

Xenu utiliza como Proxy por defecto la configuración que tenemos en Internet Explorer, mientras que Fiddler utiliza como puerto por defecto el 8888.

Una vez que tenemos todo el material requerido (Xenu, Fiddler e Internet Explorer), veamos los pasos necesarios para completar la tarea:

1) Instalar y abrir Fiddler.

2) Modificar en Fiddler el User Agent que utiliza para ejecutar los request HTTP. Podemos hacerlo desde las opciones que se muestran en la imagen siguiente:

3) Modificar las opciones del Proxy de Internet Explorer. Los datos que deberás utilizar son 127.0.0.1:8888. Como se muestra en la imagen siguiente:

4) Una vez que modificaste los datos y aceptaste los cambios, podés cerrar Internet Explorer. Ahora abrimos Xenu, y simplemente ejecutamos un crawling sobre alguna página de nuestra preferencia. Y voilá, todo listo.

CASOS DE USO

  • Efectuar el crawling de un sitio cuando el User Agent de Xenu por defecto es bloqueado por una página web.
  • Probar el comportamiento de una página web frente a un usuario móvil (Por ejemplo ver si crawleando el sitio usando un User Agent tablet/móvil, Xenu es correctamente redirigido a la versión móvil de la página de nuestro cliente).
  • Otros???

CONCLUSION

Vimos como modificar de manera simple el User Agent de Xenu aunque no traiga la opción por defecto, evitando de esta manera tener que usar herramientas de pago, como lo es Screaming Frog. Más allá de la utilización que se le pueda dar, el objetivo del artículo es fomentar la creatividad para la resolución de problemas, ya que en una industria tan dinámica como lo es el SEO, la creatividad y la lógica son definitivamente cualidades clave que debe poseer cualquier SEO profesional.

Te sirvió esta información? Se te ocurren más casos de uso o querés compartir con nosotros tu experiencia? Dejá tu comentario!

Hasta la próxima.

Acerca de Leonardo Gallina: Consultor SEO localizado en Milán, Italia. Me gusta adquirir todo tipo de conocimientos. Estoy especialmente interesado en Negocios Web, Search Engine Marketing, Inversiones y desarrollo personal. Amo viajar y superarme en todo momento.
  • vientamrum

    Excellent, exactly what i was looking for. Thanks

    • http://leonardogallina.com/ Leonardo Gallina

      You’re welcome.