Googlebot
Googlebot es el robot de búsqueda usado por el buscador Google. Googlebot se pasa por tu pagina web para ver el nuevo contenido con una cierta frecuencia, dependiendo de tu Pagerank (muy resumido, pagerank es lo "buena" que es tu pagina segun Google). Googlebot rastrea contenido de una web, tanto posts, como documentos, imagenes, …
Googlebot pancha a sus anchas por internet, pero entonces… cuando accede a foros en los que hay q registrarse para acceder como lo hace? ¿Esta registrados en los 200 mil millones de foro que hay en internet? En los servidores donde se encuentran hospedados esos foros hay un fichero llamado 'robots.txt' donde se indica en que zona quiero o no quiero que accedan los bots (tanto de google como de yahoo o cualquier otro).
Hay muchos sitios donde no esta restringido en acceso a Googlebot porque entre otras cosas empeoraría nuestro posicionamiento en las busquedas de Google.
Llegado a este punto y si sumamos A + B alguno sabra por donde van ya los tiros, verdad?
Como hacernos pasar por Googlebot:
Hay que modificar el modo en que nos identificamos a una pagina web, es decir, si accedo con mi navegador firefox a un foro, el servidor de este foro sabrá que estoy navegando con Mozilla Firefox (MF), si lo hago con Internet Explorer (IE) o con el que sea.
-En IE tengo que modificar el registro de windows (ejecutar->regedit). En la entrada "[HKEY_LOCAL_MACHINESOFTWAREMicrosoftWindowsCurrentVersionInternet Settings5.0User Agent]" tengo que añadir las siguientes lineas (sin comillas, por favor):
@="Googlebot/2.1"
"Compatible"="+http://www.googlebot.com/bot.html"
-En MF podemos usar el User Agent Switcher, addon de firefox que nos permite cambiar comodamente de "identificardor" haciendonos pasar por el IE, netscape, opera o en este caso googlebot pero para eso tenemos que añadir una nueva opción con las siguientes modificaciones:
Description: Googlebot
User Agent: Googlebot/2.1 (+http://www.googlebot.com/bot.html)
De este modo podremos acceder a algunos foros sin necesidad de registrarse pero tambíen habra algunas páginas que no nos cargarán ya que en el fichero 'robots.txt' tendremos el acceso restringido.