Descobreix la indexació del futur: Google SiteMap

Google ens proposa el que serà la nova forma d'indexar pàgines web.
Els motors de cerca com Google i Yahoo, utilitzen aranyes per recollir la informació de les pàgines web que hi ha publicades a Internet. Un cop tenen la informació, la processen per poder ordenar ràpidament els resultats de recerca, en funció d'un algoritme determinat, quan un usuari acudeix a les seves respectives pàgines web i inquireix algun terme o alguna frase.

Les aranyes dels cercadors visiten periòdicament les pàgines web que estan publicades a Internet i actualitzen automàticament la informació sobre el seu contingut.

Fins ara, les aranyes entraven en el directori arrel d'un domini, buscaven el fitxer robots.txt per assegurar-se que el site desitjava ser indexat i després procedien a visitar tots els enllaços que trobaven a la pàgina web, registrant així tot el contingut de la pàgina.

Google Sitemaps revolucionarà aquesta forma d'indexar les pàgines web.

No es sólo que Google ahora lea con más detenimiento los mapas del site que la gente incluye en sus páginas web… no es nada de esto… es una nueva forma radical de indexar el contenido de las páginas. Google nos propone la creación de un sitemap en XML siguiendo unas especificaciones determinadas que darán toda la información a sus arañas y que les permitirá el acceso a urls que hasta ahora podían haber estado escondidas por diversos motivos ajenos a la voluntad de los webmasters.

Google desitja poder accedir a tot el contingut de les pàgines web de la forma més fàcil i eficient. Tal com ara està plantejada la indexació de pàgines, tot i ser molt més eficient que els índexs humans que teníem antany (qui no recorda haver anat a un cercador, haver inserit a mà la definició del nostre site, les paraules clau per les que desitjàvem ser trobats i la URL del lloc ... però això és ja prehistòria internàutica), el que Google ens planteja ara és molt millor.

Tot consisteix a posar a la disposició de les aranyes un mapa del web especial.

Per crear aquest mapa del web, només cal disposar una aplicació que s'instal·la en el nostre servidor (hi ha versions per a tots els sistemes operatius) i que crea un mapa del web en un format determinat. L'aplicació que ens proposa Google pot generar el mapa a partir de les URL de la pàgina web, a partir dels directoris de la pàgina web, o a partir dels logs del servidor (ideal per a pàgines dinàmiques).
Un cop tenim el mapa del fet segons les especificacions de Google, podem donar-lo d'alta a Google Sitemaps. Automàticament i en menys de 4 hores, Google ho haurà indexat.

Google permet que els administradors web creïn un cron que generi un nou mapa fins a cada hora (per sites amb molta renovació de contingut) i que faci el submit del mapa automàticament a Google Sitemaps. D'aquesta manera, les aranyes coneixeran immediatament les noves pàgines creades i les podran incorporar a l'índex.

Avantatges d'aquesta aplicació:

No importa el mal que tinguis la pàgina web a nivell de camins per a les aranyes ... amb un site map creat pel Sitemap Generator, les aranyes de Google sempre trobaran les url de totes les pàgines.

Un altre gran avantatge és la ràpida indexació del contingut de tot el site. En menys de 4 hores, les aranyes han visitat fins a 50.000 enllaços de la nostra pàgina web. Per webs amb més URL, Google recomana realitzar diversos sitemap i disposar d'un índex de Sitemaps.

Desavantatges d'aquesta aplicació:

Requereix una mica de coneixements en programació, de manera que, o bé els ISP ofereixen aquest servei com a valor afegit per als seus clients o bé moltes pàgines web no disposaran d'aquest servei i hauran de seguir sent indexades per aranyes normals i corrents.

Els sitemap que ja estan disponibles a la major part de pàgines web no són compatibles amb el format de Google. Google vol un document en XML amb unes especificacions determinades.

Amb aquest projecte, Google busca sens dubte, la forma de millorar la indexació de les pàgines web i poder comptar en els seus índexs amb pàgines que fins ara es perdien en un mar d'enllaços dins dels nostres sites.

Google ha creat el Sitemap Generator i el servei d'indexació Express i l'ofereix de forma completament gratuïta ... serà interessant veure la reacció de Yahoo davant això, ja que Yahoo ofereix el servei d'indexació ràpida previ pagament de 49 $, 20 $ o 10 $ segons el nombre de url que desitgem indexar de forma accelerada.

De momento no disponemos de resultados de primera mano respecto a la efectividad de la indexación a través del SiteMap de Google. En cuanto tengamos instalado el nuevo sitemap en varias páginas web y estemos en disposición de hacer comparativas de número de incremento en páginas indexadas y de frecuencia de visititas de arañas, escribiremos un nuevo artículo informando de los resultados. Nos vemos entonces.

Nota posteriorHan passat alguns mesos des que escrivim aquest article. Els resultats han estat molt bons. Tota una web resta indexada de nou en menys de 24 hores. És ideal per quan un nou web surt a la xarxa. La pots tenir indexada en un moment, sense haver d'esperar mesos i mesos a que les aranyes de Google llegeixin tot el seu contingut.

Informació complementària:

URL amb informació sobre el mapa del Google:
https://www.google.com/webmasters/sitemaps/docs/en/about.html

URL amb especificacions sobre el mapa del Google:
https://www.google.com/webmasters/sitemaps/docs/en/protocol.html