Com s'indexa el https?

La indexació del https és un d'aquells misteris que fa la vida dels SEO més interessant. Si bé sabem que és possible indexar en la major part dels cercadors, gairebé ningú sap com aconseguir-ho en el mínim temps possible.

Què és el https?

El https és la versió segura del protocol http. La diferència entre un i l'altre és que el primer transmet les dades xifrades, i el segon els transmet sense xifrar.

El sistema https utilitza un xifrat basat en les Secure Socket Layers (SSL) per enviar la informació.

La descodificació de la informació depèn del servidor remot i del navegador utilitzat per l'usuari.

És utilitzat principalment per entitats bancàries, botigues en línia, i qualsevol tipus de servei que requereixi l'enviament de dades personals o contrasenyes.

Com funciona el https?

Contràriament al que pensa molta gent, el https no impedeix l'accés a la informació, només la encripta quan la transmet. Per aquest motiu el contingut d'una pàgina web que utilitza el protocol https pugui ser llegit per les aranyes dels cercadors. El que no pot ser llegit és el contingut que s'envia des d'aquesta pàgina web al seu servidor, per exemple, el nom d'usuari i la contrasenya d'accés a una zona privada de la pàgina web.

El port estàndard per aquest protocol és el 443.

Com sabem que realment s'indexa el https?

Google indexa https des d'inicis del 2002 i progressivament, la resta de cercadors han anat adaptant la seva tecnologia per indexar també el https.

L'últim cercador en fer-ho ha estat MSN, que ho va aconseguir el juny de 2006.

Si busquem "https: // www." O bé inurl: https en els principals cercadors, trobarem pàgines https indexades en ells.

Com podem indexar el nostre https?

En principi, de forma natural podem indexar les nostres pàgines a https, però com aquest protocol transmet la informació de forma molt més lenta, algunes vegades les aranyes no aconsegueixen descarregar les pàgines en el temps que tenen establert i se'n van sense indexar. Aquest és el principal problema amb què ens podem trobar. El resoldrem intentant disminuir el temps de descàrrega d'aquestes pàgines.

Com podem accelerar la indexació del https

Hi ha dues tècniques:

  1. Google Sitemap: Incloure en el nostre mapa del web les pàgines https (ens referim al google mapa del web, no a l'sitemap per humans), i donar-lo d'alta en Sitemaps de google.
  2. Guerrilla: repartir per tot Internet enllaços que vagin a les nostres pàgines https, i aconseguir d'aquesta manera que les aranyes que estan indexant les pàgines on tinguem els enllaços, entrin també en la part https del nostre web.

Com podem fer que no es indexi el nostre https

No és tan fàcil com sembla. No ens serveix incloure les pàgines https en el nostre robots.txt. Cada port necessita el seu propi robots.txt, així que haurem de crear un robot.txt per a les nostres pàgines http i un altre per a les nostres pàgines https. O sigui, haurem de tenir també una pàgina anomenada

https://www.nombredelapagina.com/robots.txt

Si necessites ajuda per indexar o desindexar teves pàgines https, no dubtis en contactar-nos. Estarem encatados de assistir.

Informació complementària:

Bloc de MSN sobre indexació - Article on expliquen que MSN comença a indexar https
http://blogs.msdn.com/livesearch/archive/2006/06/28/649980.aspx

Informació de Google sobre com indexar https:
http://www.google.es/support/webmasters/bin/answer.py?answer=35302

Més informació sobre Sitemaps de google:
Sitemaps de Google
http://www.geamarketing.com/articulos/Descubre_indexacion_futuro_Google_SiteMap.php

Curs online, gratuït, de posicionament en cercadors: Curs de posicionament en cercadors
http://www.geamarketing.com/posicionamiento_buscadores.php