¿Cómo se indexa el https?

La indexación del https es uno de esos misterios que hace la vida de los SEO más interesante. Si bien sabemos que es posible indexarlo en la mayor parte de los buscadores, casi nadie sabe cómo conseguirlo en el mínimo tiempo posible.

¿Qué es el https?

El https es la versión segura del protocolo http. La diferencia entre uno y el otro es que el primero transmite los datos cifrados, y el segundo los transmite sin cifrar.

El sistema https utiliza un cifrado basado en las Secure Socket Layers (ssl) para enviar la información.

La decodificación de la información depende del servidor remoto y del navegador utilizado por el usuario.

Es utilizado principalmente por entidades bancarias, tiendas en línea, y cualquier tipo de servicio que requiera el envío de datos personales o contraseñas.

¿Cómo funciona el https?

Contrariamente a lo que piensa mucha gente, el https no impide el acceso a la información, sólo la encripta cuando la transmite. De ahí que el contenido de una página web que utiliza el protocolo https pueda ser leído por las arañas de los buscadores. Lo que no puede ser leído es el contenido que se envía desde esa página web a su servidor, por ejemplo, el login y la contraseña de acceso a una zona privada de la página web.

El puerto estándar para este protocolo es el 443.

¿Cómo sabemos que realmente se indexa el https?

Google indexa https desde inicios del 2002 y progresivamente, el resto de buscadores han ido adaptando su tecnología para indexar también el https.

El último buscador en hacerlo ha sido MSN, que lo consiguió en junio 2006.

Si buscamos “https://www.” o bien inurl:https en los principales buscadores, encontraremos páginas https indexadas en ellos.

¿Cómo podemos indexar nuestro https?

En principio, de forma natural podemos indexar nuestras páginas en https, pero como este protocolo transmite la información de forma mucho más lenta, algunas veces las arañas no consiguen descargar las páginas en el tiempo que tienen establecido y se van sin indexarlo. Este es el principal problema con el que nos podemos encontrar. Lo resolveremos intentando disminuir el tiempo de descarga de estas páginas.

Cómo podemos acelerar la indexación del https

Existen dos técnicas:

  1. Google Sitemap: Incluir en nuestro sitemap las páginas https (nos referimos al google sitemap, no al sitemap para humanos), y darlo de alta en sitemaps de google.
  2. Guerrilla: repartir por todo Internet enlaces que vayan a nuestras páginas https, y conseguir de esta forma que las arañas que están indexando las páginas donde tengamos los enlaces, entren también en la parte https de nuestra web.

Cómo podemos hacer que no se indexe nuestro https

No es tan fácil cómo parece. No nos sirve incluir las páginas https en nuestro robots.txt. Cada puerto necesita su propio robots.txt, así que deberemos crear un robot.txt para nuestras páginas http y otro para nuestras páginas https. O sea, deberemos tener también una página llamada

https://www.nombredelapagina.com/robots.txt

Si necesitas ayuda para indexar o desindexar tus páginas https, no dudes en contactarnos. Estaremos encatados de asistirte.

Información complementaria:

Blog de MSN acerca de indexación – Artículo donde explican que MSN empieza a indexar https
http://blogs.msdn.com/livesearch/archive/2006/06/28/649980.aspx

Información de Google acerca de cómo no indexar https:
http://www.google.es/support/webmasters/bin/answer.py?answer=35302

Más información sobre sitemaps de google:
SiteMaps de Google
http://www.geamarketing.com/articulos/Descubre_indexacion_futuro_Google_SiteMap.php

Curso online, gratuito, de posicionamiento en buscadores: Curso de posicionamiento en buscadores
http://www.geamarketing.com/posicionamiento_buscadores.php

 

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *