¿Cómo se indexa el https?

Contenido de este artículo

La indexación del https es uno de esos misterios que hace la vida de los SEO más interesante. Si bien sabemos que es posible indexarlo en la mayor parte de los buscadores, casi nadie sabe cómo conseguirlo en el mínimo tiempo posible.

¿Qué es el https?

El https es la versión segura del protocolo http. La diferencia entre uno y el otro es que el primero transmite los datos cifrados, y el segundo los transmite sin cifrar.

El sistema https utiliza un cifrado basado en las Secure Socket Layers (ssl) para enviar la información.

La decodificación de la información depende del servidor remoto y del navegador utilizado por el usuario.

Es utilizado principalmente por entidades bancarias, tiendas en línea, y cualquier tipo de servicio que requiera el envío de datos personales o contraseñas.

¿Cómo funciona el https?

Contrariamente a lo que piensa mucha gente, el https no impide el acceso a la información, sólo la encripta cuando la transmite. De ahí que el contenido de una página web que utiliza el protocolo https pueda ser leído por las arañas de los buscadores. Lo que no puede ser leído es el contenido que se envía desde esa página web a su servidor, por ejemplo, el login y la contraseña de acceso a una zona privada de la página web.

El puerto estándar para este protocolo es el 443.

¿Cómo sabemos que realmente se indexa el https?

Google indexa https desde inicios del 2002 y progresivamente, el resto de buscadores han ido adaptando su tecnología para indexar también el https.

El último buscador en hacerlo ha sido MSN, que lo consiguió en junio 2006.

Si buscamos «https://www.» o bien inurl:https en los principales buscadores, encontraremos páginas https indexadas en ellos.

¿Cómo podemos indexar nuestro https?

En principio, de forma natural podemos indexar nuestras páginas en https, pero como este protocolo transmite la información de forma mucho más lenta, algunas veces las arañas no consiguen descargar las páginas en el tiempo que tienen establecido y se van sin indexarlo. Este es el principal problema con el que nos podemos encontrar. Lo resolveremos intentando disminuir el tiempo de descarga de estas páginas.

Cómo podemos acelerar la indexación del https

Existen dos técnicas:

  1. Google Sitemap: Incluir en nuestro sitemap las páginas https (nos referimos al google sitemap, no al sitemap para humanos), y darlo de alta en sitemaps de google.
  2. Guerrilla: repartir por todo Internet enlaces que vayan a nuestras páginas https, y conseguir de esta forma que las arañas que están indexando las páginas donde tengamos los enlaces, entren también en la parte https de nuestra web.

Cómo podemos hacer que no se indexe nuestro https

No es tan fácil cómo parece. No nos sirve incluir las páginas https en nuestro robots.txt. Cada puerto necesita su propio robots.txt, así que deberemos crear un robot.txt para nuestras páginas http y otro para nuestras páginas https. O sea, deberemos tener también una página llamada

https://www.nombredelapagina.com/robots.txt

Si necesitas ayuda para indexar o desindexar tus páginas https, no dudes en contactarnos. Estaremos encatados de asistirte.

Información complementaria:

Blog de MSN acerca de indexación – Artículo donde explican que MSN empieza a indexar https
http://blogs.msdn.com/livesearch/archive/2006/06/28/649980.aspx

Información de Google acerca de cómo no indexar https:
http://www.google.es/support/webmasters/bin/answer.py?answer=35302

Más información sobre sitemaps de google:
SiteMaps de Google
http://www.geamarketing.com/articulos/Descubre_indexacion_futuro_Google_SiteMap.php

Curso online, gratuito, de posicionamiento en buscadores: Curso de posicionamiento en buscadores
http://www.geamarketing.com/posicionamiento_buscadores.php

 

1 comentario
  1. Alex
    Alex Dice:

    Hola.
    He iniciado un comercio electrónico hace un par de meses. (WordPress y Woocommerce)
    Quise hacerlo todo bien, claro está, así que contraté e instalé un certificado SSL para que mi web se muestre como segura.
    Pero estoy viendo que la información queda encriptada y me parece que ese es el motivo para no recibir visitas a mi web a través de buscadores.

    Y estoy desesperado…
    ¡Llevo CERO visitas por buscadores en dos meses!

    Gestioné algún blog con wordpress hace años, y moviendo y actualizando un poco los contenidos empezabas a aparecer en buscadores a través de términos adecuadamente indexados.
    Veo que todo eso ahora ha cambiado, parece imposible indexar nada adecuadamente y es muy frustrante.

    Sería genial que me pudierais echar un cable. (Lo muevo todo lo que puedo por redes sociales, pero sin visitas a través de buscadores no hay negocio que valga.)

    Por cierto, tenéis algunos de los enlaces del artículo rotos.
    Saludos.

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *