Un conjunto de documentos que parecen describir cómo Google clasifica los resultados de búsqueda ha aparecido en línea, probablemente como resultado de una publicación accidental por parte de un bot interno.
La documentación filtrada describe una versión antigua del API de Google Content Warehouse y proporciona una visión interna del funcionamiento de Google Search.
El material parece haber sido comprometido inadvertidamente a un repositorio de Google en GitHub accesible públicamente alrededor del 13 de marzo por las propias herramientas automatizadas del gigante web. Esa automatización añadió una licencia de código abierto Apache 2.0 al commit, como es estándar para la documentación pública de Google. Un commit de seguimiento el 7 de mayo intentó revertir la filtración.
No obstante, el material fue detectado por Erfan Azimi, CEO de la empresa de optimización de motores de búsqueda (SEO) EA Digital Eagle, y luego fue revelado el domingo por otros operativos de SEO, Rand Fishkin, CEO de SparkToro y Michael King, CEO de iPullRank.
Estos documentos no contienen código ni similares, sino que describen cómo utilizar el API de Google Content Warehouse, probablemente destinado solo para uso interno; la documentación filtrada incluye numerosas referencias a sistemas y proyectos internos. Aunque ya existe un API de Google Cloud con un nombre similar y que es público, lo que terminó en GitHub parece ir mucho más allá.
Los archivos son notables por lo que revelan sobre los aspectos que Google considera importantes al clasificar páginas web para relevancia, un tema de interés continuo para cualquiera involucrado en el negocio de SEO y/o cualquier persona que opere un sitio web y espere que Google lo ayude a ganar tráfico.
Entre las más de 2,500 páginas de documentación, ensambladas para su fácil consulta, hay detalles sobre más de 14,000 atributos accesibles o asociados con el API, aunque poca información sobre si todas estas señales son utilizadas y su importancia. Por lo tanto, es difícil discernir el peso que Google aplica a los atributos en su algoritmo de clasificación de resultados de búsqueda.
Pero los consultores de SEO creen que los documentos contienen detalles notables porque difieren de las declaraciones públicas hechas por representantes de Google.
“Muchas de las afirmaciones de [Azimi] [en un correo electrónico describiendo la filtración] contradicen directamente las declaraciones públicas hechas por Googlers a lo largo de los años, en particular la repetida negación de la empresa de que se empleen señales de usuario centradas en clics, la negación de que se consideren subdominios por separado en los rankings, las negaciones de un sandbox para sitios web nuevos, las negaciones de que se recolecte o considere la edad de un dominio, y más,” explicó Fishkin de SparkToro en un informe.
King de iPullRank, en su publicación sobre los documentos, señaló una declaración hecha por el defensor de búsqueda de Google John Mueller, quien dijo en un video que “no tenemos nada como una puntuación de autoridad de sitio web” – una medida de si Google considera un sitio autoritativo y por lo tanto digno de rankings más altos en los resultados de búsqueda.
Pero King nota que los documentos revelan que, como parte de las Señales de Calidad Comprimidas que Google almacena para documentos, se puede calcular una puntuación de “siteAuthority”.