Documentación filtrada del API de Search Google: Todo lo que un SEO debería ver

En esta entrado os voy a resumir lo que han compartido recientemente con Rand Fishkin (Sparktoro.com y anteriormente Moz.com o SEOmoz.org) en su artículo:

An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them

Resumen de puntos clave:

Recepción de Documentos Filtrados: Rand Fishkin recibió una filtración de documentos de la API de búsqueda de Google, confirmada como auténtica por ex empleados de Google. Estos documentos contienen detalles sobre las operaciones internas de búsqueda de Google que contradicen declaraciones públicas previas.
Contradicciones Específicas:
- Google ha negado utilizar señales basadas en clics y considerar subdominios por separado para el ranking.
- Se niega la existencia de una «caja de arena» para sitios web nuevos y la consideración de la antigüedad de los dominios.
Detalles del Sistema NavBoost:
- Utiliza datos de flujo de clics (clickstream) de Google Toolbar y Chrome para mejorar la calidad de los resultados de búsqueda.
- Identifica la demanda de búsqueda y la intención del usuario a través de la cantidad y duración de los clics en los resultados de búsqueda.
Uso de Whitelists y Filtros:
- Durante la pandemia de Covid-19 y las elecciones democráticas, Google empleó listas blancas para priorizar ciertos sitios web en los resultados de búsqueda.
Autenticidad y Verificación:
- Fishkin verificó la autenticidad de los documentos con ayuda de expertos y ex empleados de Google.
- Los documentos son parte de un «Almacén de API de Contenido» interno de Google, filtrados accidentalmente en GitHub.
Implicaciones y Revelaciones:
- Los documentos sugieren prácticas internas de Google que podrían impactar significativamente en las estrategias SEO y la transparencia del algoritmo de búsqueda.
Motivaciones del Informador:
- El informante buscaba transparencia y rendir cuentas a Google respecto a sus declaraciones públicas en conflicto con las prácticas internas reveladas.
Revisión y Análisis:
- Mike King, un reconocido SEO técnico, analizó los documentos y confirmó las sospechas de Fishkin sobre la autenticidad y el valor de la información contenida.
- Se discutirán detalles más profundos en el evento SparkTogether 2024.
Desmentidos Públicos y Posible Impacto:
- Los documentos revelan discrepancias entre lo que Google ha afirmado públicamente sobre sus métodos de ranking y lo que realmente ocurre internamente.
- Esto podría llevar a un reajuste significativo en cómo los profesionales SEO y los marketers entienden y operan en relación con Google.
Hallazgos Preliminares y Conclusiones:
- Los documentos contienen referencias a módulos que manejan datos de calidad y señales de ranking basadas en clics, intenciones de búsqueda, y retroalimentación de calidad, sugiriendo un sistema más dinámico y reactivo de lo que Google ha admitido.
Repercusiones para el Campo del SEO:
- El descubrimiento podría inspirar nuevas técnicas y estrategias en el SEO, especialmente para aquellos que buscan comprender mejor los intricados mecanismos detrás de los algoritmos de búsqueda de Google.

Artículo:

Un informador Anónimo Compartió Miles de Documentos Filtrados de la API de Búsqueda de Google Conmigo; Todos en SEO Deberían Verlos Por Rand Fishkin, 27 de Mayo de 2024

El domingo, 5 de mayo, recibí un correo electrónico de una persona que afirmaba tener acceso a una filtración masiva de documentación de la API de la división de búsqueda de Google. El correo además afirmaba que estos documentos filtrados fueron confirmados como auténticos por ex empleados de Google, y que esos ex empleados y otros habían compartido información adicional y privada sobre las operaciones de búsqueda de Google.

Muchas de sus afirmaciones contradicen directamente las declaraciones públicas hechas por empleados de Google a lo largo de los años, en particular la negación repetida de la compañía de que se emplean señales de usuario centradas en clics, la negación de que los subdominios se consideran por separado en los rankings, las negaciones de una caja de arena para sitios web más nuevos, las negaciones de que se recolecta o considera la edad de un dominio, y más.

Naturalmente, era escéptico. Las afirmaciones hechas por esta fuente (quien pidió permanecer anónima) parecían extraordinarias, como: En sus primeros años, el equipo de búsqueda de Google reconoció la necesidad de datos completos de flujo de clics (cada URL visitada por un navegador) para un gran porcentaje de usuarios web para mejorar la calidad del resultado de su motor de búsqueda. Un sistema llamado “NavBoost” (citado por el VP de Búsqueda, Pandu Nayak, en su testimonio del caso del DOJ) inicialmente recopiló datos del PageRank de la Barra de Google, y el deseo de más datos de flujo de clics sirvió como motivación clave para la creación del navegador Chrome (lanzado en 2008). NavBoost usa el número de búsquedas de una palabra clave dada para identificar la demanda de búsqueda en tendencia, el número de clics en un resultado de búsqueda (realicé varios experimentos sobre esto de 2013 a 2015), y clics largos versus cortos (que presenté teorías sobre en este video de 2015). Google utiliza historial de cookies, datos de Chrome registrados, y detección de patrones (referidos en la filtración como clics «no aplastados» versus «aplastados») como medios efectivos para combatir el spam de clics manual y automatizado. NavBoost también califica consultas por intención del usuario. Por ejemplo, ciertos umbrales de atención y clics en videos o imágenes activarán características de video o imagen para esa consulta y consultas relacionadas asociadas a NavBoost. Google examina los clics y el compromiso en las búsquedas tanto durante como después de la consulta principal (referido como una «consulta NavBoost»). Por ejemplo, si muchos usuarios buscan «Rand Fishkin», no encuentran SparkToro, y cambian inmediatamente su consulta a «SparkToro» y hacen clic en SparkToro.com en el resultado de búsqueda, SparkToro.com (y sitios web que mencionan «SparkToro») recibirán un impulso en los resultados de búsqueda para la palabra clave «Rand Fishkin». Los datos de NavBoost se utilizan a nivel del host para evaluar la calidad general de un sitio (mi fuente anónima especuló que esto podría ser lo que Google y los SEOs llamaban «Panda»). Esta evaluación puede resultar en un impulso o una degradación.

Otros factores menores, como penalizaciones para nombres de dominio que coinciden exactamente con consultas de búsqueda no marcadas (por ejemplo, mens-luxury-watches.com o milwaukee-homes-for-sale.net), una nueva puntuación «BabyPanda», y señales de spam también son considerados durante el proceso de evaluación de calidad. NavBoost geo-cercas datos de clics, teniendo en cuenta niveles de país y estado/provincia, así como uso de móviles versus escritorio. Sin embargo, si Google carece de datos para ciertas regiones o agentes de usuario, pueden aplicar el proceso universalmente a los resultados de la consulta.

Durante la pandemia de Covid-19, Google empleó listas blancas para sitios web que podrían aparecer altos en los resultados para búsquedas relacionadas con Covid. De manera similar, durante las elecciones democráticas, Google empleó listas blancas para sitios que deberían mostrarse (o ser degradados) para información relacionada con elecciones. Y estos son solo la punta del iceberg.

Reclamaciones extraordinarias requieren evidencias extraordinarias. Y mientras que algunas de estas se superponen con información revelada durante el caso Google/DOJ (algunas de las cuales puedes leer en este hilo de 2020), muchas son novedosas y sugieren conocimientos internos.

Así que, este pasado viernes, 24 de mayo (después de varios correos electrónicos), tuve una videollamada con la fuente anónima. Una captura de pantalla anónima de la llamada de Rand con la fuente Antes del correo electrónico y la llamada, no había conocido ni oído hablar de la persona que me envió el correo electrónico sobre esta filtración. Pidieron que su identidad permaneciera velada, y que simplemente incluyera la cita a continuación:

An eagle uses the storm to reach unimaginable heights.
– Matshona Dhliwayo

Después de la llamada, pude confirmar detalles de su historial laboral, personas mutuas que ambos conocemos del mundo del marketing, y varias de sus afirmaciones sobre estar en eventos particulares con personas influyentes de la industria (incluyendo a Googlers), aunque no puedo confirmar detalles de las reuniones ni el contenido de las discusiones que afirman haber tenido.

Durante nuestra llamada, este contacto me mostró la filtración en sí: más de 2,500 páginas de documentación de la API que contienen 14,014 atributos (características de la API) que parecen provenir del «Almacén de API de Contenido» interno de Google. Basándome en el historial de compromisos del documento, este código fue subido a GitHub el 27 de marzo de 2024 y no fue eliminado hasta el 7 de mayo de 2024.

Esta documentación no muestra cosas como el peso de elementos particulares en el algoritmo de clasificación de búsqueda, ni prueba qué elementos se utilizan en los sistemas de clasificación. Pero, muestra detalles increíbles sobre datos que Google recopila. Aquí hay un ejemplo del formato del documento:

Captura de pantalla de datos filtrados sobre «clics buenos» y «clics malos», incluyendo la duración de los clics (es decir, cuánto tiempo un visitante pasa en una página web a la que han hecho clic desde los resultados de búsqueda de Google antes de volver a los resultados de búsqueda) Después de guiarme a través de un puñado de estos módulos de la API, la fuente explicó sus motivaciones (alrededor de la transparencia, responsabilizando a Google, etc.) y su esperanza: que yo publicara un artículo compartiendo esta filtración, revelando algunas de las muchas piezas interesantes de datos que contenía, y refutando algunas «mentiras» que los «Googlers habían estado difundiendo durante años».

Una muestra de declaraciones de representantes de Google (Matt Cutts, Gary Ilyes, y John Mueller) negando el uso de señales de usuario basadas en clics en clasificaciones a lo largo de los años. ¿Es esta filtración de la API auténtica? ¿Podemos confiar en ella? Un paso crítico en el proceso fue verificar la autenticidad de los documentos del Almacén de Contenido de la API. Así que, me puse en contacto con algunos amigos ex-Googlers, compartí los documentos filtrados y pedí sus opiniones. Tres ex-Googlers respondieron: uno dijo que no se sentía cómodo mirando o comentando al respecto. Los otros dos compartieron lo siguiente (fuera del registro y anónimamente):

“No tenía acceso a este código cuando trabajaba allí. Pero esto ciertamente parece legítimo.” “Tiene todas las características de una API interna de Google.” “Es una API basada en Java. Y alguien pasó mucho tiempo adhiriéndose a los propios estándares internos de Google para documentación y nombramiento.” “Necesitaría más tiempo para estar seguro, pero esto coincide con la documentación interna con la que estoy familiarizado.” “Nada de lo que vi en una revisión breve sugiere que esto sea algo más que legítimo.” Luego, necesité ayuda para analizar y descifrar las convenciones de nomenclatura y aspectos más técnicos de la documentación. He trabajado con APIs un poco, pero han pasado 20 años desde que escribí código y 6 años desde que practiqué SEO profesionalmente. Así que, me puse en contacto con uno de los SEOs técnicos más importantes del mundo: Mike King, fundador de iPullRank.

Durante una llamada telefónica de 40 minutos el viernes por la tarde, Mike revisó la filtración y confirmó mis sospechas: esto parece ser un conjunto legítimo de documentos desde dentro de la división de búsqueda de Google, y contiene una cantidad extraordinaria de información previamente no confirmada sobre los funcionamientos internos de Google.

2,500 documentos técnicos es una cantidad irrazonable de material para pedir a un hombre (un padre, esposo y empresario, nada menos) que revise en un solo fin de semana. Pero, eso no impidió que Mike hiciera lo mejor que pudo. Ha preparado una revisión inicial excepcionalmente detallada de la filtración de la API de Google aquí, a la que haré referencia más en los hallazgos a continuación. Y también ha accedido a unirse a nosotros en SparkTogether 2024 en Seattle, WA, el 8 de octubre, donde presentará la historia completamente transparente de esta filtración en mucho mayor detalle, y con el beneficio de los próximos meses de análisis.

Cualificaciones y Motivaciones para esta Publicación Antes de continuar, algunas advertencias: ya no trabajo en el campo del SEO. Mi conocimiento y experiencia con SEO tienen más de 6 años de antigüedad. No tengo la experiencia técnica o el conocimiento de las operaciones internas de Google para analizar una filtración de documentación de la API y confirmar con certeza si es auténtica (de ahí la ayuda de Mike y la entrada de ex-Googlers).

Entonces, ¿por qué publicar sobre este tema?

Porque cuando hablé con la parte que me envió esta información, los encontré creíbles, reflexivos y profundamente conocedores. A pesar de entrar en la conversación profundamente escéptico, no pude identificar banderas rojas, ni ninguna motivación maliciosa. El único objetivo de esta persona parecía bastante alineado con el mío: responsabilizar a Google por declaraciones públicas que entran en conflicto con conversaciones privadas y documentación filtrada, y traer mayor transparencia al campo del marketing de búsqueda. Y creían que, a pesar de mis años alejados del SEO, yo era la mejor persona para compartir esto públicamente.

Estos son objetivos que me importaron profundamente durante casi dos décadas. Y mientras mi vida profesional ha avanzado (ahora dirijo dos empresas: SparkToro, que fabrica software de investigación de audiencia y Snackbar Studio, un desarrollador de videojuegos independiente), mi interés y conexiones con el mundo de la Optimización de Motores de Búsqueda siguen siendo fuertes. Siento una profunda obligación de compartir información sobre cómo funciona el motor de búsqueda dominante del mundo, especialmente información que Google preferiría mantener en silencio. Y tristemente, no estoy seguro de dónde más enviar algo tan potencialmente revolucionario.

Hace años, antes de que dejara el periodismo para convertirse en Enlace de Búsqueda de Google, Danny Sullivan, habría sido mi fuente principal para una filtración de esta magnitud. Tenía la gravedad, el currículum, el conocimiento y la experiencia para examinar una afirmación como esta y presentarla de manera justa en el tribunal de la opinión pública. Han habido tantas veces en los últimos años que he deseado el enfoque calmado, imparcial y justo-con-Google de Danny para piezas noticiables como esta—piezas que podrían llegar tan lejos como las declaraciones de la compañía en el estrado de los testigos (por ejemplo, su elocuente escritura sobre las afirmaciones de privacidad indefendibles de Google sobre datos de palabras clave orgánicas).

Sea lo que sea que Google le esté pagando, no es suficiente.

Disculpas que en lugar de Danny, querido lector, estés atascado conmigo. Pero ya que lo estás, voy a suponer que quizás no estés familiarizado con mi trasfondo o credenciales, y brevemente compartir esos.

Comencé a hacer SEO para pequeñas empresas en el área de Seattle en 2001, y cofundé la consultoría SEO que se convertiría en Moz (originalmente llamada SEOmoz) en 2003. Durante los siguientes 15 años, trabajé en la industria del marketing de búsqueda y a menudo fui reconocido como un líder influyente en ese campo. Autor/coautor de Lost and Founder: A Painfully Honest Field Guide to the Startup World, The Art of SEO, e Inbound Marketing and SEO. Publicaciones incluyendo el WSJ, Inc, Forbes, y cientos más han escrito sobre y citado mi trabajo en el mundo del SEO y la búsqueda de Google, muchas de ellas citando una serie de videos semanales populares que presenté durante una década: Whiteboard Friday. Moz creció hasta tener más de 35,000 clientes pagadores de su software SEO, ingresos de más de $50M+, y un equipo de ~200 antes de ser vendido a un comprador de capital privado en 2021. Me marché en 2018 y comencé SparkToro, y en 2023, Snackbar Studio. Dejé la universidad en la Universidad de Washington en 2001 y no tengo un título, sin embargo, mi trabajo en Google y SEO ha sido citado por el Congreso de los Estados Unidos, la Comisión Federal de Comercio de los Estados Unidos, el Wall Street Journal, el New York Times, y Last Week Tonight de John Oliver, entre docenas de otros. Poseo varias patentes relacionadas con el diseño de un índice de enlaces a escala web, y soy el creador de numerosas métricas de índice de enlaces, incluyendo Domain Authority, una puntuación basada en aprendizaje automático comúnmente utilizada en el mundo del marketing digital para evaluar la capacidad de un sitio web para clasificar en el motor de búsqueda de Google.

OK. De vuelta a la filtración de Google.

¿Qué es el Almacén de Contenido de la API de Google? Al revisar la enorme colección de documentación de la API, el primer conjunto razonable de preguntas podría ser: «¿Qué es esto? ¿Para qué se usa? ¿Por qué existe en primer lugar?»

La filtración parece provenir de GitHub, y la explicación más creíble para su exposición coincide con lo que mi fuente anónima me dijo durante nuestra llamada: estos documentos se hicieron públicos inadvertida y brevemente (muchos enlaces en la documentación apuntan a repositorios privados de GitHub y páginas internas en el sitio corporativo de Google que requieren inicios de sesión específicos de Google). Durante este período probablemente accidental, público entre marzo y mayo de 2024, la documentación de la API se difundió a Hexdocs (que indexa repositorios públicos de GitHub) y fue encontrada/circulada por otras fuentes (estoy seguro de que otros tienen una copia, aunque es extraño que no pudiera encontrar ningún discurso público hasta ahora).

Según mis fuentes ex-Googlers, documentación como esta existe en casi todos los equipos de Google, explicando varios atributos y módulos de la API para ayudar a familiarizar a aquellos que trabajan en un proyecto con los elementos de datos disponibles. Esta filtración coincide con otras en repositorios públicos de GitHub y en la documentación de la API de Google Cloud, utilizando el mismo estilo de notación, formato, e incluso nombres de procesos/módulos/características y referencias.

Si todo eso suena como un bocado técnico, piensa en esto como instrucciones para los miembros del equipo de motores de búsqueda de Google. Es como un inventario de libros en una biblioteca, un catálogo de tarjetas de alguna manera, diciéndoles a esos empleados que necesitan saber qué está disponible y cómo pueden obtenerlo.

Pero, mientras que las bibliotecas son públicas, la búsqueda de Google es una de las cajas negras más secretas y vigiladas del mundo. En el último cuarto de siglo, nunca se ha informado de una filtración de esta magnitud o detalle desde la división de búsqueda de Google.

¿Qué tan seguros podemos estar de que el motor de búsqueda de Google utiliza todo lo detallado en estos documentos de la API? Eso está abierto a interpretación. Google podría haber retirado algunas de estas, utilizado otras exclusivamente para pruebas o proyectos internos, o incluso haber hecho disponibles características de la API que nunca se emplearon.

Sin embargo, hay referencias en la documentación a características obsoletas y notas específicas en otras indicando que ya no deberían usarse. Eso sugiere fuertemente que aquellas no marcadas con tales detalles todavía estaban en uso activo a partir de la filtración de marzo de 2024.

Tampoco podemos decir con certeza si la filtración de marzo es de la versión más reciente de esta documentación. La fecha más reciente que puedo encontrar referenciada en los documentos de la API es agosto de 2023:

El texto relevante dice:

«El nombre de visualización a nivel de dominio del sitio web, como ‘Google’ para google.com. Consulte go/site-display-name para más detalles. A partir de agosto de 2023, este campo está siendo descontinuado en favor del campo info.[AlternativeTitlesResponse].site_display_name_response, que también contiene nombres de sitios a nivel de host con información adicional.»

Un lector razonable concluiría que la documentación estaba actualizada hasta el verano pasado (referencias a otros cambios en 2023 y años anteriores, hasta 2005, también están presentes), y posiblemente incluso actualizada a partir de la fecha de divulgación de marzo de 2024.

La búsqueda de Google cambia masivamente de año en año, y las introducciones recientes como sus muy criticados Resúmenes de IA, no aparecen en esta filtración. ¿Cuáles de los elementos mencionados se utilizan activamente hoy en los sistemas de clasificación de Google? Eso está abierto a la especulación. Este tesoro contiene referencias fascinantes, muchas que serán completamente nuevas para los no ingenieros de motores de búsqueda de Google.

Pero, instaría a los lectores a no señalar una característica particular de la API en esta filtración y decir: «¡MIRA! Eso prueba que Google usa XYZ en sus clasificaciones». No es del todo una prueba. Es una fuerte indicación, más fuerte que las solicitudes de patente o las declaraciones públicas de los Googlers, pero aún sin garantía.

Dicho esto, es lo más cercano a una prueba concluyente que hemos visto desde que los ejecutivos de Google testificaron en el juicio del DOJ el año pasado. Y, hablando de ese testimonio, gran parte de él se corrobora y se amplía en la filtración de documentos, como Mike detalla en su publicación.

¿Qué podemos aprender de la filtración del Almacén de Datos? Espero que se extraigan percepciones interesantes y aplicables al marketing de este masivo conjunto de archivos durante años. Simplemente es demasiado grande y denso como para pensar que un fin de semana de navegación podría desenterrar un conjunto completo de conclusiones, o siquiera acercarse.

Sin embargo, compartiré cinco de los descubrimientos más interesantes, algunos que arrojan nueva luz sobre cosas que se asumía desde hace tiempo que Google estaba haciendo, y otros que sugieren que las declaraciones públicas de la compañía (especialmente aquellas sobre lo que «recopilan») han sido erróneas. Debido a que hacerlo podría ser tedioso y podría percibirse como agravios personales (dadas las históricas ataques de Google a mi trabajo), no me molestaré en mostrar comparaciones lado a lado de lo que los Googlers dijeron versus lo que este documento insinúa. Además, Mike hizo un gran trabajo al respecto en su publicación.

En cambio, me centraré en las conclusiones interesantes y/o útiles, y en mis conclusiones del conjunto completo de módulos que he podido revisar, la pieza de Mike sobre la filtración, y cómo esto se combina con otras cosas que sabemos que son ciertas sobre Google.

Navboost y el uso de clics, CTR, clics largos vs. cortos y datos de usuario

Un puñado de módulos en la documentación hacen referencia a características como «goodClicks», «badClicks», «lastLongestClicks», impresiones, clics aplastados, no aplastados y clics unicornio. Estos están vinculados a Navboost y Glue, dos palabras que pueden ser familiares para aquellos que revisaron el testimonio del DOJ de Google. Aquí un extracto relevante del interrogatorio cruzado del abogado del DOJ, Kenneth Dintzer, a Pandu Nayak, VP de Búsqueda en el equipo de Calidad de Búsqueda:

P. Así que recuérdame, ¿Navboost es desde 2005? R. Está en ese rango. Podría ser incluso antes de eso.

P. Y se ha actualizado. No es el mismo viejo Navboost que era en ese entonces. R. No.

P. Y otro es glue, ¿correcto? R. Glue es solo otro nombre para Navboost que incluye todas las otras características en la página.

P. Correcto. Iba a llegar allí más tarde, pero podemos hacerlo ahora. Navboost hace resultados web, como hemos discutido, ¿verdad? R. Sí.

P. Y glue hace todo lo demás que está en la página que no son resultados web, ¿correcto? R. Eso es correcto.

P. Juntos ayudan a encontrar las cosas y clasificar las cosas que finalmente aparecen en nuestro SERP? R. Es verdad. Ambos son señales para eso, sí.

Un lector astuto de estos documentos de la API encontraría que apoyan el testimonio del Sr. Nayak (y se alinean con la patente de Google sobre calidad del sitio):

Módulo de Datos de Calidad de Navboost
Segmentación geográfica de Datos de Navboost
Señales de Clics en Navboost
Datos de Impresiones y clics que envejecen

Google parece tener formas de filtrar clics que no quieren contar en sus sistemas de clasificación, e incluir aquellos que sí. También parecen medir la duración de los clics (es decir, el pogo-sticking – cuando un buscador hace clic en un resultado y luego rápidamente hace clic en el botón de regreso, insatisfecho con la respuesta que encontró) e impresiones.

Ya se ha escrito mucho sobre el uso de datos de clics por parte de Google, así que no me extenderé en el tema. Lo que importa es que Google ha nombrado y descrito características para esa medición, añadiendo aún más evidencia al montón.

Uso de flujos de clics del navegador Chrome para potenciar la búsqueda de Google

Mi fuente anónima afirmó que, ya en 2005, Google quería el flujo completo de clics de miles de millones de usuarios de Internet, y con Chrome, ahora lo tienen. Los documentos de la API sugieren que Google calcula varios tipos de métricas que pueden ser llamadas usando vistas de Chrome relacionadas tanto con páginas individuales como con dominios enteros.

Este documento, que describe las características alrededor de cómo Google crea los Sitelinks, es particularmente interesante. Muestra una llamada llamada topUrl, que es «Una lista de las urls más importantes con la puntuación más alta de dos niveles, es decir, chrome_trans_clicks.» Mi interpretación es que Google probablemente usa la cantidad de clics en páginas en navegadores Chrome y usa eso para determinar las URLs más populares/importantes en un sitio, que entran en el cálculo de cuáles incluir en la característica de sitelinks.

Por ejemplo, en la captura de pantalla anterior de los resultados de Google, páginas como «Precios,» el «Blog,» y las páginas de «Login» son nuestras más visitadas, y Google lo sabe a través de su seguimiento de los flujos de clics de miles de millones de usuarios de Chrome.

Whitelists en Viajes, Covid y Política Un módulo sobre «Sitios de Viajes de Buena Calidad» llevaría a los lectores razonables a concluir que existe una whitelist para Google en el sector de viajes (no está claro si esto es exclusivamente para la pestaña de búsqueda «Travel» de Google, o para la búsqueda web en general). Referencias en varios lugares a banderas para «isCovidLocalAuthority» y «isElectionAuthority» sugieren además que Google está utilizando whitelists para dominios particulares que son apropiados para mostrar para consultas altamente controvertidas o potencialmente problemáticas.

Por ejemplo, después de la elección presidencial de EE. UU. de 2020, un candidato afirmó (sin pruebas) que la elección había sido robada, y alentó a sus seguidores a asaltar el Capitolio y tomar acciones potencialmente violentas contra los legisladores, es decir, cometer una insurrección.

Google casi seguramente sería uno de los primeros lugares a los que la gente acudiría en busca de información sobre este evento, y si su motor de búsqueda devolviera sitios web de propaganda que retrataran incorrectamente las pruebas de la elección, eso podría llevar directamente a más disputas, violencia o incluso el fin de la democracia en EE. UU. Aquellos de nosotros que queremos que las elecciones libres y justas continúen deberíamos estar muy agradecidos de que los ingenieros de Google estén empleando whitelists en este caso.

Empleo de Retroalimentación de Calificadores de Calidad

Google ha tenido durante mucho tiempo una plataforma de calificación de calidad llamada EWOK (Cyrus Shepard, un líder notable en el espacio SEO, pasó varios años contribuyendo a esto y escribió sobre ello aquí). Ahora tenemos evidencia de que algunos elementos de los calificadores de calidad se utilizan en los sistemas de búsqueda.

Cuán influyentes son estas señales basadas en calificadores y para qué se utilizan exactamente, no me queda claro en una lectura inicial, pero sospecho que algunos detectives SEO reflexivos indagarán en la filtración, aprenderán y publicarán más al respecto. Lo que encuentro fascinante es que las puntuaciones y datos generados por los calificadores de calidad de EWOK pueden estar directamente involucrados en el sistema de búsqueda de Google, en lugar de ser simplemente un conjunto de datos para experimentos. Por supuesto, es posible que sean «solo para pruebas», pero a medida que navegas por los documentos filtrados, encontrarás que cuando eso es cierto, está específicamente señalado en las notas y detalles del módulo.

Google usa datos de clics para determinar cómo ponderar los enlaces en los rankings Este es un hallazgo fascinante, y proviene directamente de la fuente anónima que compartió por primera vez la filtración. En sus palabras: «Google tiene tres cubos/niveles para clasificar sus índices de enlaces (baja, media, alta calidad). Los datos de clics se utilizan para determinar a qué nivel del índice de gráficos de enlaces pertenece un documento. Vea SourceType aquí, y TotalClicks aquí.» En resumen:
- Si Forbes.com/Dogs/ tiene un alto volumen de clics desde dispositivos verificables (todos los datos relacionados con Chrome discutidos anteriormente), entra en el índice de alta calidad y el enlace pasa señales de ranking.
- Una vez que el enlace se vuelve «confiable» porque pertenece a un índice de mayor nivel, puede fluir PageRank y anclas, o ser filtrado/degradado por sistemas de spam de enlaces. Los enlaces del índice de enlaces de baja calidad no dañarán el ranking de un sitio; simplemente se ignoran.
- Si Forbes.com/Cats/ no tiene clics, entra en el índice de baja calidad y el enlace se ignora.

Conclusiones Generales para los Profesionales de Marketing que se Preocupan por el Tráfico de Búsqueda Orgánica Si te preocupas estratégicamente por el valor del tráfico de búsqueda orgánica, pero no tienes mucho uso para los detalles técnicos de cómo funciona Google, esta sección es para ti. Es mi intento de resumir gran parte de la evolución de Google desde el período que cubre esta filtración: 2005 – 2023, y no me limitaré exclusivamente a elementos confirmados de la filtración.

La marca importa más que cualquier otra cosa.
Google tiene numerosas formas de identificar entidades, clasificar, filtrar y emplearlas. Las entidades incluyen marcas (nombres de marcas, sus sitios web oficiales, cuentas sociales asociadas, etc.), y como hemos visto en nuestra investigación de flujo de clics con Datos, han estado en un camino inexorable hacia clasificar y enviar tráfico exclusivamente a grandes marcas poderosas que dominan la web > sitios y negocios pequeños e independientes.

Si hubiera un consejo universal que tuviera para los profesionales de marketing que buscan mejorar ampliamente sus rankings de búsqueda orgánica y tráfico, sería: «Construye una marca notable, popular y bien reconocida en tu espacio, fuera de la búsqueda de Google.»

La experiencia, la experiencia, la autoridad y la confiabilidad («E-E-A-T») quizás no importen tan directamente como algunos SEOs piensan.
La única mención de experiencia temática en la filtración que hemos encontrado hasta ahora es una breve notación sobre contribuciones a reseñas de Google Maps. Los otros aspectos de E-E-A-T están enterrados, indirectos, etiquetados de formas difíciles de identificar, o, más probablemente (en mi opinión) correlacionados con cosas que Google usa y le importan, pero no elementos específicos de los sistemas de ranking.

Como Mike señaló en su artículo, hay documentación en la filtración que sugiere que Google puede identificar autores y tratarlos como entidades en el sistema. Construir la influencia de uno como autor en línea puede, de hecho, llevar a beneficios de clasificación en Google. Pero qué exactamente en los sistemas de clasificación constituye «E-E-A-T» y cuán poderosos son esos elementos es una pregunta abierta. Estoy un poco preocupado de que E-E-A-T sea 80% propaganda, 20% sustancia. Hay muchas marcas poderosas que clasifican notablemente bien en Google y tienen muy poca experiencia, experiencia, autoridad o confiabilidad, como detalla en profundidad el artículo reciente y viral de HouseFresh.

El contenido y los enlaces son secundarios cuando la intención del usuario alrededor de la navegación (y los patrones que esa intención crea) están presentes.
Digamos, por ejemplo, que muchas personas en el área de Seattle buscan «Lehman Brothers» y desplazan hasta la página 2, 3 o 4 de los resultados de búsqueda hasta que encuentran la lista del teatro para la producción teatral de Lehman Brother, luego hacen clic en ese resultado. Bastante rápido, Google aprenderá que eso es lo que los buscadores de esas palabras en esa área quieren.

Incluso si el artículo de Wikipedia sobre el papel de Lehman Brothers en la crisis financiera de 2008 invirtiera mucho en la construcción de enlaces y la optimización de contenido, es poco probable que pudieran superar en clasificación a las señales de intención del usuario (calculadas a partir de consultas y clics) de los asistentes al teatro de Seattle.

Extendiendo este ejemplo a la web en general y a la búsqueda como un todo, si puedes crear demanda para tu sitio web entre suficientes buscadores probables en las regiones que estás apuntando, podrías poder evitar la necesidad de señales clásicas de SEO on y off-page como enlaces, texto ancla, contenido optimizado y similares. El poder de Navboost y la intención de los usuarios es probablemente el factor de clasificación más poderoso en los sistemas de Google. Como lo puso el VP de Google Alexander Grushetsky en un correo electrónico de 2019 a otros ejecutivos de Google (incluidos Danny Sullivan y Pandu Nayak):

«Ya sabemos, una señal podría ser más poderosa que todo el gran sistema en una métrica dada. Por ejemplo, estoy bastante seguro de que NavBoost solo era / es más positivo en clics (y probablemente incluso en métricas de precisión / utilidad) por sí mismo que el resto de clasificación (por cierto, a los ingenieros fuera del equipo de NavBoost también solía no gustarles el poder de NavBoost, y el hecho de que estaba ‘robando victorias’)»

Aquellos que buscan aún más confirmación podrían revisar el detallado currículum de Google del ingeniero Paul Haahr, que afirma:

«Soy el gerente de proyectos de clasificación basados en registros. Los esfuerzos del equipo se dividen actualmente entre cuatro áreas: 1) Navboost. Esto ya es uno de los señales de clasificación más fuertes de Google. El trabajo actual está en la automatización en la construcción de nuevos datos de navboost;»

Los factores de clasificación clásicos: PageRank, anclas (PageRank temático basado en el texto ancla del enlace), y la coincidencia de texto han estado disminuyendo en importancia durante años. Pero los títulos de las páginas siguen siendo bastante importantes.
Este es un hallazgo del excelente análisis de Mike que sería tonto no señalar aquí. PageRank todavía parece tener un lugar en la indexación y clasificación de búsqueda, pero casi seguramente ha evolucionado desde el artículo original de 1998. La filtración insinúa múltiples versiones de PageRank (rawPagerank, un PageRank obsoleto que hace referencia a «semillas más cercanas», firstCoveragePageRank desde cuando el documento fue servido por primera vez, etc.) han sido creadas y descartadas a lo largo de los años. Y los enlaces de texto ancla, aunque presentes en la filtración, no parecen ser tan cruciales u omnipresentes como hubiera esperado de mis primeros años en SEO.
Para la mayoría de las pequeñas y medianas empresas y creadores/editores más nuevos, SEO probablemente mostrará pobres retornos hasta que hayas establecido credibilidad, demanda de navegación y una reputación sólida entre una audiencia considerable.
SEO es un juego de grandes marcas, dominios populares. Como empresario, no estoy ignorando el SEO, pero fuertemente espero que, para los años venideros, hasta que/a menos que SparkToro se convierta en una marca mucho más grande, más popular, más buscada y más clicada en su industria, este sitio web continuará siendo superado en clasificación, incluso por su contenido original, por agregadores y editores que han existido durante 10+ años.

Esto es casi seguramente cierto para otros creadores, editores y pymes. El contenido que creas es poco probable que tenga un buen desempeño en Google si existe competencia de sitios web grandes y populares con marcas bien conocidas. Google ya no recompensa a los operadores astutos y conocedores de SEO que conocen todos los trucos correctos. Recompensan a las marcas establecidas, formas de popularidad medibles por búsqueda y dominios establecidos que los buscadores ya conocen y hacen clic. Desde 1998 hasta 2018 (o algo así), uno podría iniciar razonablemente un poderoso ciclo de marketing con SEO para Google. En 2024, no creo que eso sea realista, al menos, no en la web de habla inglesa en sectores competitivos.

Pasos Siguientes para la Industria de la Búsqueda Estoy emocionado de ver cómo los profesionales con experiencia más reciente y conocimiento técnico más profundo se embarcan en analizar esta filtración. Animo a cualquiera que tenga curiosidad a profundizar en la documentación, intentar conectarla con otros documentos públicos, declaraciones, testimonios y experimentos de clasificación, luego publicar sus hallazgos.

Históricamente, algunas de las voces más ruidosas y editoriales más prolíficas de la industria de la búsqueda han estado felices de repetir sin crítica las declaraciones públicas de Google. Escriben titulares como «Google dice XYZ es cierto», en lugar de «Google afirma XYZ; la evidencia sugiere lo contrario.»

La industria SEO no se beneficia de este tipo de titulares. Por favor, hazlo mejor. Si esta filtración y el juicio del DOJ pueden crear un solo cambio, espero que sea este.

Cuando aquellos nuevos en el campo lean Search Engine Roundtable, Search Engine Land, SE Journal y los muchos blogs y sitios web de agencias que cubren las noticias del campo SEO, no necesariamente saben cuán seriamente tomar las declaraciones de Google. Los periodistas y autores no deberían presumir que los lectores son lo suficientemente astutos como para saber que docenas o cientos de comentarios públicos pasados por representantes oficiales de Google fueron más tarde probados incorrectos.

Esta obligación no es solo sobre ayudar a la industria de la búsqueda—es sobre ayudar al mundo entero. Google es una de las fuerzas más poderosas e influyentes para la difusión de información y comercio en este planeta. Solo recientemente han sido responsabilizados en cierta medida por gobiernos y reporteros. El trabajo de periodistas y escritores en el campo del marketing de búsqueda tiene peso en los tribunales de la opinión pública, en los pasillos de los funcionarios electos y en los corazones de los empleados de Google, todos los cuales tienen el poder de cambiar las cosas para mejor o ignorarlas en nuestro peligro colectivo.

Gracias a Mike King por su invaluable ayuda en esta historia de filtración de documentos, a Amanda Natividad por la ayuda de edición y a la fuente anónima que compartió esta filtración conmigo. Espero que las actualizaciones a esta pieza lleguen durante los próximos días y semanas a medida que alcanza más ojos. Si tienes hallazgos que apoyen o contradigan las afirmaciones que he hecho aquí, por favor siéntete libre de compartirlas en los comentarios a continuación.