Usar datos estructurados para la indexación avanzada de sitios web

Si la indexación avanzada de sitios web está habilitada en su almacén de datos, puede usar los siguientes tipos de datos estructurados para mejorar la indexación:

En esta página se presentan ambos tipos de datos estructurados para sus páginas web y se describe cómo añadir atributos estructurados personalizados al esquema de su tienda de datos.

Acerca de las fechas de página predefinidas e inferidas por Google

Al rastrear las páginas web de tu almacén de datos del sitio web, Google infiere los datos de las páginas mediante las propiedades que se aplican a tu contenido. Vertex AI Search añade estas propiedades de datos de página inferidas a tu esquema. Estos datos inferidos incluyen las siguientes propiedades de fecha predefinidas, también llamadas fechas de firma:

  • datePublished: la fecha y la hora en las que se publicó la página por primera vez.
  • dateModified: fecha y hora en las que se modificó la página por última vez.

Estas propiedades se indexan automáticamente. Puedes usar directamente estas propiedades de fecha para enriquecer tu búsqueda sin añadirlas a tu esquema. Para añadir fechas de firma a tu sitio web, consulta el artículo Influir en las fechas de firma en la Búsqueda de Google.

Para saber cómo incluir estas propiedades de fecha predefinidas en tus solicitudes de búsqueda, como en expresiones de filtro y especificaciones de impulso, consulta el ejemplo de caso práctico con una fecha de página inferida por Google.

Acerca de los campos de fecha y hora personalizados en una página web

Puedes añadir campos de fecha y hora personalizados a tus páginas web. Estas etiquetas se pueden usar con la indexación avanzada cuando añades atributos de datos estructurados personalizados al esquema del almacén de datos.
Aquí tienes un ejemplo que muestra dónde añadir una metaetiqueta de fecha y hora personalizada llamada lastModified en tu página web.

<!DOCTYPE html> <html lang="en"> <head>     <meta charset="UTF-8">     <meta name="viewport" content="width=device-width, initial-scale=1.0">     <title>Your web page title</title>      <!-- Vertex AI Search can use this date. -->     <meta name="lastModified" content="2022-07-01"> </head> <body>     </body> </html> 

Para saber cómo incluir estas etiquetas de fecha y hora personalizadas en tus solicitudes de búsqueda, como en expresiones de filtro y especificaciones de impulso, consulta el ejemplo de caso práctico con un atributo de fecha y hora personalizado.

Acerca de los atributos de datos estructurados personalizados

Puede añadir atributos de datos estructurados como etiquetas meta y PageMaps a sus páginas web y usarlos para mejorar la indexación. Para usar atributos estructurados personalizados en la indexación, debes actualizar tu esquema.

Ejemplo de uso de etiquetas meta

Supongamos que tienes un gran número de páginas web relevantes para varios departamentos de tu organización. Puedes usar etiquetas meta para etiquetar las páginas que sean relevantes para cada departamento. Después, puede usar las etiquetas indexadas como filtros en sus consultas. De esta forma, puedes restringir los resultados de búsqueda a páginas web que contengan una etiqueta que coincida con alguno de los departamentos especificados.

El proceso se puede resumir de la siguiente manera:

  1. Añade las siguientes etiquetas meta a un subconjunto de tus páginas web:

    • Información relevante para los departamentos de ingeniería y TI:

      <meta name="department" content="eng, infotech"> <meta property="og:title" content="Password best practices"> 
    • Relevante para los departamentos de finanzas y recursos humanos:

      <meta name="department" content="finance, human resources"> <meta property="og:image" content="https://example.com/images/team-training-contractors.jpg"> 

      Para ver un ejemplo más elaborado, consulta las etiquetas de metaejemplo en una página web.

  2. Vuelve a rastrear las páginas actualizadas.

  3. Añada department al esquema de su almacén de datos como una matriz indexable, tal como se describe en la sección Añadir atributos de datos estructurados personalizados al esquema del almacén de datos.

Después de actualizar el esquema, se vuelve a indexar automáticamente el almacén de datos. Una vez que se haya completado la reindexación, podrá usar el filtro department en una expresión de filtro para reordenar o filtrar los resultados de búsqueda. Por ejemplo, cuando los usuarios del departamento de finanzas envían consultas, los resultados de búsqueda pueden ser más relevantes para ellos si se aplica el department filtro finance.

Ejemplo de etiquetas meta en una página web

A continuación, se muestra un ejemplo de las etiquetas meta que puedes añadir a tu página web. Estas etiquetas se pueden usar con la indexación avanzada cuando añades atributos de datos estructurados personalizados al esquema del almacén de datos.

<!DOCTYPE html> <html lang="en"> <head>     <meta charset="UTF-8">     <meta name="viewport" content="width=device-width, initial-scale=1.0">     <title>Your web page title</title>      <!-- Robots instructions for crawlers and for Vertex AI Search. -->     <meta name="robots" content="index,follow">      <!-- Vertex AI Search can use custom datetime fields to filter, boost, and order. -->     <meta name="lastModified" content="2024-09-06">      <!-- Vertex AI Search can filter by category or tags. -->     <meta name="category" content="archived">     <meta name="tags" content="legacy,interesting,faq">      <!-- Vertex AI Search can index these common HTML tags. -->     <meta name="description" content="A description of your web page's content.">     <meta name="author" content="Your name or organization">     <meta name="keywords" content="relevant,keywords,separated,by,commas">     <link rel="canonical" href="https://www.yourwebsite.com/this-page">     <meta property="og:title" content="Your Webpage Title">     <meta property="og:description" content="A description of your webpage's content.">     <meta property="og:image" content="https://www.yourwebsite.com/image.jpg">     <meta property="og:url" content="https://www.yourwebsite.com/this-page">     <meta property="og:type" content="website">     <meta name="twitter:card" content="summary_large_image">     <meta name="twitter:title" content="Your customized Webpage Title">     <meta name="twitter:description" content="A description of your webpage's content.">     <meta name="twitter:image" content="https://www.yourwebsite.com/image.jpg"> </head> <body> ... </body> </html> 

Ejemplo de uso de PageMaps

Supongamos que tienes varias páginas web con recetas de cocina. Puede añadir datos de PageMap al contenido HTML de cada página. Después, puedes usar los nombres de los atributos de PageMap indexados como filtros en tus consultas. Por ejemplo, si quieres destacar o ocultar páginas web en función de las valoraciones de las recetas, puedes seguir este proceso:

  1. Añade a tus páginas web datos de PageMap similares a los siguientes:

    <html> <head> ... <!-- <PageMap>     <DataObject type="document">         <Attribute name="title">Baked potatoes</Attribute>         <Attribute name="author">Dana A.</Attribute>         <Attribute name="description">Homestyle baked potatoes in oven. This         recipe uses Russet potatoes.</Attribute>         <Attribute name="rating">4.9</Attribute>         <Attribute name="lastUpdate">2015-01-01</Attribute>     </DataObject> </PageMap> --> </head> ... </html> 
  2. Vuelve a rastrear las páginas actualizadas.

  3. Añada rating al esquema de su almacén de datos como una matriz indexable, tal como se describe en la sección Añadir atributos de datos estructurados personalizados al esquema del almacén de datos.

Después de actualizar el esquema, se vuelve a indexar automáticamente el almacén de datos. Una vez completada la reindexación, puede usar el atributo rating en una expresión de filtro para reordenar o filtrar los resultados de búsqueda. Por ejemplo, cuando los usuarios busquen recetas, puedes destacar los resultados de búsqueda mejor valorados usando rating como atributo numérico personalizado.

Ejemplo de uso de datos de schema.org

Supongamos que tiene un sitio web de reseñas y que sus páginas web están anotadas con datos de schema.org en formato JSON-LD dentro de la etiqueta script de HTML. Después, puede usar las anotaciones indexadas como filtros en sus consultas. Por ejemplo, si quiere destacar u ocultar páginas web en función de las valoraciones agregadas, puede seguir este proceso:

  1. Añada a sus páginas web las anotaciones de schema.org para el contenido de reseñas, como las siguientes. Para ver otros tipos de plantillas de schema.org disponibles, consulta la sección Esquemas:

    <script type="application/ld+json"> {   "@context": "https://schema.org",   "@type": "Review",   "aggregateRating": {     "@type": "Average Rating",     "ratingValue": 3.5,     "reviewCount": 11   },   "description": "Published in 1843, this is the perfect depiction of the Victorian London. A Christmas Carol is the story of Ebenezer Scrooge's transformation.",   "name": "A Christmas Carol",   "image": "christmas-carol-first-ed.jpg",   "review": [     {       "@type": "Review",       "author": "Alex T.",       "datePublished": "2000-01-01",       "reviewBody": "Read this in middle school and have loved this ever since.",       "name": "Worth all the adaptations",       "reviewRating": {         "@type": "Rating",         "bestRating": 5,         "ratingValue": 5,         "worstRating": 1       }     }   ] } </script> 
  2. Vuelve a rastrear las páginas actualizadas.

  3. Añade la ruta a ratingValue al esquema de tu almacén de datos. Utilice un identificador como nombre de campo en el esquema del almacén de datos, como rating_value, tal como se describe en la sección Añadir atributos de datos estructurados personalizados al esquema del almacén de datos.

Después de actualizar el esquema, se vuelve a indexar automáticamente el almacén de datos. Una vez completada la reindexación, puede usar el atributo rating_value en una expresión de filtro para reordenar o filtrar los resultados de búsqueda. Por ejemplo, cuando los usuarios busquen libros, puedes destacar los resultados de búsqueda mejor valorados usando rating_value como atributo numérico personalizado.

Antes de empezar

Antes de actualizar el esquema del almacén de datos, haz lo siguiente:

  • Activa la indexación avanzada de sitios web en el almacén de datos. Para obtener más información, consulta Activar la indexación avanzada de sitios web.
  • Cómo funcionan los datos estructurados
  • Consulta cómo usar PageMaps. Consulte la lista de DataObjects reconocidos que se pueden añadir a los datos de PageMap.
  • Consulta cómo usar etiquetas meta. Asegúrese de no usar etiquetas meta excluidas ni etiquetas meta no admitidas.
  • Asegúrese de que el atributo que se va a indexar no tenga ninguno de los siguientes valores:
    • datePublished
    • dateModified
    • siteSearch
  • Ten en cuenta que, después de añadir datos estructurados a tus páginas web, debes volver a rastrearlas. Este proceso puede tardar varias horas.
  • Tenga en cuenta que, después de añadir atributos de datos estructurados al esquema del almacén de datos, las páginas web de su almacén de datos se vuelven a indexar automáticamente. La reindexación es una operación de larga duración que puede tardar varias horas.

Añadir atributos de datos estructurados personalizados al esquema del almacén de datos

Para añadir atributos de datos estructurados personalizados al esquema del almacén de datos, siga estos pasos:

  1. Añada etiquetas meta, datos de PageMap y datos de schema.org a todas las páginas de su sitio web que quiera enriquecer con la indexación de datos estructurados:

    • Para etiquetas meta:

      • Cada etiqueta meta debe tener el atributo name definido en el campo que quiera indexar y el atributo content en una cadena de uno o varios valores separados por comas.
      • Vertex AI Search admite etiquetas meta con nombres que coincidan con el patrón [a-zA-Z0-9][a-zA-Z0-9-_]*. Asegúrate de no usar etiquetas meta excluidas ni etiquetas meta no admitidas.

        Si el nombre de su etiqueta meta contiene un carácter especial, como dos puntos (:), debe elegir otro identificador en el esquema para representarlo y, a continuación, especificar el nombre exacto de la etiqueta meta en el campo siteSearchMetatagName del esquema.

    • En el caso de los datos de PageMap:

      • Los datos de PageMap deben constar de objetos de datos reconocidos que contengan nombres de atributos que quiera indexar. Los nombres de los atributos de los DataObjects deben corresponder al campo que quieras indexar.
    • En el caso de los datos de schema.org:

      • Las anotaciones deben estar en formato JSON-LD, microdatos o RDFa válidos. Para obtener más información, consulta Formatos admitidos.
  2. Vuelve a rastrear las páginas web actualizadas.

  3. Consulta la definición del esquema de tu almacén de datos a través de la API REST.

  4. Actualiza el esquema del almacén de datos mediante la Google Cloud consola o la API. Si decides hacerlo a través de la API, consulta cómo proporcionar tu propio esquema como objeto JSON.

    1. Añade objetos para cada atributo personalizado que quieras que se pueda buscar, recuperar o indexar.
    2. Añada el atributo personalizado y asigne el valor array a su type.
    3. Añada el tipo de datos del valor del atributo personalizado.
    4. Especifique el origen del atributo personalizado en el campo siteSearchStructuredDataSources.
    5. En el caso de los datos de schema.org, especifique la ruta del atributo en la anotación de schema.org que empiece por la cadena _root en el campo siteSearchSchemaOrgPaths.

    A continuación, se muestra un ejemplo de actualización de un esquema de un sitio web:

    {   "type": "object",   "properties": {     "CUSTOM_ATTRIBUTE": {       "type": "array",       "items": {         "type": "DATA_TYPE",         "searchable": true,         "retrievable": true,         "indexable": true,         "siteSearchMetatagName": "METATAG_NAME",         "siteSearchStructuredDataSources": ["STRUCTURED_DATA_SOURCE_1", "STRUCTURED_DATA_SOURCE_2"]       }     }   },   {     "IDENTIFIER_FOR_SCHEMA_ORG_FIELD": {       "type": "array",       "items": {         "type": "DATA_TYPE_SCHEMA_ORG_FIELD",         "searchable": true,         "retrievable": true,         "indexable": true,         "siteSearchSchemaOrgPaths": ["_root.PATH_TO_THE_SCHEMA_ORG_FIELD"]       }     }   },   "$schema": "https://json-schema.org/draft/2020-12/schema" }

    Haz los cambios siguientes:

    • CUSTOM_ATTRIBUTE: el valor del atributo name. Por ejemplo:

      • En el caso de una etiqueta meta definida como <meta name="department" content="eng, infotech">, usa department
      • En el caso de un atributo PageMap definido como <Attribute name="rating">4.9</Attribute>, utilice rating.

      A veces, el nombre de la etiqueta meta que quieres añadir al esquema no sigue el patrón [a-zA-Z0-9][a-zA-Z0-9-_]* y contiene caracteres especiales, como dos puntos :. En estos casos, especifique un atributo personalizado que represente el nombre de la etiqueta meta y, a continuación, especifique el nombre exacto de la etiqueta meta en el campo siteSearchMetatagName. Por ejemplo, si el nombre de la etiqueta meta es og:updated_time, use og_updated_time como identificador en el campo CUSTOM_ATTRIBUTE y og:updated_time en el campo METATAG_NAME.

    • DATA_TYPE: el tipo de datos del atributo name. Debe ser una cadena, un número o una fecha y hora. Por ejemplo:

      • En el caso de una etiqueta meta definida como <meta name="department" content="eng, infotech">, usa string.
      • En el caso de un atributo PageMap definido como <Attribute name="rating">4.9</Attribute>, utilice number.
      • En el caso de un atributo PageMap definido como <Attribute name="lastPublished">2015-01-01</Attribute>, utilice datetime.

      Para obtener más información, consulta FieldType.

    • METATAG_NAME: el nombre exacto de la etiqueta meta tal como aparece en la página web. Este campo es útil cuando el nombre de la etiqueta meta que quiere añadir al esquema no sigue el patrón [a-zA-Z0-9][a-zA-Z0-9-_]* y contiene caracteres especiales, como dos puntos :. En estos casos, especifique un atributo personalizado que represente el nombre de la etiqueta meta en CUSTOM_ATTRIBUTE y, a continuación, especifique el nombre exacto de la etiqueta meta en el campo siteSearchMetatagName. Por ejemplo, si el nombre de tu etiqueta meta es og:updated_time, usa og_updated_time como identificador en el campo CUSTOM_ATTRIBUTE y og:updated_time en el campo METATAG_NAME. Cuando añadas este campo para actualizar el esquema, debes usar el endpoint v1alpha en lugar del endpoint v1 para llamar al método schema.

    • STRUCTURED_DATA_SOURCE_N: un array que consta de una o ambas de las siguientes fuentes de datos estructurados, donde se puede encontrar el atributo CUSTOM_ATTRIBUTE:

      • Si el atributo personalizado se puede encontrar como etiqueta meta, especifique METATAGS
      • Si el atributo personalizado se puede encontrar como atributo PageMap, especifique PAGEMAP.
      • Si el atributo personalizado se puede encontrar como datos de schema.org, especifique SCHEMA_ORG.
      • Si el campo siteSearchStructuredDataSources no está presente o se deja vacío, los valores de las tres fuentes de datos se combinan en una matriz.
    • IDENTIFIER_FOR_SCHEMA_ORG_FIELD: identificador personalizado para denotar el campo schema.org. No tiene que ser exactamente igual que el nombre del campo de la anotación de schema.org en tu página web. Por ejemplo, si la ruta del campo es _root.nutrition.calories, el identificador puede ser calorific_value o nutrition_value.

    • DATA_TYPE_SCHEMA_ORG_FIELD: el tipo de datos del campo de schema.org. Debe ser una cadena, un número o una fecha y hora. Por ejemplo:

      • En el caso de un campo de schema.org definido como "calories" ("calorías"): "240 calories" ("240 calorías"), use string
      • En el caso de un campo de schema.org definido como "calories": 240, use number
      • En el caso de un campo de schema.org definido como "foundingDate": "1991-05-01", use datetime

      Para obtener más información, consulta FieldType.

    • PATH_TO_THE_SCHEMA_ORG_FIELD: la ruta a un solo campo del campo schema.org al que se debe acceder. Se especifica con separadores de puntos después de cada nivel anidado. Debes especificar la ruta completa necesaria para acceder al campo obligatorio. Por ejemplo, si un campo ratingValue está anidado en el campo aggregateRating, puedes especificar la ruta como _root.aggregateRating.ratingValue.

Después de actualizar el esquema del sitio web, se vuelve a indexar automáticamente. Se trata de una operación de larga duración que puede tardar varias horas.

Siguientes pasos

Usa los metadatos indexados para lo siguiente: