Sistemas de AA de producción: Inferencia estática versus dinámica
Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.
La inferencia es el proceso de realizar predicciones mediante la aplicación de un modelo entrenado a ejemplos sin etiqueta. En términos generales, un modelo puede inferir predicciones de una de las siguientes dos maneras:
La inferencia estática (también llamada inferencia sin conexión o inferencia por lotes) significa que el modelo realiza predicciones sobre un conjunto de ejemplos sin etiqueta comunes y, luego, almacena en caché esas predicciones en algún lugar.
La inferencia dinámica (también llamada inferencia en línea o inferencia en tiempo real) significa que el modelo solo realiza predicciones a pedido, por ejemplo, cuando un cliente solicita una predicción.
Para usar un ejemplo extremo, imagina un modelo muy complejo que toma una hora para inferir una predicción. Esta probablemente sería una excelente situación para la inferencia estática:
Figura 4: En la inferencia estática, un modelo genera predicciones, que luego se almacenan en caché en un servidor.
Supongamos que este mismo modelo complejo usa por error la inferencia dinámica en lugar de la inferencia estática. Si muchos clientes solicitan predicciones al mismo tiempo, la mayoría de ellos no las recibirán durante horas o días.
Ahora, considera un modelo que infiere rápidamente, quizás en 2 milisegundos, con un mínimo relativo de recursos computacionales. En esta situación, los clientes pueden recibir predicciones de forma rápida y eficiente a través de la inferencia dinámica, como se sugiere en la Figura 5.
Figura 5: En la inferencia dinámica, un modelo infiere predicciones a pedido.
Inferencia estática
La inferencia estática ofrece ciertas ventajas y desventajas.
Ventajas
No te preocupes demasiado por el costo de inferencia.
Puede realizar la verificación posterior de las predicciones antes de enviarlas.
Desventajas
Solo puede entregar predicciones almacenadas en caché, por lo que es posible que el sistema no pueda entregar predicciones para ejemplos de entrada poco comunes.
Es probable que la latencia de actualización se mida en horas o días.
Inferencia dinámica
La inferencia dinámica ofrece ciertas ventajas y desventajas.
Ventajas
Puede inferir una predicción sobre cualquier elemento nuevo a medida que llega, lo que es ideal para las predicciones de cola larga (menos comunes).
Desventajas
Son intensivos en procesamiento y sensibles a la latencia. Esta combinación puede limitar la complejidad del modelo; es decir, es posible que debas crear un modelo más simple que pueda inferir predicciones más rápido que un modelo complejo.
Las necesidades de supervisión son más intensivas.
Ejercicios: Comprueba tu comprensión
¿Cuáles tres de las siguientes cuatro afirmaciones son verdaderas sobre la inferencia estática?
El modelo debe crear predicciones para todas las entradas posibles.
Sí, el modelo debe realizar predicciones para todas las entradas posibles y almacenarlas en una caché o tabla de búsqueda. Si el conjunto de elementos que predice el modelo es limitado, la inferencia estática podría ser una buena opción. Sin embargo, para las entradas de formato libre, como las consultas de los usuarios que tienen una cola larga de elementos inusuales o extraños, la inferencia estática no puede proporcionar una cobertura completa.
El sistema puede verificar las predicciones inferidas antes de publicarlas.
Sí, este es un aspecto útil de la inferencia estática.
Para una entrada específica, el modelo puede entregar una predicción más rápido que la inferencia dinámica.
Sí, la inferencia estática casi siempre puede entregar predicciones más rápido que la inferencia dinámica.
Puedes reaccionar rápidamente a los cambios en el mundo.
No, esta es una desventaja de la inferencia estática.
¿Cuál de las siguientes afirmaciones es verdadera sobre la inferencia dinámica?
Puedes proporcionar predicciones para todos los elementos posibles.
Sí, esta es una fortaleza de la inferencia dinámica. Se clasificarán todas las solicitudes que ingresen. La inferencia dinámica controla las distribuciones de cola larga (las que tienen muchos elementos poco comunes), como el espacio de todas las oraciones posibles escritas en las opiniones de películas.
Puedes realizar una verificación posterior de las predicciones antes de que se usen.
En general, no es posible realizar una verificación posterior de todas las predicciones antes de que se usen, ya que se realizan a pedido. Sin embargo, puedes supervisar las cualidades de predicción agregadas para proporcionar cierto nivel de control de calidad, pero estas solo indicarán alarmas de incendio después de que el incendio ya se haya extendido.
Cuando realizas inferencias dinámicas, no necesitas preocuparte por la latencia de predicción (el tiempo de retardo para devolver predicciones) tanto como cuando realizas inferencias estáticas.
La latencia de la predicción suele ser una preocupación real en la inferencia dinámica. Lamentablemente, no siempre puedes corregir los problemas de latencia de la predicción agregando más servidores de inferencia.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-07-27 (UTC)"],[[["\u003cp\u003eInference involves using a trained model to make predictions on unlabeled examples, and it can be done statically or dynamically.\u003c/p\u003e\n"],["\u003cp\u003eStatic inference generates predictions in advance and caches them, making it suitable for scenarios where prediction speed is critical but limiting its ability to handle uncommon inputs.\u003c/p\u003e\n"],["\u003cp\u003eDynamic inference generates predictions on demand, offering flexibility for diverse inputs but potentially increasing latency and computational demands.\u003c/p\u003e\n"],["\u003cp\u003eChoosing between static and dynamic inference depends on factors like model complexity, desired prediction speed, and the nature of the input data.\u003c/p\u003e\n"],["\u003cp\u003eStatic inference is advantageous when cost and prediction verification are prioritized, while dynamic inference excels in handling diverse, real-time predictions.\u003c/p\u003e\n"]]],[],null,["[**Inference**](/machine-learning/glossary#inference) is the process of\nmaking predictions by applying a trained model to\n[**unlabeled examples**](/machine-learning/glossary#unlabeled_example).\nBroadly speaking, a model can infer predictions in one of two ways:\n\n- **Static inference** (also called **offline inference** or **batch inference** ) means the model makes predictions on a bunch of common [**unlabeled examples**](/machine-learning/glossary#unlabeled_example) and then caches those predictions somewhere.\n- **Dynamic inference** (also called **online inference** or real-time inference) means that the model only makes predictions on demand, for example, when a client requests a prediction.\n\nTo use an extreme example, imagine a very complex model that\ntakes one hour to infer a prediction.\nThis would probably be an excellent situation for static inference:\n**Figure 4.** In static inference, a model generates predictions, which are then cached on a server.\n\nSuppose this same complex model mistakenly uses dynamic inference instead of\nstatic inference. If many clients request predictions around the same time,\nmost of them won't receive that prediction for hours or days.\n\nNow consider a model that infers quickly, perhaps in 2 milliseconds using a\nrelative minimum of computational resources. In this situation, clients can\nreceive predictions quickly and efficiently through dynamic inference, as\nsuggested in Figure 5.\n**Figure 5.** In dynamic inference, a model infers predictions on demand.\n\nStatic inference\n\nStatic inference offers certain advantages and disadvantages.\n\nAdvantages\n\n- Don't need to worry much about cost of inference.\n- Can do post-verification of predictions before pushing.\n\nDisadvantages\n\n- Can only serve cached predictions, so the system might not be able to serve predictions for uncommon input examples.\n- Update latency is likely measured in hours or days.\n\nDynamic inference\n\nDynamic inference offers certain advantages and disadvantages.\n\nAdvantages\n\n- Can infer a prediction on *any* new item as it comes in, which is great for long tail (less common) predictions.\n\nDisadvantages\n\n- Compute intensive and latency sensitive. This combination may limit model complexity; that is, you might have to build a simpler model that can infer predictions more quickly than a complex model could.\n- Monitoring needs are more intensive.\n\nExercises: Check your understanding \nWhich **three** of the following four statements are true of static inference? \nThe model must create predictions for all possible inputs. \nYes, the model must make predictions for all possible inputs and store them in a cache or lookup table. If the set of things that the model is predicting is limited, then static inference might be a good choice. However, for free-form inputs like user queries that have a long tail of unusual or rare items, static inference can't provide full coverage. \nThe system can verify inferred predictions before serving them. \nYes, this is a useful aspect of static inference. \nFor a given input, the model can serve a prediction more quickly than *dynamic* inference. \nYes, static inference can almost always serve predictions faster than dynamic inference. \nYou can react quickly to changes in the world. \nNo, this is a disadvantage of static inference. \nWhich **one** of the following statements is true of dynamic inference? \nYou can provide predictions for all possible items. \nYes, this is a strength of dynamic inference. Any request that comes in will be given a score. Dynamic inference handles long-tail distributions (those with many rare items), like the space of all possible sentences written in movie reviews. \nYou can do post-verification of predictions before they are used. \nIn general, it's not possible to do a post-verification of all predictions before they get used because predictions are being made on demand. You can, however, potentially monitor *aggregate* prediction qualities to provide some level of quality checking, but these will signal fire alarms only after the fire has already spread. \nWhen performing dynamic inference, you don't need to worry about prediction latency (the lag time for returning predictions) as much as when performing static inference. \nPrediction latency is often a real concern in dynamic inference. Unfortunately, you can't necessarily fix prediction latency issues by adding more inference servers.\n| **Key terms:**\n|\n| - [Example](/machine-learning/glossary#example)\n| - [Inference](/machine-learning/glossary#inference)\n- [Unlabeled example](/machine-learning/glossary#unlabeled_example) \n[Help Center](https://support.google.com/machinelearningeducation)"]]