En los modelos de lenguaje, la velocidad de respuesta va a depender de la dificultad de la pregunta y la cantidad de procesamiento que sea necesaria para ofrecer una respuesta. Desde un punto de vista computacional, los grandes modelos de lenguaje NO distinguen entre lo que es la parte difícil de una tarea de generación de texto y la parte fácil.
Esa velocidad de respuesta, por tanto, va a depender de la dificultad de la pregunta y la cantidad de procesamiento que sea necesaria para ofrecer una respuesta.
Es allí donde los investigadores de Google centraron sus esfuerzos para encontrar una solución y conseguir acelerar los modelos de lenguaje manteniendo un alto rendimiento; desarrollando Google CALM.
Ver el trabajo de investigación de Google