En los modelos de lenguaje, la velocidad de respuesta va a depender de la dificultad de la pregunta y la cantidad de procesamiento que sea necesaria para ofrecer una respuesta. Hay que tener presente que, computacionalmente, los modelos de lenguaje grandes no distinguen entre una parte difícil de una tarea de generación de texto y una parte fácil.
Esa velocidad de respuesta, por tanto, va a depender de la dificultad de la pregunta y la cantidad de procesamiento que sea necesaria para ofrecer una respuesta.
Es allí donde los investigadores de Google centraron sus esfuerzos para encontrar una solución y conseguir acelerar los modelos de lenguaje manteniendo un alto rendimiento; desarrollando Google CALM.
Ver el trabajo de investigación de Google