Google CALM

NOVEDADES Y TECNOLOGÍA

¿Qué es y como funciona Google CALM?

Google CALM es una nueva tecnología desarrollada por Google con la finalidad de acelerar los modelos de lenguaje grandes (como GPT-3 y LaMDA) sin que el nivele de rendimiento disminuya.

CALM ó Confident Adaptive Language Modeling es una innovadora tecnología que permite mejorar la velocidad de rendimiento de los modelos de lenguaje grandes hasta tres veces.

En los modelos de lenguaje, la velocidad de respuesta va a depender de la dificultad de la pregunta y la cantidad de procesamiento que sea necesaria para ofrecer una respuesta. Hay que tener presente que, computacionalmente, los modelos de lenguaje grandes no distinguen entre una parte difícil de una tarea de generación de texto y una parte fácil.

Esa velocidad de respuesta, por tanto, va a depender de la dificultad de la pregunta y la cantidad de procesamiento que sea necesaria para ofrecer una respuesta.

Es allí donde los investigadores de Google centraron sus esfuerzos para encontrar una solución y conseguir acelerar los modelos de lenguaje manteniendo un alto rendimiento; desarrollando Google CALM.

Ver el trabajo de investigación de Google

¿Cómo funciona Google CALM?


CALM funciona mediante la asignación dinámica de recursos según la complejidad de la parte individual de la tarea, utilizando un algoritmo para predecir si algo necesita recursos totales o parciales.

Durante el trabajo de investigación, realizando pruebas para varias tareas de procesamiento de lenguaje natural ("respuesta a preguntas, resumen de texto y traducción automática"), descubrieron que podían acelerar la inferencia en un factor de tres (300%).

El trabajo de investigación asegura que:

“CALM acelera la generación al salir temprano cuando sea posible y usar selectivamente la capacidad completa del decodificador solo para unos pocos tokens, demostrado aquí en un ejemplo de CNN/DM con una medida de confianza basada en softmax. Y (1) temprano y Y (2) temprano usan diferentes umbrales de confianza para la salida anticipada.

Debajo (sic) del texto, informamos la consistencia textual y de riesgo medida de cada uno de los dos resultados, junto con las ganancias de eficiencia.

Los colores representan la cantidad de capas de decodificación utilizadas para cada token; los tonos verde claro indican menos de la mitad del total de capas.

Solo unas pocas fichas seleccionadas usan la capacidad total del modelo (coloreadas en rojo), mientras que para la mayoría de las fichas el modelo sale después de una o pocas capas de decodificación (coloreadas en verde)”.
v Los investigadores concluyeron el artículo señalando que implementar CALM requiere solo modificaciones mínimas para adaptar un modelo de lenguaje grande para que sea más rápido.

Esta investigación abre la puerta a la creación de modelos de IA más complejos que se entrenan utilizando conjuntos de datos más grandes sin experimentar una reducción de la velocidad de respuesta y, sobre todo, manteniendo un alto nivel de rendimiento.

Además, es posible que pueda beneficiar a los modelos de lenguaje grandes que se entrenan con menos datos como los modelos InstructGPT, de los cuales ChatGPT es un modelo hermano que entrena utilizando únicamente 1300 millones de parámetros y que pueden superar a los modelos que se entrenan con mayor núm ero de parámetros.

Esta información se puede encontrar publicada en el blog de IA de Google el 16 de diciembre de 2022.

¡Compartir!