Escribir guiones, componer canciones, redactar ensayos, mejorar textos o explicarte cualquier cosa como si fueras un niño de seis años. Esas son algunas de las funciones que han convertido a ChatGPT en la gran revolución tecnológica de 2023, reabriendo de paso el debate sobre las capacidades que este tipo de sistemas basados en inteligencia artificial (IA) pueden llegar a tener en un futuro próximo y las consecuencias que eso pueda tener. La reciente crisis en OpenAI, con el despido y readmisión de Sam Altman, tiene mucho que ver con ello. Pero, ¿te has preguntado alguna vez por qué esta herramienta es capaz de hacer todas esas cosas? ¿Cómo funciona realmente ChatGPT por dentro? El divulgador Dani Sánchez-Crespo, director general de la empresa de videojuegos Novorama, explica los engranajes de los chatbots en un didáctico hilo de Twitter.
ChatGPT es un robot virtual con el que se puede mantener una conversación, pero, a diferencia de los que emplean los servicios de atención al cliente de muchas compañías, este es capaz de generar textos de forma muy coherente y adaptada a cada contexto, casi como si fuera un humano. Sus respuestas se basan en la información obtenida gracias a la aplicación de técnicas de aprendizaje automático y procesamiento del lenguaje natural. Básicamente se trata de un reconocedor de palabras entrenable.
Este entrenamiento, en su articulación más básica, consiste en darle una palabra y que prediga cuál vendrá después. Por ejemplo, si yo digo 'tortilla de', seguramente usted pensará automáticamente en 'patatas'. Y si digo 'sol y...' usted probablemente dirá 'sombra'. Cuanto mayor sea el contexto (las palabras que se den) mayor será la capacidad de predicción.
A grandes rasgos, eso es lo que ocurre con el entrenamiento de un chatbot. Se le proporcionan datos y su red neuronal ajusta automáticamente unos parámetros que le permiten predecir la siguiente palabra. Eso sí, aquí hablamos de millones de palabras de entrenamiento y miles de millones de parámetros de ajuste. A más tamaño, mejor predicción. Y también más coste, claro.
Esto es posible ahora, según apunta Sánchez-Crespo, porque, en primer lugar, tenemos muchísimo texto disponible para entrenar. Desde la Wikipedia a Twitter, pasando por cientos de miles páginas web. Segundo, porque gracias a empresas como Intel, AMD o NVIDIA podemos usar hardware con una brutal capacidad de cálculo para hacer ajustes en la red neuronal. Y tercero, las empresas han desarrollado mejores modelos de red, es decir una mayor capacidad predictiva.
Pero hasta este punto (pretraining) lo que tendríamos sería un LLM (Large Language Model), es decir "un vomitador de texto", pero lo que buscamos es un "respondedor de preguntas" que sea inteligente, o que simule serlo. Esta es la fase de afinación, llamada Aprendizaje por Refuerzo con Retro-alimentación Humana (RLHF). "Aquí usamos pares pregunta-respuesta, para entrenar un segundo modelo, más pequeño. Para esto se usan trabajadores humanos. Básicamente, se le dice al trabajador que escriba una pregunta, y dé la respuesta “perfecta”. Y con eso se “entrena” al modelo, para que lo aprenda", explica el divulgador. Esta fase es mucho más barata, y además se actualiza con cada update del sistema.
Pasamos a la tercera fase, en la que ya no nos centramos en producir una respuesta, sino la mejor respuesta posible. ¿Y cómo lo conseguimos? "El modelo produce N respuestas a la misma pregunta, automáticamente, y un operador humano las puntúa y elige la mejor, de forma que acabamos de afinar parámetros y ayudamos al modelo a entender qué es correcto y qué lo es menos".
Hemos de tener en cuenta que el conocimiento del Chatbot se basa en los datos de entrenamiento que ha recibido. Si se le ha presentado información incorrecta o sesgada, sus respuestas pueden no reflejar la realidad. El modelo no sabe lo que es correcto, sólo sabe patrones, lo que significa que al final será tan bueno como lo haya sido su entrenamiento. Por ello es importante hilar fino en las fases 2 y 3, y trabajar el alineamiento, es decir, asegurarse de que lo que va a decir, además de ser cierto no propague prejuicios, sesgos o racismo.