Una conversación natural incluye interrupciones y hablar por encima de las personas, lo cual es difícil para un LLM modelar como una única secuencia autorregresiva. Estoy seguro de que puedes avanzar bastante creando una secuencia de texto con pausas al estilo de un guion de película en medio de la oración, pero parece que la verdadera solución implicaría flujos paralelos de escucha y pensamiento, con el habla en cola para pausas o priorizando interrupciones. Mezclar tokens de diferentes flujos y hacer algo personalizado con la atención parece plausible.
178.06K