Přirozená konverzace zahrnuje přerušování a mluvení přes lidi, což je pro LLM těžké modelovat jako jednu autoregresivní sekvenci. Jsem si jistý, že se můžete dostat docela daleko, když vytvoříte textovou sekvenci s filmovým scénářem, jako jsou přestávky uprostřed věty, ale zdá se, že skutečné řešení by zahrnovalo paralelní proudy naslouchání a přemýšlení s mluvením ve frontě na pauzy nebo zvýšení priority přerušení. Míchání tokenů z různých streamů a dělání něčeho vlastního s pozorností se zdá být věrohodné.
178,03K