Naturlig samtale inkluderer avbrudd og snakking over mennesker, noe som er vanskelig for en LLM å modellere som en enkelt autoregressiv sekvens. Jeg er sikker på at du kan komme ganske langt ved å lage en tekstsekvens med filmmanus som pauser midt i setningen, men det virker som om den virkelige løsningen ville innebære parallelle strømmer av lytting og tenkning med snakking i kø for pauser eller heving til en avbruddsprioritet. Å blande tokens fra forskjellige strømmer og gjøre noe tilpasset med oppmerksomhet virker plausibelt.
178,01K