有趣。 如果我沒記錯,通過注意力掩碼排除當前令牌的KV(即移除對角線)是行不通的! 假設:這實際上使當前令牌成為一個注意力匯聚點。