今天,我們發布了 FineVision,這是一個巨大的開源數據集,用於訓練最先進的視覺-語言模型: > 1730 萬張圖片 > 2430 萬個樣本 > 8890 萬個回合 > 95 億個答案令牌 以下是我最喜歡的發現: