DeepSeek 的这两篇论文很值得一读,我觉得意图很明显了:“无限上下文”。
这很可能是范式的一种转变,如果在小模型上的试验能 scale up 到更大的模型:
- 抛弃 tokenizer,转向 Pixel,模型不是在读,而是在看?
- 高效的压缩比,记忆的问题是不是就能大大迈进一步了?
无限上下文,又是 RAG 已死?
既然都是 vision token 了,那 Browser Use 能力自然也就更强了?
看问题的角度一换,长上下文、记忆和多模态 3 个问题都同时能在同一个新范式下得到解决的可能,Bravo!
github.comgithub.com