# DeepSeek最新文章是“一图胜千言”的具像化
💡 为解决大型语言模型(LLMs)处理长上下文时的效率瓶颈,dpsk最新paper能够实现:
> 解决长文本处理的计算挑战: 当前LLMs在处理长文本内容时面临显著的计算挑战,因为计算成本与序列长度呈二次方缩放关系。 > 探索视觉压缩潜力: 研究人员探索利用视觉模态作为文本信息的高效压缩介质的潜力。一个包含文档文本的图像可以用明显少于等效数字文本的令牌来表示丰富的信息,暗示光学压缩可以实现更高的压缩比。
> 重新审视VLM以提高效率: 从以LLM为中心的角度重新审视视觉-语言模型(VLMs),重点关注视觉编码器如何增强LLMs处理文本信息的效率,而不是基础的VQA任务,例如存在性判断、计数、颜色/属性、空间关系、OCR 文本问答、时序视频提问等。
> 回答关键研究问题: OCR任务提供了一个理想的测试平台来验证这种视觉-文本压缩范式。模型试图回答一个关键研究问题:对于包含1000个单词的文档,至少需要多少视觉令牌才能进行解码?这对于“一图胜千言”的原理研究具有重要意义。
·
dpsk最新发布的这篇文章是“一图胜千言”的具像化,我们之前理解一图胜千言主要是在可视化领域,一张达意的可视化图表能涵盖背后的海量数据洞察,而dpsk利用图像技术很好地解决了LLMs上下文瓶颈的问题,没有完全解决但至少给大伙指出一条新路径,不用只一味卷文本上下文长度了。
·
karpathy鲜少在推特表达喜欢什么,通常是转推荐其他新技术、新产品,或者进行一轮批判性思考,能看出来AK是被这篇文章惊艳了。
·
原文:
www.arxiv.org