论文,我认为就是写的比较专业的博客,它的格式非常八股,基本都是按照这样的结构来呈现的:标题 → 概要 → 导言 → 方法 → 实验 → 结论。
下文较长,主要提到了几个检索方法和阅读工具,强烈推荐下 PopAI,
bit.ly,体验做的很不错。
很多朋友说论文读起来太晦涩且耗时,但事实上阅读论文是 ROI 比较高的一件事情,尤其是 AI 盛行的当下,大量科研人员都以论文的形式来呈现自己的研究成果,他们在写论文之前,会把行业最前沿的信息都研究个遍,然后自己动手实践,并提出更新、更好的解决方案。所以我认为学会读论文,以及挖掘对自己工作有帮助的论文是比较重要的一件事情。
检索论文,我的思路有两个。
一个是「有什么办法可以解决问题」,通过问题关键词去索引内容,例如检索“如何识别多人同时说话”,我找到了语音识别(ASR),然后找到了 Whisper,然后找到了《Robust Speech Recognition via Large-Scale Weak Supervision》这篇论文,过程中也找到了很多其他的论文。
另外一个是「为什么这个方法可以解决问题」,去研究技术背后的东西,例如检索“为什么 pyannote-audio 可以区分不同的人说话”,我找到了 Speaker Diarization,然后找到了《A Reinforcement Learning Framework for Online Speaker Diarization》这篇论文,从这篇论文又了解到了更多其他方法,回到思路一,继续研究。
检索工具上,之前推荐过 aminer.cn 这个网站,它有一个“必读论文”板块(如图一),放了很多精挑细选的专题模块,可能刚好跟你的研究方向是匹配的;但大部分情况下,你进到这个网站时,也不知道该搜什么关键词,所以刚开始还得去 Google 或社交媒体去检索行业先驱的博客或推文,去看看一些综述性的介绍,再去找更多更细节的关键词。
关于读论文,之前分享过一篇文章《如何阅读一篇论文》,它提到了“三遍阅读法”,我也是这么践行的;当然,也离不开工具上的辅助,主要包括两类。
第一类是 Summary 工具,如果每出一篇论文都去精读,那时间上肯定是不划算的,关键也没这个必要;Summary 的工具比较多,上面提到的 aminer 也自带了这个能力。
这里推荐下 PopAI,
bit.ly,最近看论文和读长篇 PDF 都用的非常多,它支持针对 arxiv 的论文转存后直接进行 AI Chat,省却了下载 PDF 文件的过程(如图二)。
第二类是精读工具,对大多数人来说,语言是第一阻碍,尤其是论文里铺天盖地的专业词汇,让人望而生畏;我用的比较多的是“沉浸式翻译”这个 Chrome 插件,它支持将 PDF 直接进行在线对照翻译,免费版的翻译质量有点一般,但也基本够用了(如图三)。
论文的实验结果基本都是以图表形式呈现的,因此精读的一个重要环节是读懂图表,这部分也可以借助 AI 的能力来理解得更透彻,PopAI 在这块做的也还不错,它背后接入了 GPT-4V 的 API,可以对论文里的图片进行详细解读,另外,还支持在聊天框内直接粘贴图片跟它交互,比较方便(如图四)。
如果论文正好是自己想要内容,还有一个非常实用的工具,叫做 Papers with code,paperswithcode.com,之前也推荐过,它可以根据论文帮你找到对应的 Github 代码实现,以及用到的数据集和测试方法,这也是我用的比较多的。
顺带提一嘴,涉及到 AI 的代码仓库,建议直接去 Google Colab 上跑,它的下载速度可以达到 200Mb/s,相比本地,会更加高效。
以上,是近几个月研究 AI 和论文的一点经验。如果你在学习过程中用到了其他好用的辅助工具或者方法,也欢迎推荐和分享!