一张图所折射的科学世界,人人创造时代的到来
① 这是生物医学研究的一个可视化的惊人表现:
每个点都是 2100 万篇论文中的一篇,基于 AI 识别的摘要之间的联系。美观又展示了该方法回答有关科学重要问题的能力。
static.nomic.ai (推荐访问,可视图是交互的)
②它已经被开源,成为了一个 Github 开源项目,被向量化处理、人人皆可调用:
第二张图反映这些论文内容的连接性,使用 BERT 模型 (PubMedBERT) 将它们转换为 768D 向量,然后使用 t-SNE 以 2D 形式可视化它们。二维地图探索图书馆,并在 768D 中确认每一个洞见。
③ 第三张图,是一个案例研究:Covid-19 文献。
查看按出版年份着色的 t-SNE 地图时(黄色 = 较新的论文),我们立即看到一个亮黄色的集群。相关论文,全部发表于 2020-21 年。会是什么呢? 🤔
④ 放大来看,我们还能看到了 Covid 研究中的不同主题,从临床治疗到疫苗犹豫——这表明 BERT+tSNE 做得非常好。
我们认为,Covid 文献是前所未有的“孤立”/独立 => 这就是为什么它形成一个紧密的集群!
⑤ 案例研究 :神经科学。(图 5)
神经科学分为两大领域:分子/细胞和行为/计算。多年来,该领域一直将重点转向后者。
我们可以在 2D 中看到它,也可以在 768D 中确认。
⑥ 案例研究:机器学习。(图 6)
开源项目展示了哪些生物医学领域声称使用“机器学习”,以及在哪些地方使用了特定的 ML 方法。 eg:structural bio喜欢用SVMs,clustering在bioinformatics流行等等。
放射学是第一个采用 ML 的医学领域。
开源项目展示了哪些生物医学领域声称使用“机器学习”,以及在哪些地方使用了特定的 ML 方法。 eg:structural bio喜欢用SVMs,clustering在bioinformatics流行等等。
⑦ 案例研究:性别偏见。(图 7)
开源项目使用可用的名字来推断第一作者/最后作者的性别,并显示生物医学领域和随着时间的推移的性别偏见分布。
你能发现各个层面的异质性。例如:手术哪些男性主导的。
开源项目地址见,
github.com这是何等平权的时代🤓