这条动态,目的是为了让你学会自己做一个类似于 ChatPDF的 ChatDocs 类产品所需要的核心技术,让你参加
@瓦恁 发起的
#AIHackathon 更有竞争力。
大概2月中旬吧,我就搞清楚这里的流程了,也就是理论上那时候就可以做个 ChatDocs 了,当时觉得没多少人知道这个,属于秘籍,就只给几个小伙伴分享了。
现在这个几乎成为公开的秘密了,就索性让更多人知道这里的技术要点。
gpt 的知识库只更新到了2021年,如果你要让它回答一些知识库没有的问题,很多时候他就瞎编了。
new bing 的方案是每次先用搜索引擎找到最相关的一些资料,提供给 gpt ,再让 gpt 总结归纳来回答你的问题。
我们也可以这么做。
但因为每次请求的 token 有数量限制,所以不可能一次性把资料全发过去,那么你就需要自建一个搜索引擎。加我微信 qiayue 了解更多。
但又不能用传统的全文搜索引擎,因为仅靠字符串匹配的话,会丢失信息。
这时候就要用到向量搜索引擎了,简单说,通过向量搜索引擎,可以找出向量距离近的文本,这就间接实现了语义搜索。拿搜索出来的文本片段组合后跟着问题一起发给 gpt ,就能得到回答了。
有任何问题,都可以在评论区问我。