即刻App年轻人的同好社区
下载
App内打开
艾逗笔
81关注6k被关注13夸夸
前腾讯高级工程师,微信后台开发
现独立全栈开发,自由职业,AI 应用出海
在做产品:ThinkAny / HeyBeauty / 知了阅读
艾逗笔
1天前
😼
20
艾逗笔
1天前
比起剧版还是差了点意思😂
143
艾逗笔
2天前
投个票。🤗

按图片排序 1-9

知了 AI 助手,定位是个人信息官+个人知识助手。

主要提供阅读提效,信息订阅,知识存储,记忆检索等功能。
475
艾逗笔
2天前
🤔
41
艾逗笔
2天前
感谢@哥飞 送的打印机,生活太美好了。☺️
95
艾逗笔
2天前
ThinkAny 新版本发布了🎉

1. 提升了搜答准确度
2. 增强了系统可玩性
3. 优化了交互体验

欢迎使用👉 thinkany.ai

PS:需要科学上网
1219
艾逗笔
4天前
深圳的办公室 ready 了,欢迎朋友们过来聊天。😏
3312
艾逗笔
5天前
实现垂类 AI 搜索引擎 SOP👇

# 确定三个核心问题:

1. source list 从哪些地方检索数据
2. answer prompt 使用什么提示词模板回复
3. llm model 使用哪个大语言模型回复

# 搜索前query rewrite:

1. 结合历史消息,判断当前 query 是否需要 retrieve
2. 结合历史消息,做指代消解,把代词替换成具体的名词
3. 从指代消解后的 query 提取关键词 keywords

# RAG 流程

1. 使用query + keywords 作为入参,从source list 获取检索结果(在线API检索+本地index检索),必要时可对 query + keywords 进行翻译,使用不同语言进行多轮检索
2. 检索结果聚合重排reranking
3. 获取重排后 top_k 条内容详情
4. 使用回复提示词 + 检索内容 + 历史消息作为 context,带上最新 query 请求 LLM 回复

# 主要工程量

1. 对内容源 build index

对于没有标准API的source,需要对source站点的数据构建索引。增量构建使用source的搜索框,存量构建使用搜索引擎网页快照,很难拿到某个 source 的全量数据

2. 更新 source 权重

系统预置权重 + 用户点击更新 source 权重,多信息源检索时依据 source 权重返回结果数量和初始排序

3. 多信息源重排

需要一个高效/快速的 reranking 框架,比如 FlashRank

4. 构建 chunk 内容池

对检索到的内容进行 chunk 拆分,存储向量数据库,挂载上下文请求 LLM 回答时,相似度匹配部分内容,避免暴力传输

5. 构建关键词库

定期分析历史 query,提取热搜关键词,构建关键词库。命中关键词库的 query,retrieve 环节走缓存

------

AI 搜索引擎,做一个容易,做好太难,细节太多,需要大量的雕花工作。

欢迎补充。
744
艾逗笔
6天前
求认识审美好的设计师和熟悉 react 的前端朋友,一起做产品。🤗

v 我: idoubicc
81
艾逗笔
8天前
《你的名字》重映,弥补当年错过大荧幕的遗憾。😸
123