即刻App年轻人的同好社区
下载
App内打开
王焜有个火字旁
180关注34被关注0夸夸
AI 研究员
探店、测评,食食物者为俊杰
追求工作、生活、躺平、完全自动化
五只鼠鼠🐭的铲屎官
王焜有个火字旁
1年前
最享受的智能文档解析工具 Doc2x 终于重新恢复了,效果与 TextIn 在同一档位,目前 API 价格是0.02元/页。
mp.weixin.qq.com
00
王焜有个火字旁
1年前
有什么好用的智能解析网页内容的方法吗?自适应提取网页中的文字那种
10
王焜有个火字旁
1年前
🀄️最近在搭建一个私有的云资料库,并配备多Agents以方便后续的查询需求。
首要的任务是对上传资料的存储与总结,资料内容包括普通的文本,office文件,压缩文件等日常通用的文件格式,存储文件的同时,也对文件提取摘要。
📷所以最近对市面上知名文档解析方法做了调研与对比,方法统筹为两种:视觉大模型与专用文档解析模型,前者如Qwen-VL,后者如TextIn。
下面是我对8种方法在成本、时间上的对比,测试资料包括PDF、PPT、图片,共130页。PDF、PPT均混合了文字与图片,图片类型包括多种规格。
⏱️结果中值得关注的几点:
1. 视觉大模型是一劳永逸的方法,无论是对文字、图片还是表格内容,但速度偏慢,成本也比较高。
2. 专业的智能文档解析工具在识别文字的准确度上,是要高于视觉大模型的。但仅能提取出文字和结构化信息,后续还需与其他大模型结合使用。
3. 从性能上出发,推荐Qwen-vl-max、glm-4v和TextIn,从性价比上推荐step-1v-8k、GLM-4-Long结合alibaba。

我的需求对速度没有太高要求,但后续需要数据分析和分析长文件的功能,所有现在倾向于混合使用alibaba、GLM-4-Long和Qwen-VL-max。
10
王焜有个火字旁
1年前
尝试采用PyMuPdf工具来处理所有的PDF格式,其本身基于规则化的提取方式,在通用性方面确实不方便,其内部已经可以自动化识别提取文字、图片和表格。我尝试使用比较小代价的方法,首先匹配文字,遇到图片或者表格再去自动调用相关工具,但有几点重要的问题:
识别文字的输出是直接拼接输出,相应文本格式、分段也就没有了
水印问题,会干扰文字提取
表格问题,自动识别到表格的概率低,有效提取格式就更难了
如公司内部文件,格式较为固定,文字居多,PyMuPdf可首选。写了一个测试的Demo,包含了规则解析全流程,对于信息的提取还任重而道远。
github.com
00
王焜有个火字旁
1年前
#即刻日志
RAG系统PDF文档解析杂谈:
PDF文件中包含文字、图片和表格,图片也有可能包含文字与表格。
想要最好的效果是检测到什么内容就用什么工具,比如一页中同时包含文字、图片与表格,则分别使用三种工具来处理,识别图片的OCR模型需要能够同时识别出表格。
完全基于深度学习模型的方法是将每页直接判定为图片,再通过OCR模型去识别,OCR模型需要很强的泛化性。
使用多模态大模型来解析,从pdf中裁剪出图片和表格,交给类似GPT4-V来解析。
在检测文字时,结构化的内容和段落识别对于后续RAG chunk的划分很重要。
在检测表格时,除了表格内容,表格标题同样重要。
OCR具有识别错误的概率,对于合同、报告等一些数据需要很准确的文件,文字解析优先于OCR。
对于RAG来说,前处理期文档对于速度的要求反而不是最重要的。
00
王焜有个火字旁
1年前
每当我写了一坨💩看不下去的函数功能时,就把函数复制给 Claude:“劳劳,上面这个函数可以怎样优化呢?”
Claude 问了再问 Chaptgpt(GG),国外的玩了再玩国内的🌚
渣一点也不是不行🌚
01
王焜有个火字旁
1年前
新增了硅基流动下的API速度测评,速度方面确实很不错,价格也很不错,还有免费模型API可以调用,针对于智能客服,测评了四个小模型的实际效果。
这次在原来8个问题上,新增了3个与上下文信息全不相关的问题,并且包含敏感信息。
Qwen2-7B-instruct已经基本可以满足智能客服的需要,Qwen1.5-7B有时候会乱弹请太不稳定,相应的Pro版本提升不是特别多,相应问题还是会出现。
目前使用的模型是glm4-airx,相对于Qwen2-7B-instruct更加的稳定,但奈何Qwen2-7B-instruct它免费啊!
00
王焜有个火字旁
1年前
#即刻日志
果然,RAG系统更换了大模型请求API后,从原来的40s降低到了5s左右,呦西呦西!。
响应时间的影响还与输入、输出token数量有关,现在公司的智能助手的输出不仅需要答案,还需要显示引用源头,所以传统RAG的提示词不适用。我参考了AI搜索的提示词,让大模型输出格式化,方便后端的处理,下面是我的提示词:后期如果加上敏感词和伦理的判定会导致提示词非常的复杂与长,有什么好建议或者解决方案吗?

# 角色
你是一名经验丰富的智能客服助手,当用户提问时,可以根据知识库信息准确的回答用户问题.
知识库上下文信息和用户问题会通过json格式进行传输.
# 请按照以下步骤处理上下文信息和用户问题:
-1.首先从json格式输入数据中识别到用户的问题和上下文信息
-2.理解用户问题与每条上下文信息,给每条上下文信息与用户问题的相关性打分,将分数写入"context"->"score"中
-3.根据相关性较高的上下文信息回答用户问题,并引用相关性较高的上下文信息的来源,将回答写入"answer"中
-4.如果没有相关的上下文信息,根据你自己的理解进行回答
-5.审核"answer"中的内容的合规性,禁止出现‘根据上下文’、‘上下文’等字眼,如出现则重新生成回答
-6.最后按照json格式进行输出,json格式属性需要使用双引号""

# 例子
json格式输入
[{
"question":"2024年全国高校毕业生哪个学校的收入最高?",
"context":[{
"id":0,
"content":"近日中国薪酬网发布了2024年全国高校毕业生薪酬排行榜TOP200位列前10名的分别为清华大学上海交通大学北京大学中央财经大学浙江大学复旦大学同济大学北京外国语大学中山大学电子科技大学",
"source":"2024 毕业生薪酬排行榜发布!.docx"
},{
"id":1,
"content":"36氪获悉科大讯飞旗下的讯飞医疗向香港交易所重新提交了上市申请文件",
"source":"8点1氪:王楚钦球拍被踩事件正在调查;佳能苏州回应裁员赔n+12或2n+12;新东方回应给董宇辉补偿金.docx"}] }]

json格式输出
[ {
"question":"2024年全国高校毕业生哪个学校的收入最高?",
"answer":"清华大学毕业生的薪酬较高",
"contex":[ {
"id":0,
"score":0.7,
"source":"2024 毕业生薪酬排行榜发布!.docx"
},{
"id":1,
"score":0.1,
"source":"8点1氪:王楚钦球拍被踩事件正在调查;佳能苏州回应裁员赔n+12或2n+12;新东方回应给董宇辉补偿金.docx"}] }]
00
王焜有个火字旁
1年前
最近在优化公司的最早一版的智能客服过程中,遇到了很多问题。智能客服中的RAG系统用了很短的时间搭建了起来,使用了Langchain框架和百度千帆大模型,一轮对话时间在不可接受的40s左右。我也刚接触不久,打算从以下几个步骤来慢慢优化该系统:
大模型API选择与提示词优化
源数据处理与清洗
多源数据的存储
多存储源数据的检索
检索块的重排
检索数据、大模型回答后处理

今天把模型API调用速度的测试完成了,对比了Zhipu、Qianfan、Qwen、Spark和Deepseek五个平台的模型,从6个文档中提取了8个问题,每个问题对应5个检索得到的chunk,下面是实验结果的图片。
大部分的模型其实都能保持json格式的输出和不错的回答质量,更多的应该关注时间和花费,目前测试看来glm-4-airx和glm-4-flash目前看来是性价比最高的。
测评代码地址:github.com
41
王焜有个火字旁
2年前
现在什么类型的公司会非常需要使用 AI,人工智能的?运营、咨询、电商、研究院、设计?春招想冲一波这类公司!
00