即刻App年轻人的同好社区
下载
App内打开
冷裤蜗牛不跷二郎腿
89关注5被关注0夸夸
冷裤蜗牛不跷二郎腿
3月前

KleinHE: 经过 8 个月高强度实战,我们决定开源内部 Claude Code 的最佳实践 在说这一切之前必须从我们踩过的坑说起。从 8 个月前 Claude Code 发布开始,我们就在尝试各种开发流程:从最早的 OpenSpec,到前段时间爆火的 plan-with-files,再到最近霸榜 trending 的 Superpowers,我们都有过使用,但可惜结果都是初看很惊艳,但实际效果很一般 核心问题有两个: 1. OpenSpec 类框架:本质上是 PRD-driven,而不是 Spec-driven。 每次新任务都要重新写一遍架构约束、代码风格、错误处理规则。 2. Superpowers 类框架:开源的 skill 都是比较宽泛的,没法解决项目内各种特化的问题,但是即使我们定义了自己的项目规范 skill,有时也因为幻觉或者上下文过长而没有调用,这带来了不可预测性。最后大部分时候 skill 必须手动使用,使用体感很差。 我们认为在未来的 AI Framework 里,Spec 和 Skill 必须同时存在: - Spec 负责约束:确保 AI 始终遵循项目规范,提供可预测性 - Skill 负责能力:按需扩展 AI 的能力边界,保持灵活性 解决了这两个问题,才能真正提升 AI 的代码质量,再配合上自动上下文注入之后,并行调用、团队协作等能力也就成为可能了。 下面就要讲到我们的开源框架 Trellis:https://github.com/mindfold-ai/Trellis Trellis 的寓意是植物的爬架——我们希望它能像爬架一样,为 AI 编码提供结构化的支撑,让代码自然生长的同时保持方向可控。同时也希望它就像庭院里真实的爬架一样,是高度可自定义的。 1. 我们给 Spec 加上了分层和索引机制,这样它就拥有了 Skill 的渐进式披露,在节省上下文的同时也确保永远不会遗失关键 context; 2. 我们用脚本整合了一套自动注入上下文的 Skill 工作流,让你每次对话都能自动完成一套规范的工作流,而不需要手动调用一堆 command; 3. 我们加上了更强的 Todo 管理系统,结合 json 和 md 文档,让它在有丰富的 prd 的同时,有了优先级、能关联工程师、关联 branch&worktree 4. 最后我们结合上述功能并加上了 multi-agent && multi-session 功能,这样你的 AI 可以判断 Task 复杂度,自行开启一个或多个 worktree 开发任务甚至直接 PR 这套系统的玩法还非常多,比如 task 系统和任务管理系统比如 Linear 的双向同步;比如自动多模型 Review PR;甚至像 ClawdBot 一样嵌入到 Slack、discord 等任何地方… 最重要的是,没有学习成本:只需三行命令完成初始化,之后像平常一样用 Claude Code 就好了。(因为所有的复杂逻辑我们都已经原生做在了框架内部) 在过去的几天,我们内部搓了一个自动生成 Leads 的系统;一个每天帮我们刷各种社媒的 agent;一个支持 ACP、嵌入 Trellis 的 Cowork GUI… 与此同时我们还在准备 Trellis 下两个版本的大更新,以及整理团队内部使用的 Skill 包,很快就全量会放出来。 容我再次插入一个 CTA,感兴趣的朋友可以 star 一下,支持我们,关注后续进度 👉 https://github.com/mindfold-ai/Trellis 也欢迎直接加我 wx 交流:rangalaxy

00
冷裤蜗牛不跷二郎腿
3月前

AI柿子: 1 月 29 号,百度开源了个叫 PaddleOCR-VL-1.5 的模型,登顶全球第一! 很多人第一反应是,都大模型时代了,怎么还在聊 OCR 这种“上古技术” 这恰恰是没看懂的地方 这事背后,藏着中国 AI 下半场竞争的真正逻辑 你肯定遇到过 手机对着发票、合同、报销单,咔嚓一拍,想让 AI 把里面的信息提取出来 结果呢,如果拍歪了,或者纸上有折痕,识别出来的就是一坨 金额和抬头对不上,表格行列全乱套 最后还是得自己手动一个个敲 这就是过去 OCR 的窘境:它能认出字,但它看不懂“一张纸” 它只能处理像扫描仪扫出来那样,横平竖直的完美文档 但真实世界是杂乱的,是歪斜的,是有折痕和反光的 传统 OCR 在实验室里跑分再高,一到真实场景就歇菜 这就是产品经理最痛恨的“最后一公里”问题 技术看似解决了 99%,但那没解决的 1% 让整个产品等于零 二、百度干了件产品经理的事 这次的 PaddleOCR-VL-1.5,最狠的一点,就是解决了这个问题 它搞了个全球首创的“异形框定位” 这词很技术,我用人话翻译一下 就是 AI 终于能看懂一张“歪”的纸了 就算你拍的合同是梯形的,它也能准确地把里面的表格框出来,还原成规整的结构 就算报销单被折过,它也能跨过折痕,把断开的公司名和金额重新连起来 这已经不是“识别”,这是“理解” 它不再是把像素点翻译成字符,而是先理解这张纸的物理结构(扭曲、折叠),再解析它的逻辑结构(表格、段落) 在表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,文档阅读顺序预测的版面逻辑解析错误率仅为同类模型的一半左右。这意味着在合同、财报等高复杂度业务场景中,它具备更高的可用性和稳定性 从产品经理的视角看,这才是真正有价值的创新 不是在象牙塔里把算法精度从 99.5% 刷到 99.6% 而是把一个在真实世界里可用性只有 60 分的东西,做到了 90 分 这背后是百度深厚的技术积累。截至 2026 年 1 月,百度在 OCR 领域申请了 1700 余件中国发明专利,其中 900 余件已获授权,专利数量在国内企业位于第一梯队。此外,百度还在美国、欧洲、日本、韩国均布局了 100 余件 OCR 领域的专利 但更重要的是一种产品思维的胜利:从用户真实、高频、会骂娘的痛点出发,而不是从技术自己的 KPI 出发 当然,跑分也很硬 这个模型只有 0.9B 参数,但在全球权威榜单 OmniDocBench V1.5 上,精度干到了 94.5% 超过了 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B 等模型 在 OmniDocBench V1.5 榜单上,PaddleOCR-VL-1.5 精度达到 94.5%,而 DeepSeek-OCR2 为 91.09%,领先超过 3 个百分点。在自建的 Real5-OmniDocBench 多场景测试集中,总指标达 92.05%,在扫描、弯折、屏幕拍照、光线变化、倾斜五大真实场景中全面领先,超过第二名 Gemini 3 Pro 近 3 个百分点 用极小的代价,办了件大事 对我们超级个体和开发者来说,0.9B 参数意味着什么? 意味着你的 MacBook 就能跑得动 意味着你可以把它部署在本地,做成工具,而不是只能眼巴巴地调用死贵的 API 这意味着,一个普通人想用 AI 做点文档处理的自动化工具,门槛几乎降到了零 三、OCR 赛道,为什么突然又“火”了 有意思的是,不只百度在搞 OCR 最近半年,这个赛道突然又挤满了人 去年 10 月,DeepSeek 发布了初代 OCR 模型,主打一个“上下文光学压缩”,想用 OCR 的思路去解决大模型长文本的算力问题。 同期,百度也发布了 PaddleOCR-VL,两家前后脚发布引起行业热议 今年 1 月 27 日,DeepSeek 又火速迭代了 DeepSeek-OCR2,引入“因果流查询”机制,并将语言模型融入视觉编码,在 OmniDocBench V1.5 上拿了 91.09% 的高分 腾讯的混元 OCR 也在持续发力 为什么? 因为所有人都想明白了:如果说大模型是 AI 的大脑,那 OCR 就是 AI 的眼睛和手 没有 OCR,大模型就是个活在数字真空里的“缸中之脑” 它再聪明,也读不懂你扔给它的那份 PDF 财报、那张医疗影像、那本扫描的古籍 所有需要和现实世界文档打交道的场景,第一步都是 OCR 1. RAG 的基石是 OCR 现在人人都在谈 RAG(检索增强生成),觉得它是让大模型不说胡话的解药 但你的知识库是什么?是无数的 PDF、Word、图片 如果 OCR 这一步就错了,识别不准、结构混乱,那你喂给大模型的全是垃圾 垃圾进,垃圾出 高质量的 OCR,是高质量 RAG 的绝对前提 2. Agent 落地的触手是 OCR 2026 年被吹成 Agent 元年,大家都在期待能“办事”的 AI 一个 Agent 怎么帮你完成报销流程? 它得能看懂你上传的发票图片 一个 Agent 怎么帮你分析合同风险? 它得能准确解析合同扫描件里的每一条条款 OCR 就是 Agent 伸向物理世界文档的触手 没有这根触手,Agent 就是个残废 3. 企业智能化转型的入口是 OCR 所有企业都坐拥堆积如山的纸质文档、票据、档案 这些是沉睡的数据资产 想把这些资产盘活,第一件事就是数字化 靠人力一张张录入?成本高到无法想象 唯一的解法,就是高精度的、能处理复杂场景的 OCR 所以,现在大家抢的不是 OCR 这个单一技术,而是大模型与现实世界连接的“数据入口” DeepSeek 想从这里切入,解决算力问题 百度想从这里切入,打通“芯云模体”的系统能力 大家路径不同,但目标一致:谁掌握了最高效、最可靠的数据入口,谁就在 AI 下半场的竞争中,拿到了先手 四、中国 AI 的新牌局:从“单挑”到“三国杀” 把视野再拉高一点,你会发现一盘更大的棋 看看 2026 年 1 月底发生了什么: 1 月 22 日:百度发布文心 5.0 正式版,一个 2.4 万亿参数的原生全模态大模型,同时宣布文心助手月活破 2 亿 1 月 26 日:阿里发布千问 Qwen3-Max-Thinking,一个万亿参数的旗舰推理模型,主打深度逻辑,千问月活也破了 1 亿 1 月 27 日/29 日:DeepSeek 发布 DeepSeek-OCR2,百度发布 PaddleOCR-VL-1.5,两家接连更新自己的王牌 OCR 模型 这不是巧合 这是中国 AI 竞争范式的一次集体转向 标志着“单模型能力比拼”的时代结束了,“系统级综合能力竞争”的时代开始了 过去,大家比的是谁的基座模型参数大、跑分高,像是在比谁的“内力”更深厚 现在,大家比的是谁能打出一套组合拳,形成一个“作战系统” 一个能打的 AI 系统,至少需要三个部分: 一个强大的基座模型:这是大脑,决定了能力的上限(文心 5.0、千问 3-Max) 一系列精悍的专精模型:这是眼睛、耳朵、手脚,负责感知和执行(PaddleOCR、视频模型、语音模型) 一个高效的工程化平台:这是躯干和神经,负责把所有能力串联起来,稳定、低成本地对外提供服务(百度千帆、阿里云百炼) 当下,AI 行业已经形成「三国杀」格局: 文心、千问、DeepSeek 构成国产 AI 三大家,并且三大家的打法开始出现差异化: 百度(文心):打的是“体系战”。 他们有最庞大的文心 5.0 作为大脑 又有像 PaddleOCR 这样在垂直领域做到全球第一的“特种兵” 还有在数字人领域取得突破的高说服力数字人——依托文心大模型的多模态能力 数字人能实现表达流畅、语境精准且极具感染力的对话,外形、动作乃至细微的微表情都能与对话完美同步,在电商直播等场景中的表现力甚至超越真人。 再用千帆平台把这些能力打包成解决方案。这是最典型的“大厂正规军”打法,稳扎稳打,强调技术栈的完整性和系统性。 阿里(千问):打的是“场景战”。千问的优势在于和电商、支付等具体业务场景的深度捆绑,它的技术迭代更侧重于推理、Agent 等能直接提升商业效率的能力。 DeepSeek:打的是“游击战”或者说“精兵战”。它没有选择在参数规模上硬碰硬,而是聚焦在架构创新和开发者生态上,用轻量、开源、高性价比的模型去撬动市场。它的思路更像一个技术极客,总想用更聪明的方法解决问题。 这三种打法没有绝对的优劣,但反映出中国 AI 市场正在告别蒙眼狂奔,走向成熟和务实 大家都不再迷信“一个模型包打天下”的神话,而是开始像产品经理一样思考:我的技术组合,到底能为哪个场景,解决什么具体问题? 五、给超级个体的行动建议 聊了这么多宏大叙事,最后说点实在的,这对我们普通人有什么用? 1. 重新认识“小模型”的价值 别再只盯着 GPT-5、文心 5.0 了 像 PaddleOCR-VL-1.5 这种 0.9B 的“小模型”,对我们来说才是金矿 它足够小,可以在你自己的电脑上运行 它足够强,在特定任务上吊打几百倍于它的大模型 它足够开放,开源、免费,你可以随意修改和集成 这意味着,你完全可以基于它,开发出属于你自己的、能解决特定问题的 AI 工具,形成你的产品护城河 2. 找到文档处理相关的变现机会 OCR 的突破,直接利好所有和文档打交道的生意 服务企业:大量的中小企业有成堆的发票、合同、报表需要数字化,但用不起昂贵的定制方案。你可以用这些开源模型,为他们提供轻量级的自动化数据录入服务。 服务个人:个人知识管理(PKM)是个巨大的市场。你可以开发一个工具,能完美解析用户随手拍的读书笔记、会议记录,并自动整理到 Obsidian 或 Notion 里。 垂直领域:法律、医疗、金融、教育……每个行业都有海量的文档处理需求。比如,做一个能自动提取病历关键信息的工具,或者一个能比对不同版本合同差异的工具。 3. 转变思维:从“用 AI”到“造 AI 工具” AI 的竞争正在从“模型层”下沉到“应用层” 对我们超级个体而言,最大的机会,不再是比谁的提示词写得好,而是比谁能更快地用好这些开源模型,把它们封装成解决具体问题的产品或服务 PaddleOCR-VL-1.5 这样的工具,就是你手里的乐高积木 别再满足于当一个乐高玩家了 去当一个乐高搭建师,去创造属于你自己的东西 github 项目地址:https://github.com/PaddlePaddle/PaddleOCR huggingface 链接:https://huggingface.co/PaddlePaddle/PaddleOCR-VL

00
冷裤蜗牛不跷二郎腿
3月前

AdsPower指纹浏览器: 2026 出海 SEO 必备工具合集(免费 / 试用就能开干) 关键词挖掘:Google Keyword Planner(免费) 官方搜索量来源,适合做英文 / 小语种市场的基础关键词池 关键词难度 & 流量评估:Ahrefs Webmaster Tools(免费) 免费看自站关键词、外链与基础难度,够用来判断值不值得做 竞争对手分析:Similarweb.com(免费额度) 快速看竞品流量结构、国家占比,判断是否真有海外需求 长尾 & 问题词拓展:AnswerThePublic.com(免费) 把用户真实搜索问题一次性拉出来,适合做博客与 FAQ 内容 SERP 实时查看(去个性化):SerpApi / Google 搜索参数(免费 / API) 模拟不同国家搜索结果,避免被本地化结果误导判断 内容语义优化:SurferSEO.com(试用额度) 对标 SERP 前排结构,控制关键词覆盖与内容完整度 AI 内容初稿:ChatGPT / Claude(免费 / 订阅) 用于英文初稿、结构梳理,而不是直接复制发布 多语种翻译 & 本地化:DeepL.com(免费 / Pro) 德语、法语、西语等质量明显优于普通机器翻译 技术 SEO 审计:ScreamingFrog.co.uk(免费 500 URL) 扫描死链、重定向、标题重复,新站必跑 页面速度 & 体验:PageSpeed Insights(免费) 同时对齐 Core Web Vitals,直接影响排名与转化 结构化数据检测:Schema Markup Validator(免费) 确保 FAQ / Review / Product Schema 正确触发富结果 外链健康监测:Google Search Console(免费) 实际生效外链 & 索引状态,比第三方更官方 排名追踪(多国家):AccuRanker.com(14 天试用) 精准追踪不同国家 / 语言 SERP 变化 数据分析:Google Analytics 4(免费) 看 SEO 流量是否真的带来转化,而不是自嗨流量 SEO 数据看板:Looker Studio(原 Data Studio,免费) 把 GSC + GA4 + 排名数据整合成一张老板能看懂的表 CDN & 安全加速:Cloudflare.com(免费套餐) 提升海外访问速度,同时解决 DNS / SSL / 防护问题 自动化报告:Looker Studio + Search Console API(免费) 每周 / 每月自动出 SEO 报告,解放人力

00
冷裤蜗牛不跷二郎腿
4月前
万能的机油,有没有啥头像资源网站或者好用的头像生成网站,对经常换头像的人真的不知道去哪找头像了
00