冷裤蜗牛不跷二郎腿的个人主页 - 即刻App

即刻App年轻人的同好社区

下载

冷裤蜗牛不跷二郎腿

89关注5被关注0夸夸

冷裤蜗牛不跷二郎腿

4月前

不孤独的二向箔: 用𝕏的朋友可以试试，这个方法可以让你的收藏夹活过来，每天生成一份书签精选简报🫶

0 00

冷裤蜗牛不跷二郎腿

4月前

KleinHE: 经过 8 个月高强度实战，我们决定开源内部 Claude Code 的最佳实践在说这一切之前必须从我们踩过的坑说起。从 8 个月前 Claude Code 发布开始，我们就在尝试各种开发流程：从最早的 OpenSpec，到前段时间爆火的 plan-with-files，再到最近霸榜 trending 的 Superpowers，我们都有过使用，但可惜结果都是初看很惊艳，但实际效果很一般核心问题有两个： 1. OpenSpec 类框架：本质上是 PRD-driven，而不是 Spec-driven。每次新任务都要重新写一遍架构约束、代码风格、错误处理规则。 2. Superpowers 类框架：开源的 skill 都是比较宽泛的，没法解决项目内各种特化的问题，但是即使我们定义了自己的项目规范 skill，有时也因为幻觉或者上下文过长而没有调用，这带来了不可预测性。最后大部分时候 skill 必须手动使用，使用体感很差。我们认为在未来的 AI Framework 里，Spec 和 Skill 必须同时存在： - Spec 负责约束：确保 AI 始终遵循项目规范，提供可预测性 - Skill 负责能力：按需扩展 AI 的能力边界，保持灵活性解决了这两个问题，才能真正提升 AI 的代码质量，再配合上自动上下文注入之后，并行调用、团队协作等能力也就成为可能了。下面就要讲到我们的开源框架 Trellis：https://github.com/mindfold-ai/Trellis Trellis 的寓意是植物的爬架——我们希望它能像爬架一样，为 AI 编码提供结构化的支撑，让代码自然生长的同时保持方向可控。同时也希望它就像庭院里真实的爬架一样，是高度可自定义的。 1. 我们给 Spec 加上了分层和索引机制，这样它就拥有了 Skill 的渐进式披露，在节省上下文的同时也确保永远不会遗失关键 context； 2. 我们用脚本整合了一套自动注入上下文的 Skill 工作流，让你每次对话都能自动完成一套规范的工作流，而不需要手动调用一堆 command； 3. 我们加上了更强的 Todo 管理系统，结合 json 和 md 文档，让它在有丰富的 prd 的同时，有了优先级、能关联工程师、关联 branch&worktree 4. 最后我们结合上述功能并加上了 multi-agent && multi-session 功能，这样你的 AI 可以判断 Task 复杂度，自行开启一个或多个 worktree 开发任务甚至直接 PR 这套系统的玩法还非常多，比如 task 系统和任务管理系统比如 Linear 的双向同步；比如自动多模型 Review PR；甚至像 ClawdBot 一样嵌入到 Slack、discord 等任何地方… 最重要的是，没有学习成本：只需三行命令完成初始化，之后像平常一样用 Claude Code 就好了。(因为所有的复杂逻辑我们都已经原生做在了框架内部) 在过去的几天，我们内部搓了一个自动生成 Leads 的系统；一个每天帮我们刷各种社媒的 agent；一个支持 ACP、嵌入 Trellis 的 Cowork GUI… 与此同时我们还在准备 Trellis 下两个版本的大更新，以及整理团队内部使用的 Skill 包，很快就全量会放出来。容我再次插入一个 CTA，感兴趣的朋友可以 star 一下，支持我们，关注后续进度 👉 https://github.com/mindfold-ai/Trellis 也欢迎直接加我 wx 交流：rangalaxy

0 00

冷裤蜗牛不跷二郎腿

4月前

AI柿子: 1 月 29 号，百度开源了个叫 PaddleOCR-VL-1.5 的模型，登顶全球第一！很多人第一反应是，都大模型时代了，怎么还在聊 OCR 这种“上古技术” 这恰恰是没看懂的地方这事背后，藏着中国 AI 下半场竞争的真正逻辑你肯定遇到过手机对着发票、合同、报销单，咔嚓一拍，想让 AI 把里面的信息提取出来结果呢，如果拍歪了，或者纸上有折痕，识别出来的就是一坨金额和抬头对不上，表格行列全乱套最后还是得自己手动一个个敲这就是过去 OCR 的窘境：它能认出字，但它看不懂“一张纸” 它只能处理像扫描仪扫出来那样，横平竖直的完美文档但真实世界是杂乱的，是歪斜的，是有折痕和反光的传统 OCR 在实验室里跑分再高，一到真实场景就歇菜这就是产品经理最痛恨的“最后一公里”问题技术看似解决了 99%，但那没解决的 1% 让整个产品等于零二、百度干了件产品经理的事这次的 PaddleOCR-VL-1.5，最狠的一点，就是解决了这个问题它搞了个全球首创的“异形框定位” 这词很技术，我用人话翻译一下就是 AI 终于能看懂一张“歪”的纸了就算你拍的合同是梯形的，它也能准确地把里面的表格框出来，还原成规整的结构就算报销单被折过，它也能跨过折痕，把断开的公司名和金额重新连起来这已经不是“识别”，这是“理解” 它不再是把像素点翻译成字符，而是先理解这张纸的物理结构（扭曲、折叠），再解析它的逻辑结构（表格、段落）在表格结构理解（92.8 分）和阅读顺序预测（95.8 分）两项核心指标上均位列第一，文档阅读顺序预测的版面逻辑解析错误率仅为同类模型的一半左右。这意味着在合同、财报等高复杂度业务场景中，它具备更高的可用性和稳定性从产品经理的视角看，这才是真正有价值的创新不是在象牙塔里把算法精度从 99.5% 刷到 99.6% 而是把一个在真实世界里可用性只有 60 分的东西，做到了 90 分这背后是百度深厚的技术积累。截至 2026 年 1 月，百度在 OCR 领域申请了 1700 余件中国发明专利，其中 900 余件已获授权，专利数量在国内企业位于第一梯队。此外，百度还在美国、欧洲、日本、韩国均布局了 100 余件 OCR 领域的专利但更重要的是一种产品思维的胜利：从用户真实、高频、会骂娘的痛点出发，而不是从技术自己的 KPI 出发当然，跑分也很硬这个模型只有 0.9B 参数，但在全球权威榜单 OmniDocBench V1.5 上，精度干到了 94.5% 超过了 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B 等模型在 OmniDocBench V1.5 榜单上，PaddleOCR-VL-1.5 精度达到 94.5%，而 DeepSeek-OCR2 为 91.09%，领先超过 3 个百分点。在自建的 Real5-OmniDocBench 多场景测试集中，总指标达 92.05%，在扫描、弯折、屏幕拍照、光线变化、倾斜五大真实场景中全面领先，超过第二名 Gemini 3 Pro 近 3 个百分点用极小的代价，办了件大事对我们超级个体和开发者来说，0.9B 参数意味着什么？意味着你的 MacBook 就能跑得动意味着你可以把它部署在本地，做成工具，而不是只能眼巴巴地调用死贵的 API 这意味着，一个普通人想用 AI 做点文档处理的自动化工具，门槛几乎降到了零三、OCR 赛道，为什么突然又“火”了有意思的是，不只百度在搞 OCR 最近半年，这个赛道突然又挤满了人去年 10 月，DeepSeek 发布了初代 OCR 模型，主打一个“上下文光学压缩”，想用 OCR 的思路去解决大模型长文本的算力问题。同期，百度也发布了 PaddleOCR-VL，两家前后脚发布引起行业热议今年 1 月 27 日，DeepSeek 又火速迭代了 DeepSeek-OCR2，引入“因果流查询”机制，并将语言模型融入视觉编码，在 OmniDocBench V1.5 上拿了 91.09% 的高分腾讯的混元 OCR 也在持续发力为什么？因为所有人都想明白了：如果说大模型是 AI 的大脑，那 OCR 就是 AI 的眼睛和手没有 OCR，大模型就是个活在数字真空里的“缸中之脑” 它再聪明，也读不懂你扔给它的那份 PDF 财报、那张医疗影像、那本扫描的古籍所有需要和现实世界文档打交道的场景，第一步都是 OCR 1. RAG 的基石是 OCR 现在人人都在谈 RAG（检索增强生成），觉得它是让大模型不说胡话的解药但你的知识库是什么？是无数的 PDF、Word、图片如果 OCR 这一步就错了，识别不准、结构混乱，那你喂给大模型的全是垃圾垃圾进，垃圾出高质量的 OCR，是高质量 RAG 的绝对前提 2. Agent 落地的触手是 OCR 2026 年被吹成 Agent 元年，大家都在期待能“办事”的 AI 一个 Agent 怎么帮你完成报销流程？它得能看懂你上传的发票图片一个 Agent 怎么帮你分析合同风险？它得能准确解析合同扫描件里的每一条条款 OCR 就是 Agent 伸向物理世界文档的触手没有这根触手，Agent 就是个残废 3. 企业智能化转型的入口是 OCR 所有企业都坐拥堆积如山的纸质文档、票据、档案这些是沉睡的数据资产想把这些资产盘活，第一件事就是数字化靠人力一张张录入？成本高到无法想象唯一的解法，就是高精度的、能处理复杂场景的 OCR 所以，现在大家抢的不是 OCR 这个单一技术，而是大模型与现实世界连接的“数据入口” DeepSeek 想从这里切入，解决算力问题百度想从这里切入，打通“芯云模体”的系统能力大家路径不同，但目标一致：谁掌握了最高效、最可靠的数据入口，谁就在 AI 下半场的竞争中，拿到了先手四、中国 AI 的新牌局：从“单挑”到“三国杀” 把视野再拉高一点，你会发现一盘更大的棋看看 2026 年 1 月底发生了什么： 1 月 22 日：百度发布文心 5.0 正式版，一个 2.4 万亿参数的原生全模态大模型，同时宣布文心助手月活破 2 亿 1 月 26 日：阿里发布千问 Qwen3-Max-Thinking，一个万亿参数的旗舰推理模型，主打深度逻辑，千问月活也破了 1 亿 1 月 27 日/29 日：DeepSeek 发布 DeepSeek-OCR2，百度发布 PaddleOCR-VL-1.5，两家接连更新自己的王牌 OCR 模型这不是巧合这是中国 AI 竞争范式的一次集体转向标志着“单模型能力比拼”的时代结束了，“系统级综合能力竞争”的时代开始了过去，大家比的是谁的基座模型参数大、跑分高，像是在比谁的“内力”更深厚现在，大家比的是谁能打出一套组合拳，形成一个“作战系统” 一个能打的 AI 系统，至少需要三个部分：一个强大的基座模型：这是大脑，决定了能力的上限（文心 5.0、千问 3-Max）一系列精悍的专精模型：这是眼睛、耳朵、手脚，负责感知和执行（PaddleOCR、视频模型、语音模型）一个高效的工程化平台：这是躯干和神经，负责把所有能力串联起来，稳定、低成本地对外提供服务（百度千帆、阿里云百炼）当下，AI 行业已经形成「三国杀」格局：文心、千问、DeepSeek 构成国产 AI 三大家，并且三大家的打法开始出现差异化：百度（文心）：打的是“体系战”。他们有最庞大的文心 5.0 作为大脑又有像 PaddleOCR 这样在垂直领域做到全球第一的“特种兵” 还有在数字人领域取得突破的高说服力数字人——依托文心大模型的多模态能力数字人能实现表达流畅、语境精准且极具感染力的对话，外形、动作乃至细微的微表情都能与对话完美同步，在电商直播等场景中的表现力甚至超越真人。再用千帆平台把这些能力打包成解决方案。这是最典型的“大厂正规军”打法，稳扎稳打，强调技术栈的完整性和系统性。阿里（千问）：打的是“场景战”。千问的优势在于和电商、支付等具体业务场景的深度捆绑，它的技术迭代更侧重于推理、Agent 等能直接提升商业效率的能力。 DeepSeek：打的是“游击战”或者说“精兵战”。它没有选择在参数规模上硬碰硬，而是聚焦在架构创新和开发者生态上，用轻量、开源、高性价比的模型去撬动市场。它的思路更像一个技术极客，总想用更聪明的方法解决问题。这三种打法没有绝对的优劣，但反映出中国 AI 市场正在告别蒙眼狂奔，走向成熟和务实大家都不再迷信“一个模型包打天下”的神话，而是开始像产品经理一样思考：我的技术组合，到底能为哪个场景，解决什么具体问题？五、给超级个体的行动建议聊了这么多宏大叙事，最后说点实在的，这对我们普通人有什么用？ 1. 重新认识“小模型”的价值别再只盯着 GPT-5、文心 5.0 了像 PaddleOCR-VL-1.5 这种 0.9B 的“小模型”，对我们来说才是金矿它足够小，可以在你自己的电脑上运行它足够强，在特定任务上吊打几百倍于它的大模型它足够开放，开源、免费，你可以随意修改和集成这意味着，你完全可以基于它，开发出属于你自己的、能解决特定问题的 AI 工具，形成你的产品护城河 2. 找到文档处理相关的变现机会 OCR 的突破，直接利好所有和文档打交道的生意服务企业：大量的中小企业有成堆的发票、合同、报表需要数字化，但用不起昂贵的定制方案。你可以用这些开源模型，为他们提供轻量级的自动化数据录入服务。服务个人：个人知识管理（PKM）是个巨大的市场。你可以开发一个工具，能完美解析用户随手拍的读书笔记、会议记录，并自动整理到 Obsidian 或 Notion 里。垂直领域：法律、医疗、金融、教育……每个行业都有海量的文档处理需求。比如，做一个能自动提取病历关键信息的工具，或者一个能比对不同版本合同差异的工具。 3. 转变思维：从“用 AI”到“造 AI 工具” AI 的竞争正在从“模型层”下沉到“应用层” 对我们超级个体而言，最大的机会，不再是比谁的提示词写得好，而是比谁能更快地用好这些开源模型，把它们封装成解决具体问题的产品或服务 PaddleOCR-VL-1.5 这样的工具，就是你手里的乐高积木别再满足于当一个乐高玩家了去当一个乐高搭建师，去创造属于你自己的东西 github 项目地址：https://github.com/PaddlePaddle/PaddleOCR huggingface 链接：https://huggingface.co/PaddlePaddle/PaddleOCR-VL

0 00

冷裤蜗牛不跷二郎腿

5月前

BigYe程普: 跟我一起爆肝学习一下 Skills，看完下面这些链接你就懂 Skills 了： - 最适合中文用户读的 Skills 科普：https://mp.weixin.qq.com/s/nRVVqPaGxWdNqNrUcurSXg skills 导航站 - https://skillsmp.com/ 什么是 Agent Skills? - https://platform.claude.com/docs/en/agents-and-tools/agent-skills/overview - https://agentskills.io/ 我觉得质量很高的 Skills 仓库： https://github.com/anthropics/skills https://github.com/obra/superpowers https://github.com/GBSOSS/skill-from-masters

0 00

冷裤蜗牛不跷二郎腿

5月前

AdsPower指纹浏览器: 2026 出海 SEO 必备工具合集（免费 / 试用就能开干）关键词挖掘：Google Keyword Planner（免费）官方搜索量来源，适合做英文 / 小语种市场的基础关键词池关键词难度 & 流量评估：Ahrefs Webmaster Tools（免费）免费看自站关键词、外链与基础难度，够用来判断值不值得做竞争对手分析：Similarweb.com（免费额度）快速看竞品流量结构、国家占比，判断是否真有海外需求长尾 & 问题词拓展：AnswerThePublic.com（免费）把用户真实搜索问题一次性拉出来，适合做博客与 FAQ 内容 SERP 实时查看（去个性化）：SerpApi / Google 搜索参数（免费 / API）模拟不同国家搜索结果，避免被本地化结果误导判断内容语义优化：SurferSEO.com（试用额度）对标 SERP 前排结构，控制关键词覆盖与内容完整度 AI 内容初稿：ChatGPT / Claude（免费 / 订阅）用于英文初稿、结构梳理，而不是直接复制发布多语种翻译 & 本地化：DeepL.com（免费 / Pro）德语、法语、西语等质量明显优于普通机器翻译技术 SEO 审计：ScreamingFrog.co.uk（免费 500 URL）扫描死链、重定向、标题重复，新站必跑页面速度 & 体验：PageSpeed Insights（免费）同时对齐 Core Web Vitals，直接影响排名与转化结构化数据检测：Schema Markup Validator（免费）确保 FAQ / Review / Product Schema 正确触发富结果外链健康监测：Google Search Console（免费）实际生效外链 & 索引状态，比第三方更官方排名追踪（多国家）：AccuRanker.com（14 天试用）精准追踪不同国家 / 语言 SERP 变化数据分析：Google Analytics 4（免费）看 SEO 流量是否真的带来转化，而不是自嗨流量 SEO 数据看板：Looker Studio（原 Data Studio，免费）把 GSC + GA4 + 排名数据整合成一张老板能看懂的表 CDN & 安全加速：Cloudflare.com（免费套餐）提升海外访问速度，同时解决 DNS / SSL / 防护问题自动化报告：Looker Studio + Search Console API（免费）每周 / 每月自动出 SEO 报告，解放人力

0 00

冷裤蜗牛不跷二郎腿

5月前

步徒西杰: 人不是不自律，是没找到「聚焦—发散」的个人平衡。但在职场里，很多人连“找”的资格都没有。会议、消息、临时需求，一整天都在被拉走注意力。我们不是不想专注，是不得不把注意力拿去换工资。大脑像 CPU，满载还不降频，注意力会枯竭。强撑靠糖和咖啡续命，只会蓝屏。可现实是：你不能随便停，因为停了就怕被说“不积极”。于是很多人尝试间歇性积极，持续性摸鱼，但可曾想摸鱼的底层逻辑是放弃突破，是习得性无助。最终你迫不得已待在了一个不属于你的地方，因为你本值得更好的地方！番茄钟第一次告诉我的不是效率，是一句话：停。你现在需要发散。番茄钟 + 任务预估，让你知道何时停，至少在可控范围内，把注意力一点点拿回来，防止认知过载。生活这场马拉松一直要求我们9.8米/秒，却未曾想，注意力持续的稀缺只会让人狭隘。原来不是我"废"，而是我长期被外界节奏占用。平衡点只能向内求，外界节奏只会把你带偏。复盘番茄日志，会校准时间直觉，找到健康的可持续的节奏感。有想法想在生活中工作中快速用上AI带来快乐，随时找我，我来提供解决方案。

0 00

冷裤蜗牛不跷二郎腿

5月前

木香丘: 如果你喜欢 Claude Code，那么你一定要试试 CodeBuddy Code。它不仅完美兼容，更在生态扩展上走得更远。模型自由：GPT、Gemini、DeepSeek 等国内外随便切，还支持自定义模型接入，私有部署也能玩转。成本可控：灵活切换模型，简单任务用轻量模型，复杂场景上强模型，钱花在刀刃上。全面兼容 Claude Code 生态： - Commands：自定义斜杠命令，复制粘贴即用 - Skills：技能系统无缝迁移，复杂工作流一键复用 - Subagents：原生多 Agent 架构，Plan/Explore 等专用代理开箱即用 - Hooks：PreToolUse/PostToolUse 等完整生命周期钩子，想拦就拦 - Plugin：Claude Code 插件直接安装，零改动 - Agent SDK：构建你自己的 AI Agent 应用拥抱开放标准： - MCP：完整支持 Model Context Protocol，工具扩展无上限 - ACP：官方原生支持（Claude Code 不支持），stdio + HTTP Streaming 双协议，IDE 集成、二次开发自由度拉满全家桶生态： - CodeBuddy IDE：Cursor 平替，AI 原生编辑器 - VS Code / JetBrains：插件深度集成 - 微信小程序 IDE：官方插件支持，小程序开发也能 AI 加持官方文档： - 国内：https://copilot.tencent.com/docs/cli/overview - 海外：https://www.codebuddy.ai/docs/cli/overview

0 00

冷裤蜗牛不跷二郎腿

5月前

Quan-v: 给大家推荐一个工具网站。检测全网在讨论（主要是 Reddit ）的关键词。你可以添加你想做的关键词，你的域名，看是否有人在讨论它。关键是全免费，没有任何限制。只要有人提起，就会发邮件提醒你。

0 00

冷裤蜗牛不跷二郎腿

5月前

胡二虎: AK最近的一条推特让我有点醍醐灌顶的感觉，不要总是问AI怎么看，要问这个行业里的顶级专家有哪些，他们怎么看这个问题，变成这个问法以后外部资源索引的质量在体感上都上升了一个层级

0 00

冷裤蜗牛不跷二郎腿

6月前

万能的机油，有没有啥头像资源网站或者好用的头像生成网站，对经常换头像的人真的不知道去哪找头像了

0 00