JacobCai的个人主页 - 即刻App

即刻App年轻人的同好社区

下载

JacobCai

12关注8被关注0夸夸

JacobCai

4天前

苏柯蕤: 项目越写越大，每隔一段时间让 AI 按照 Clean Code 原则 review 一遍代码是很有必要的。

0 00

JacobCai

5天前

Simon的白日梦: 微软开源了一个只有0.5B的实时文字到语音生成模型，试了下生成质量很不错，发声很自然，唯一遗憾是还不支持中文~ {VibeVoice-Realtime-0.5B / VibeVoice实时0.5B文本转语音模型} 🧐VibeVoice-Realtime-0.5B是微软开发的轻量级实时文本转语音模型，以0.5B参数实现约300ms首响延迟，支持流式输入与长文本生成，在LibriSpeech和SEED数据集上展现出低WER（2.00%/2.05%）和高说话人相似度（0.695/0.633）。 ➡️模型链接： https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B ➡️试玩demo：https://huggingface.co/spaces/anycoderapps/VibeVoice-Realtime-0.5B ✨重点 ●🔊【实时性能参数】 0.5B参数规模实现约300ms首响延迟，支持流式文本输入与连续语音生成单说话人设计，支持多说话人模型扩展（需额外配置） ●🧠【技术架构创新】采用Qwen2.5-0.5B LLM作为核心推理引擎声学编码器基于σ-VAE变体，7阶段Transformer实现24kHz→3200x下采样扩散头模块（4层，~40M参数）结合DDPM算法预测声学VAE特征 ●📊【零样本性能指标】 LibriSpeech测试集：WER=2.00%，说话人相似度=0.695 SEED测试集：WER=2.05%，说话人相似度=0.633 长文本生成能力通过8192 tokens上下文长度训练验证 ●🔄【两阶段训练策略】第一阶段：预训练σ-VAE声学编码器（3200x压缩比）第二阶段：冻结编码器，仅微调LLM+扩散头参数 ●🔒【负责任使用限制】仅支持英语，禁止语音模仿、虚假信息生成、非语音音频（音乐/环境音）生成需在应用中明确标注AI生成内容，禁止规避技术安全措施 ●🛠️【部署适配特性】兼容LibriSpeech、SEED等标准数据集训练验证提供GitHub代码库（microsoft/VibeVoice-Code）与Hugging Face Spaces推理环境支持LibriSpeech Test-Clean等基准测试与自定义数据集微调

0 00

JacobCai

6天前

造App: 周末在家研究：《OpenAI 官方指南：构建 AI 原生工程团队》 2025年软件开发已正式进入“智能体主导执行、人类负责审阅与决策”的时代。整个软件开发生命周期的 80% 重复性工作都可以也应该交给编码智能体完成，工程师的价值正在快速从“写代码”迁移到“定义问题、设计系统、把握方向”。能力演进时间表 · 早期：只能补全几行代码，推理时间仅30秒左右。 · 现在：领先模型已能持续推理2小时以上，每7个月左右能力翻倍，可一次性理解整个代码库、调用工具、自动跑测试、自我纠错。 · 结果：从规划到部署的完整特性，智能体已能独立交付，人类只需审阅和做最终决策。 · OpenAI 内部真实数据：原本需要几周的任务，现在几天即可完成，工程师把大量文档、依赖维护、特性旗标清理等重复性工作完全交给 Codex 智能体。软件开发五大阶段的彻底重构 1. Plan（规划阶段） · 传统痛点：需求模糊、依赖不清、反复开会对齐。 · 现在做法：把产品规格、票据扔给智能体，它会自动拆解成子任务、标记模糊点、找出所有依赖文件、预估实现难度、指出潜在风险。 · 工程师真正要做的事：决定优先级、取舍范围、最终拍板故事点数。 · 立刻可做：找出团队里最常需要“代码对齐”的场景（如新特性范围讨论），先让智能体自动补充上下文和依赖分析。 2. Design（设计阶段） · 传统痛点：Figma 转代码慢、反复返工、很难快速试多个方案。 · 现在做法：多模态智能体直接把设计稿（Figma/图片）转成100%符合现有设计系统的高保真 React/Vue/SwiftUI 组件，10秒内出3-5个不同实现方案。 · 工程师真正要做的事：决定整体设计语言、交互模式、组件复用策略。 · 立刻可做：把组件库通过 MCP 暴露给智能体，建立“设计图→组件→代码”一键链路。 3. Build（编码阶段） · 传统痛点：大量样板代码、找旧实现、上下文频繁切换、编译错来回修。 · 现在做法：智能体一次性生成完整特性，包括后端 API、数据库迁移、前端页面、错误处理、日志、单元测试、README，全程跨几十个文件保持一致，边写边自动修复编译错误。 · 工程师真正要做的事：只关注架构影响、安全、性能、可维护性等高层问题。 · 立刻可做：从小而规格明确的任务开始；要求智能体先输出 PLAN. md 再动手；建立 AGENTS. md 文件教它团队的独特规范和测试流程。 4. Test（测试阶段） · 传统痛点：测试永远写不完、覆盖率被牺牲、边缘 case 容易漏。 · 现在做法：智能体根据产品规格自动生成测试用例，尤其擅长找出人类容易忽略的极端情况；代码改动后自动更新测试。 · 工程师真正要做的事：确保测试真实反映产品意图，杜绝“假测试”（看起来通过但没测到点）。 · 立刻可做：让智能体在独立会话中专门生成测试；人类严格审查；确保智能体有权限完整运行测试套件。 5. Review & Deploy（代码审查与部署阶段） · 传统痛点：审查量巨大、容易漏安全或性能问题。 · 现在做法：智能体作为第一轮审查者，检查风格、一致性、基本安全漏洞；部署流水线中自动修复小问题。 · 工程师真正要做的事：只看高层设计、跨团队影响、最终上线决策。 · 趋势：人类代码审查量将持续下降到现在的10%-20%。新的核心工作流：Delegate → Review → Own · Delegate（委托）：所有明确、可验证、重复性高的任务全部扔给智能体。 · Review（审阅）：人类快速检查输出，修正微妙错误，确保符合团队规范。 · Own（拥有）：人类永远保留三件事——系统级洞察、创造性决策、战略方向。工程师每天的时间分配正在发生巨变 · 过去：70%写代码 + 20%开会 + 10%思考 · 现在：10%写代码 + 20%审阅智能体输出 + 70%定义需求、设计系统、思考长期方向给工程 Leader 的 5 条立即可执行建议 1. 从团队最痛苦的阶段开始（大多数团队是 Build 和 Test） 2. 先用现成工具（GitHub Copilot 最新版、Cursor、Codex CLI、o3/o4 等）跑小任务，快速积累信任 3. 立刻创建两份神器文档： · AGENTS. md（教智能体了解你们代码库的独特习惯） · 每张票据强制要求先写 PLAN. md（智能体最爱清晰的计划） 4. 把测试覆盖率当作“给智能体下命令的语言”——测试越好，智能体越靠谱。 5. 最重要：完成文化升级——把“亲自写代码”视为可以外包的机械劳动，把“清晰定义要什么、为什么、做到多好”视为工程师的真正价值。

0 00

JacobCai

6天前

超级峰: 为什么我们在小红书辛辛苦苦写了一堆图文笔记，想做复盘的时候，还在一篇篇手动复制粘贴正文和图片呢？最近在折腾小红书数据，发现一个挺成熟的开源项目 Spider_XHS，可以说是「创作者把自己内容拿回来」的工具箱了。它支持登录你自己的账号，批量把图文笔记抓下来，导出成 Excel 和本地图片视频文件夹，方便你做二次分析、备份、复用。简单说下玩法思路，给有技术基础的创造者一个方向： 1️⃣ 在 GitHub 上搜 Spider_XHS，把项目拉到本地，按说明装好 Python 和 Node 环境 2️⃣ 用自己的小红书登录信息完成授权，这一步本质是让程序「代替你自己」访问本来就能看到的内容 3️⃣ 选择想要抓的维度，比如自己发布的笔记、喜欢夹、收藏夹，然后一键导出到 Excel 或媒体目录对小红书创作者来说，这意味着几件事。 1️⃣ 你终于可以像运营公众号、网站那样，系统性地回看自己哪类内容更容易被点赞收藏 2️⃣ 你可以把图文素材沉淀到本地或私有库里，后面无论做课程、电子书还是多平台分发，都有一手素材 3️⃣ 搭配你自己的 AI 工作流，用这些历史笔记去训练提示词、优化选题，而不是完全依赖平台的只读后台这里也提醒一下，Spider_XHS 的作者在 README 里写得很清楚，只用于学习交流，任何「数据注入」和违规用途都不被允许，使用时要尊重平台规则和他人隐私，最好只抓自己账号下有权限访问的内容。纳瓦尔说过，真正的杠杆来自代码和媒体。对今天的小红书创作者来说，把自己生产过的内容结构化、可搜索、可分析，其实是在给自己加一层数据杠杆。如果你本身就会一点 Python，这个项目值得你周末花两个小时折腾一下。等哪天你要做选题数据库、素材知识库，或者给自己的内容上 AI，大概率会感谢今天多走的这一步。创造者们，如果你已经在用小红书做内容，这种把「内容资产化」的小工具，可以早点用起来。 GitHub 仓库在这里 👇

0 00

JacobCai

7天前

龙爪槐守望者: Nano Banana Pro Prompts—— 高质量 Nano Banana Pro 提示词提供精选的高质量 AI 提示词，旨在帮助用户在创作过程中获取灵感。通过这些提示词，用户可以生成多样化的图像，从宏大的发布会场景到独特的角色设计，满足不同需求。 🔗：https://youmind.com/zh-CN/nano-banana-pro-prompts

0 00

JacobCai

9天前

歸藏: 谷歌又发福利了！没地方玩 Nano Banana Pro 的可以试试刚看到群里朋友分享的 Google Gemini Enterprise 可以白嫖一个月，不需要绑卡能免费用谷歌所有的模型包括 Gemini 3 Pro 以及 Nano Banana Pro 进到链接里面点击下面商务版的“开启免费试用”就行：https://cloud.google.com/gemini-enterprise?hl=zh_cn

0 00

JacobCai

11天前

Simon的白日梦: 分享一个无门槛免费获得gemini pro+1年全家桶的办法，亲测可用！（不需要edu邮箱，不需要p图，不需要国外号码，唯一要求是有一张能刷外币的卡，国内发行的visa/master卡都行）。步骤1-登录这个页面（https://one.google.com/ai-student?g1_landing_page=75），点击“验证资格条件”：步骤2-点击后跳转到“验证学生身份页面”，复制这个页面的网址。步骤3-把刚才复制的验证页面网址，粘贴到这个网址（https://batch.1key.me/）里面，然后点击“start Verification”，如果提示“success”，则验证成功；如果失败，多重来几次。步骤4：回到最开始的验证资格页面，这时会提醒你绑卡（如果没绑卡），或者直接提醒你开通试用（1年后才会扣费，记得取消就可以白嫖1年）。享受你的gemini pro吧！

0 00

JacobCai

1月前

向度之桥: 刚发现一个神器，用 AI 自动写和优化 SQL 查询！再也不用手动查文档、调试语句了 😭 Conar 是一个开源的 PostgreSQL AI 助手，支持安全存储数据库连接，还能一键让 AI 帮你生成、解释、优化 SQL。最爽的是——完全开源 + 端到端加密，隐私有保障🔒 以下是使用教程👇 🔗项目地址：https://github.com/wannabespace/conar 配套工具推荐：Supabase（云数据库托管）、Drizzle ORM（类型安全查询）对于后端开发者、数据分析师、全栈工程师来说，这就是个数据库外挂。省下大量写 SQL 的时间，专注业务逻辑！收藏了准没错 ⭐

0 00

JacobCai

2月前

脑袋瓜在想什么呐: https://matrix.tencent.com/ai-detect/?lang=en 发现一个ai检测助手，试了下我用ds生成的文案，果然100%

0 00

JacobCai

2月前

Prompt2Tool: 我一般不发，但是这个工具，可以检索所有的cdn库，是不是很方便？https://prompt2tool.com/tools/utilities/cdn-query

0 00