即刻App
年轻人的同好社区
下载
App内打开
JacobCai
12
关注
8
被关注
0
夸夸
JacobCai
3天前
苏柯蕤: 项目越写越大,每隔一段时间让 AI 按照 Clean Code 原则 review 一遍代码是很有必要的。
0
0
0
JacobCai
3天前
Simon的白日梦: 微软开源了一个只有0.5B的实时文字到语音生成模型,试了下生成质量很不错,发声很自然,唯一遗憾是还不支持中文~ {VibeVoice-Realtime-0.5B / VibeVoice实时0.5B文本转语音模型} 🧐VibeVoice-Realtime-0.5B是微软开发的轻量级实时文本转语音模型,以0.5B参数实现约300ms首响延迟,支持流式输入与长文本生成,在LibriSpeech和SEED数据集上展现出低WER(2.00%/2.05%)和高说话人相似度(0.695/0.633)。 ➡️模型链接: https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B ➡️试玩demo:https://huggingface.co/spaces/anycoderapps/VibeVoice-Realtime-0.5B ✨重点 ●🔊【实时性能参数】 0.5B参数规模实现约300ms首响延迟,支持流式文本输入与连续语音生成 单说话人设计,支持多说话人模型扩展(需额外配置) ●🧠【技术架构创新】 采用Qwen2.5-0.5B LLM作为核心推理引擎 声学编码器基于σ-VAE变体,7阶段Transformer实现24kHz→3200x下采样 扩散头模块(4层,~40M参数)结合DDPM算法预测声学VAE特征 ●📊【零样本性能指标】 LibriSpeech测试集:WER=2.00%,说话人相似度=0.695 SEED测试集:WER=2.05%,说话人相似度=0.633 长文本生成能力通过8192 tokens上下文长度训练验证 ●🔄【两阶段训练策略】 第一阶段:预训练σ-VAE声学编码器(3200x压缩比) 第二阶段:冻结编码器,仅微调LLM+扩散头参数 ●🔒【负责任使用限制】 仅支持英语,禁止语音模仿、虚假信息生成、非语音音频(音乐/环境音)生成 需在应用中明确标注AI生成内容,禁止规避技术安全措施 ●🛠️【部署适配特性】 兼容LibriSpeech、SEED等标准数据集训练验证 提供GitHub代码库(microsoft/VibeVoice-Code)与Hugging Face Spaces推理环境 支持LibriSpeech Test-Clean等基准测试与自定义数据集微调
0
0
0
JacobCai
5天前
造App: 周末在家研究:《OpenAI 官方指南:构建 AI 原生工程团队》 2025年软件开发已正式进入“智能体主导执行、人类负责审阅与决策”的时代。整个软件开发生命周期的 80% 重复性工作都可以也应该交给编码智能体完成,工程师的价值正在快速从“写代码”迁移到“定义问题、设计系统、把握方向”。 能力演进时间表 · 早期:只能补全几行代码,推理时间仅30秒左右。 · 现在:领先模型已能持续推理2小时以上,每7个月左右能力翻倍,可一次性理解整个代码库、调用工具、自动跑测试、自我纠错。 · 结果:从规划到部署的完整特性,智能体已能独立交付,人类只需审阅和做最终决策。 · OpenAI 内部真实数据:原本需要几周的任务,现在几天即可完成,工程师把大量文档、依赖维护、特性旗标清理等重复性工作完全交给 Codex 智能体。 软件开发五大阶段的彻底重构 1. Plan(规划阶段) · 传统痛点:需求模糊、依赖不清、反复开会对齐。 · 现在做法:把产品规格、票据扔给智能体,它会自动拆解成子任务、标记模糊点、找出所有依赖文件、预估实现难度、指出潜在风险。 · 工程师真正要做的事:决定优先级、取舍范围、最终拍板故事点数。 · 立刻可做:找出团队里最常需要“代码对齐”的场景(如新特性范围讨论),先让智能体自动补充上下文和依赖分析。 2. Design(设计阶段) · 传统痛点:Figma 转代码慢、反复返工、很难快速试多个方案。 · 现在做法:多模态智能体直接把设计稿(Figma/图片)转成100%符合现有设计系统的高保真 React/Vue/SwiftUI 组件,10秒内出3-5个不同实现方案。 · 工程师真正要做的事:决定整体设计语言、交互模式、组件复用策略。 · 立刻可做:把组件库通过 MCP 暴露给智能体,建立“设计图→组件→代码”一键链路。 3. Build(编码阶段) · 传统痛点:大量样板代码、找旧实现、上下文频繁切换、编译错来回修。 · 现在做法:智能体一次性生成完整特性,包括后端 API、数据库迁移、前端页面、错误处理、日志、单元测试、README,全程跨几十个文件保持一致,边写边自动修复编译错误。 · 工程师真正要做的事:只关注架构影响、安全、性能、可维护性等高层问题。 · 立刻可做:从小而规格明确的任务开始;要求智能体先输出 PLAN. md 再动手;建立 AGENTS. md 文件教它团队的独特规范和测试流程。 4. Test(测试阶段) · 传统痛点:测试永远写不完、覆盖率被牺牲、边缘 case 容易漏。 · 现在做法:智能体根据产品规格自动生成测试用例,尤其擅长找出人类容易忽略的极端情况;代码改动后自动更新测试。 · 工程师真正要做的事:确保测试真实反映产品意图,杜绝“假测试”(看起来通过但没测到点)。 · 立刻可做:让智能体在独立会话中专门生成测试;人类严格审查;确保智能体有权限完整运行测试套件。 5. Review & Deploy(代码审查与部署阶段) · 传统痛点:审查量巨大、容易漏安全或性能问题。 · 现在做法:智能体作为第一轮审查者,检查风格、一致性、基本安全漏洞;部署流水线中自动修复小问题。 · 工程师真正要做的事:只看高层设计、跨团队影响、最终上线决策。 · 趋势:人类代码审查量将持续下降到现在的10%-20%。 新的核心工作流:Delegate → Review → Own · Delegate(委托):所有明确、可验证、重复性高的任务全部扔给智能体。 · Review(审阅):人类快速检查输出,修正微妙错误,确保符合团队规范。 · Own(拥有):人类永远保留三件事——系统级洞察、创造性决策、战略方向。 工程师每天的时间分配正在发生巨变 · 过去:70%写代码 + 20%开会 + 10%思考 · 现在:10%写代码 + 20%审阅智能体输出 + 70%定义需求、设计系统、思考长期方向 给工程 Leader 的 5 条立即可执行建议 1. 从团队最痛苦的阶段开始(大多数团队是 Build 和 Test) 2. 先用现成工具(GitHub Copilot 最新版、Cursor、Codex CLI、o3/o4 等)跑小任务,快速积累信任 3. 立刻创建两份神器文档: · AGENTS. md(教智能体了解你们代码库的独特习惯) · 每张票据强制要求先写 PLAN. md(智能体最爱清晰的计划) 4. 把测试覆盖率当作“给智能体下命令的语言”——测试越好,智能体越靠谱。 5. 最重要:完成文化升级——把“亲自写代码”视为可以外包的机械劳动,把“清晰定义要什么、为什么、做到多好”视为工程师的真正价值。
0
0
0
JacobCai
5天前
超级峰: 为什么我们在小红书辛辛苦苦写了一堆图文笔记,想做复盘的时候,还在一篇篇手动复制粘贴正文和图片呢?  最近在折腾小红书数据,发现一个挺成熟的开源项目 Spider_XHS,可以说是「创作者把自己内容拿回来」的工具箱了。它支持登录你自己的账号,批量把图文笔记抓下来,导出成 Excel 和本地图片视频文件夹,方便你做二次分析、备份、复用。  简单说下玩法思路,给有技术基础的创造者一个方向: 1️⃣ 在 GitHub 上搜 Spider_XHS,把项目拉到本地,按说明装好 Python 和 Node 环境 2️⃣ 用自己的小红书登录信息完成授权,这一步本质是让程序「代替你自己」访问本来就能看到的内容 3️⃣ 选择想要抓的维度,比如自己发布的笔记、喜欢夹、收藏夹,然后一键导出到 Excel 或媒体目录 对小红书创作者来说,这意味着几件事。 1️⃣ 你终于可以像运营公众号、网站那样,系统性地回看自己哪类内容更容易被点赞收藏 2️⃣ 你可以把图文素材沉淀到本地或私有库里,后面无论做课程、电子书还是多平台分发,都有一手素材 3️⃣ 搭配你自己的 AI 工作流,用这些历史笔记去训练提示词、优化选题,而不是完全依赖平台的只读后台 这里也提醒一下,Spider_XHS 的作者在 README 里写得很清楚,只用于学习交流,任何「数据注入」和违规用途都不被允许,使用时要尊重平台规则和他人隐私,最好只抓自己账号下有权限访问的内容。  纳瓦尔说过,真正的杠杆来自代码和媒体。对今天的小红书创作者来说,把自己生产过的内容结构化、可搜索、可分析,其实是在给自己加一层数据杠杆。 如果你本身就会一点 Python,这个项目值得你周末花两个小时折腾一下。等哪天你要做选题数据库、素材知识库,或者给自己的内容上 AI,大概率会感谢今天多走的这一步。 创造者们,如果你已经在用小红书做内容,这种把「内容资产化」的小工具,可以早点用起来。 GitHub 仓库在这里 👇
0
0
0
JacobCai
5天前
龙爪槐守望者: Nano Banana Pro Prompts—— 高质量 Nano Banana Pro 提示词 提供精选的高质量 AI 提示词,旨在帮助用户在创作过程中获取灵感。通过这些提示词,用户可以生成多样化的图像,从宏大的发布会场景到独特的角色设计,满足不同需求。 🔗:https://youmind.com/zh-CN/nano-banana-pro-prompts
0
0
0
JacobCai
8天前
歸藏: 谷歌又发福利了!没地方玩 Nano Banana Pro 的可以试试 刚看到群里朋友分享的 Google Gemini Enterprise 可以白嫖一个月,不需要绑卡 能免费用谷歌所有的模型包括 Gemini 3 Pro 以及 Nano Banana Pro 进到链接里面点击下面商务版的“开启免费试用”就行:https://cloud.google.com/gemini-enterprise?hl=zh_cn
0
0
0
JacobCai
9天前
Simon的白日梦: 分享一个无门槛免费获得gemini pro+1年全家桶的办法,亲测可用!(不需要edu邮箱,不需要p图,不需要国外号码,唯一要求是有一张能刷外币的卡,国内发行的visa/master卡都行)。 步骤1-登录这个页面 (https://one.google.com/ai-student?g1_landing_page=75),点击“验证资格条件”: 步骤2-点击后跳转到“验证学生身份页面”,复制这个页面的网址。 步骤3-把刚才复制的验证页面网址,粘贴到这个网址(https://batch.1key.me/)里面,然后点击“start Verification”,如果提示“success”,则验证成功;如果失败,多重来几次。 步骤4:回到最开始的验证资格页面,这时会提醒你绑卡(如果没绑卡),或者直接提醒你开通试用(1年后才会扣费,记得取消就可以白嫖1年)。享受你的gemini pro吧!
0
0
0
JacobCai
1月前
向度之桥: 刚发现一个神器,用 AI 自动写和优化 SQL 查询!再也不用手动查文档、调试语句了 😭 Conar 是一个开源的 PostgreSQL AI 助手,支持安全存储数据库连接,还能一键让 AI 帮你生成、解释、优化 SQL。最爽的是——完全开源 + 端到端加密,隐私有保障🔒 以下是使用教程👇 🔗项目地址:https://github.com/wannabespace/conar 配套工具推荐:Supabase(云数据库托管)、Drizzle ORM(类型安全查询) 对于后端开发者、数据分析师、全栈工程师来说,这就是个数据库外挂。省下大量写 SQL 的时间,专注业务逻辑! 收藏了准没错 ⭐
0
0
0
JacobCai
1月前
脑袋瓜在想什么呐: https://matrix.tencent.com/ai-detect/?lang=en 发现一个ai检测助手,试了下我用ds生成的文案,果然100%
0
0
0
JacobCai
2月前
Prompt2Tool: 我一般不发,但是这个工具,可以检索所有的cdn库,是不是很方便?https://prompt2tool.com/tools/utilities/cdn-query
0
0
0