即刻App年轻人的同好社区
下载
App内打开
GitHub充电宝
8关注1k被关注0夸夸
💫 一个深耕互联网行业的技术宅。
🧣微博同名!
GitHub充电宝
2天前
超酷的PDF转换工具!直接支持DeepSeek V3,本地AI精准解析PDF扫描件!

这是一款开源的 PDF 处理工具:PDF Craft,专注于将扫描书籍的 PDF 文件转化为 Markdown EPUB 格式。

核心功能:
本地 AI 驱动,无需联网,保护隐私
Markdown & EPUB 输出,兼容性强
智能清理页眉、页脚、页码、脚注
公式、图表智能处理
自动构建目录和章节

GitHub: github.com/oomol-lab/pdf-craft
26
GitHub充电宝
5天前
首个支持图像对话的开源实时语音模型MoshiVis来了!它能实时"看"懂图片并自然对话,开启语音交互!

核心亮点:
1️⃣ 通过轻量级交叉模块融合视觉信息
2️⃣ 保留原有对话能力的同时新增视觉理解
3️⃣ 智能门控机制保障响应效率

技术团队通过集成视觉编码器,让模型在处理语音流时同步分析图像内容,门控机制确保仅处理有效视觉信息,保持对话流畅性。现已开源!

GitHub:github.com/kyutai-labs/moshivis
体验地址:vis.moshi.chat
博客:kyutai.org/moshivis
00:37
00
GitHub充电宝
6天前
一款可以在 Mac 上完全离线运行的开源 AI 助手:Sidekick。

基于 llama.cpp 构建,无需额外软件即可运行,所有数据和对话都留在本地,确保了极高的隐私性。

允许用户与本地 LLM 进行交互,并能够从本地文件、文件夹和网站获取信息,确保数据安全不泄露。

同时结合了知识检索、代码解释、图像生成、LaTeX 渲染、数据可视化等强大功能,在离线环境下提供媲美云端 AI 助手的体验,真正实现 高效、安全、个性化的 AI 交互。

核心功能
本地知识检索:可从文件、文件夹和本地网站提取信息,作为对话的上下文。同时支持AI专家模式,适配不同领域的任务。
推理模型支持:支持QwQ-32B、DeepSeek-R1等开源模型。
内置代码解释器:集成 Python 解释器,可执行 Python 代码、解析数学表达式,提高 LLM 在逻辑推理、数据分析等任务上的表现。
支持文生图:它并没有图像生成模式。但内置的CoreML模型能自动识别图像生成提示词,并在必要时生成图像。
内联写作助手:按 Command + Control + I 即可快速访问 Sidekick 的内联写作助手,进行智能改写、润色、摘要等操作。
多格式渲染与导出:支持 Markdown LaTeX 渲染,一键导出对话为文件,方便分享或存档。

GitHub:github.com/johnbean393/Sidekick
00
GitHub充电宝
7天前
3天内猛涨2.6k+ Star!LangManus:用自然语言操控全网数据,复杂任务一键执行!

LangManus 作为一款刚开源的 AI Agent 工具,凭借其强大的大语言模型(LLM)和多样化工具集成,迅速崭露头角。

它不仅能通过网络搜索、网页爬取和浏览器控制完成任务,还能自动执行代码、生成报告,堪称研究和自动化的“全能助手”,真正实现端到端的自动化任务执行。

核心能力
LLM 集成:支持通义千问等开源模型,多层 LLM 系统适配不同任务复杂度
工具集成:Tavily API 进行网络搜索、Jina 进行神经搜索、高级内容提取
Python 集成:内置 Python,可直接进行代码执行,还集成 uv 包管理
工作流管理:可视化工作流控制、多智能体编排、任务分配和监控

GitHub:github.com/langmanus/langmanus
01
GitHub充电宝
8天前
一款刚刚开源的TTS语音模型:Orpheus TTS。

不仅能生成流畅自然、充满情感的声音,还将延迟压缩到令人惊叹的 25-50 毫秒,完美适配实时对话场景。

它以其接近人类的自然情感表达、超低延迟的实时输出以及强大的零样本语音克隆能力,迅速成为开源社区关注的焦点。

核心亮点
超低延迟:支持实时流式推理,延迟低至约200毫秒,通过压缩最低可至 25-50 毫秒
自然情感表达:支持丰富的情感和语调控制,支持高兴、悲伤、生气、困倦等多种情绪
零样本语音克隆:无需预训练,仅需提供参考音频即可克隆目标音色
提供 4 种模型规模:Medium (3B)、Small (1B)、Tiny (400M)、Nano (150M)
端到端语音生成:还未上线,上线即可提升语音自然度、可控性及生成速度

GitHub:github.com/canopyai/Orpheus-TTS
00:08
111
GitHub充电宝
10天前
Stability AI发布全新虚拟视角生成模型Stable Virtual Camera(1.3B参数)!

只需1张或多张图片,就能从任意角度生成超1000帧的平滑视频,在相机回到原点时还能保持画面一致性,实现完美循环

支持轨道/螺旋/缩放等自定义运动轨迹,连大幅视角变化也能保持画面稳定流畅!

GitHub:github.com
01:00
00
GitHub充电宝
15天前
SameDev 免费开发神器!像素级克隆任意网站UI

发现一款超强AI编程工具Same.dev!它能够以像素级精度克隆任何网站的界面设计,重点是免费使用!

仅需2个月就实现核心技术,与其他工具不同,Same直接抓取真实网站代码,避免生成虚构内容,精准度拉满。

👉 核心亮点:
完全免费的开源代理
支持1:1克隆网页界面

体验:same.dev

潜力无限🚀 建议开发者们速速收藏!
00:33
873
GitHub充电宝
15天前
推荐 GitHub 上一款能为大模型提供浏览器自动化能力的工具:MCP Playwright。

该工具可赋予大模型真实的网页交互能力,让AI真正"看懂"并操作浏览器!

🔹 核心功能:
1️⃣ 网页自动化操作(点击/表单填写/导航)
2️⃣ 实时截取屏幕截图辅助AI决策
3️⃣ 浏览器环境执行JavaScript代码
4️⃣ 动态数据抓取与网页分析
5️⃣ 无缝对接Claude等大语言模型

🔥 应用场景:
✔️ 自动化测试 ✔️ 实时数据采集
✔️ 智能网页分析 ✔️ 动态信息处理

📦 集成Smithery/mcp-get工具链
💻 实测对Claude Desktop兼容性最佳

GitHub:github.com/executeautomation/mcp-playwright
022
GitHub充电宝
16天前
夸克的“AI超级框”整合了AI对话、深度思考、深度搜索、深度研究、深度执行,用户只需输入指令,就能自动调用不同模型和Agent完成任务。

功能覆盖了AI写作、生图、PPT制作、学术研究、健康问答、旅行计划等场景。

Case 1:学术研究——3分钟搞定万字论文文献综述
写论文时,面对几十篇文献无从下手,光是梳理核心观点就要花几小时。
比如:在“AI超级框”输入“总结《气候变化对农业的影响》相关文献”,夸克会直接生成文献摘要、核心观点对比,甚至提取关键数据表格,还能一键生成参考文献格式!

Case 2:职场救急——从0到1生成年终PPT
临时被老板要求做年终汇报PPT,毫无灵感还要赶时间。
比如:打开AIPPT板块,输入“生成新能源行业市场分析的10页PPT”,夸克不仅生成大纲和内容自动排版,甚至导出可编辑文件!

Case 3:旅行规划——一键生成“社恐友好型”小众路线
想避开人挤人的网红景点,但自己查攻略耗时又怕踩雷。
比如:输入“3天杭州小众旅行路线,避开人群、预算人均1000”,夸克会综合全网游记和本地数据,规划交通、住宿、景点!

Case 4:健康管理——从症状自查到挂号提醒一条龙
身体不适时,网上搜索要么被广告淹没,要么信息碎片化。
比如:输入“喉咙痛三天伴随低烧可能是什么问题”,夸克会结合权威医学资料分析可能性,推荐用药建议,甚至同步本地医院挂号入口和科室推荐!

地址:www.quark.cn
01
GitHub充电宝
17天前
飞书上线春日重启计划,带来了一大批 AI+多维表格的模版!

还有一大堆与 DeepSeek 联动的多维表格模版上线,涵盖了一些主流自媒体创作场景,非常的丰富!

其中很多模板,其实我之前也看到过很多大佬做的,这次官方直接总结汇总发布出来了!

飞书春日计划:www.feishu.cn
05