开源星探的个人主页

即刻App年轻人的同好社区

下载

开源星探

8关注1k被关注1夸夸

💫 专注于AIGC分享。

开源星探

1年前

MiniMax 旗下 Speech-02语音模型登顶TTS TOP1。

全球第一个真正实现多样化、个性化定义的语音模型。

除了常用的语音克隆及TTS外，还可以实现通过对音色的文字描述生成对应音色（C端暂未上线），在同一段语音中，也可实现跨语言的高质量语音合成。

详细的实测内容:mp.weixin.qq.com

体验地址：www.minimaxi.com

4 11

开源星探

1年前

字节把【Coze/飞书低代码工作流】核心开源了！

字节跳动（ByteDance）近期开源了其基于节点的流程构建引擎：FlowGram。而且也是在飞书工作流、扣子自动化等产品中使用的核心可视化流程引擎。

结合节点式设计和 AI 增强功能，提供直观的可视化工作流构建体验。它支持固定布局（结构化流程）和自由布局（灵活连接），通过 AI 自动化任务（如数据清洗、报告生成），并允许开发者扩展节点功能。

它通过前端可视化编辑器（React）实现节点拖拽和连接，结合后端 AI 集成（支持豆包、DeepSeek、Kimi 等通用大模型），提供流畅的交互体验。FlowGram 的设计目标是简化工作流开发，同时通过 AI 增强自动化能力。

特别适合需要明确输入输出的可视化工作流场景。

核心功能亮点
• 双布局模式：支持固定布局、自由布局，可实现卡片式排布（节点拖拽）或流程图式排布（自由线条连接）。
• AI 能力增强：可接入豆包、月之暗面Kimi、DeepSeek等大模型能力，增强工作流的智能化处理。
• 丰富的交互体验：提供拖拽、连线、节点配置、参数输入、状态高亮等交互设计，确保输入输出清晰。
• 节点控制丰富：分支判断、循环执行、嵌套子流程、条件表达式等均可灵活配置
• 强大的扩展能力：具备良好扩展性，可为节点增加自定义功能或集成外部服务
• 低代码能力支撑：具备构建更大规模自动化系统的基础组件和扩展体系

GitHub：github.com
官网：flowgram.ai

13 13

开源星探

1年前

英伟达在5月1日发布了一款开源语音识别模型：Parakeet TDT 0.6B V2，其以 600M 参数登顶 Hugging Face Open ASR 榜单。

平均词错误率（WER）仅 6.05%，超越所有主流闭源模型。它能在 1 秒内转录 60 分钟高质量音频。

基于 FastConformer 架构和 TDT 解码器，仅用 600M 参数实现超低 WER 和极快推理速度。训练数据为 12 万小时 Granary 数据集（含 LibriSpeech、Common Voice 等）。

CC-BY-4.0 许可允许商业和非商业使用！

HF 模型地址：huggingface.co
ASR 排行：huggingface.co

2 01

开源星探

1年前

给代码库做个CT扫描，一键生成交互式Wiki文档！

DeepWiki-Open是一款开源 AI 文档生成工具！主打 AI 驱动的代码分析和自动化文档生成！

它将 GitHub 或 GitLab 仓库一键转为交互式 Wiki，生成结构化文档和 Mermaid 图表，让开发者快速掌握项目全貌。

基于 FastAPI（后端）、Next.js（前端）和 RAG 技术。通过分析代码库的结构、文件和 README，生成交互式 Wiki 文档，包含架构图、模块说明和依赖关系。

主要功能
• 一键生成交互式 Wiki：自动将 GitHub/GitLab 仓库转为交互式 Wiki 文档
• 支持私有仓库：支持 Git 私钥配置，安全接入你的企业/私有项目
• AI 智能分析：利用 LLM 解析模块结构、函数含义、依赖关系等
• Mermaid 图表可视化：自动绘制项目模块架构图、函数依赖图（Mermaid.js）
• 类维基导航结构：文件、模块、类、函数逐层展开，逻辑层次清晰
• 交互式前端：清爽 UI，支持全文检索、代码预览、图谱浏览

GitHub：github.com

3 010

开源星探

1年前

新型轻量级音频模型问世！1.5B参数挑战 Whisper 与 Qwen2-Audio！

Aero-1-Audio 是一款新型的1.5B参数音频模型，由 LMMs-Lab 开发，基于 Qwen-2.5-1.5B 构建。

训练仅需 16 个 H100 GPU 和 50k 小时音频数据（约 5B 令牌），耗时不到 24 小时。其独特能力是处理长达 15 分钟的连续音频，无需分段，保持上下文连贯性。

核心功能
• 轻量模型体积：仅 1.5B 参数
• 支持长音频：可处理最长 15 分钟连续语音，无需分段，可保持上下文连贯
• 语音识别（ASR）：在语音识别准确率高
• 音频理解：支持复杂音频分析（如语音、音效、音乐）和指令驱动任务

HF模型：huggingface.co
HF体验：huggingface.co

7 03

开源星探

1年前

今天我要给大家分享一个真正能让你“轻松上手，快速开发”的宝藏开源框架：FastMCP。

它的存在，就像是给开发者开了一道绿灯：既能帮你省下大量处理底层细节的时间，又能让你专注在功能创新和业务逻辑上！

#FastMCP，这款最近开源的超级轻量 Python 框架，直接把 MCP 开发体验提升了一个维度！

只需简单几行代码，就能快速定义工具、资源、提示，搭建完整的 MCP Server & Client。

主要特性
• 简洁优雅的装饰器语法：使用简单 Python 装饰器定义 MCP 工具/资源/提示
• 工具链支持：快速组合多个工具，支持单工具、多工具、组合式智能体
• API 集成：内置 OpenAPI/FastAPI 支持，一键将现有 API 转为 MCP 服务
• 图像处理原生支持：内置了图像处理模块，轻松搞定图像上传、压缩、转码等操作
• LLM 客户端功能：支持连接任意 MCP 服务器，自动检测传输协议

GitHub：github.com

14 010

开源星探

1年前

月之暗面 Moonshot AI 正式开源了 Kimi-Audio，可以帮助我们解决处理音频时来回切换不同工具的痛点。

它是一款开源音频基础模型，基于 Qwen 2.5-7B 构建，可以统一处理音频理解、生成和对话任务。

依托 1300 万小时音频数据预训练，通过混合输入（离散语义标记 + 连续声学特征）与创新架构，统一多种任务。

Kimi-Audio 支持语音识别（ASR）、音频问答（AQA）、音频字幕（AAC）、情感识别（SER）、声音分类（SEC/ASC）、文本到语音（TTS）、语音转换（VC）和端到端语音对话。

主要功能
• 语音识别 (ASR)：在AISHELL-1上字错误率（WER）仅 0.60%，优于 Whisper 和 Paraformer
• 多任务音频理解：声音分类、情感识别、音频问答任务，表现出色
• 端到端语音对话：支持情绪、口音、语速等个性化控制
• 高效流式生成：使用 BigVGAN 声码器和分块流机制（look-ahead），延迟低至毫秒级
• 开源评估工具包：Kimi-Audio-Evalkit 提供标准化评估，覆盖 ASR、AQA、SER 等任务

GitHub：github.com
模型 HuggingFace：huggingface.co

6 03

开源星探

1年前

一款在昨日登顶 GitHub Trending 的榜首项目：Suna，可以通过自然语言对话，整合浏览器自动化、文件管理、网络爬虫和 API 集成等强大功能，轻松完成市场调研、行程规划、数据分析等复杂任务。

3天内新增了 5.5K+ Star！从4月23日的 780 飙升到现在的 6.4K 标星！

Suna 是一个开源通用 AI 代理平台。

它通过 Python/FastAPI 后端、Next.js/React 前端和 Docker 隔离环境，结合 Chromium 浏览器、Redis 数据持久化和 LiteLLM（支持 Claude、GPT-4o 等 LLM），提供强大的任务自动化能力。

所有动作都可在隔离的 Docker 沙箱中执行，安全性拉满。

GitHub：github.com/kortix-ai/suna
在线体验：www.suna.so

46 336

开源星探

1年前

大部分 OCR 工具存在许多痛点，比如：配置繁琐、模型庞大、图表识别差、精度低、识别结构乱、不能图文结合理解等等。

而且传统 OCR 工具非常依赖文本提取。

今天给小伙伴们推荐一款彻底摆脱传统 OCR 限制的 AI 文档处理神器：No-OCR。

它不再依赖 OCR，而是用多模态 AI + 向量索引来理解整本 PDF，支持图文混合搜索、视觉问答、内容归档查询，是文档智能搜索与问答的全新范式！

真正的无需 OCR 即可实现轻松处理复杂布局、图表和图像，极大提升文档分析效率。

GitHub： github.com/kyryl-opens-ml/no-ocr

27 526

开源星探

1年前

经常做自媒体的小伙伴们，水印移除一直是图片处理的难题，最近在 GitHub 又发现一款完全开源免费的 AI 水印移除工具：WatermarkRemover-AI。

经常做自媒体的小伙伴们，水印移除一直是图片处理的难题，最近发现一款完全开源免费的 AI 水印移除工具：WatermarkRemover-AI。

主要功能
• 支持多图批量处理：支持单张图片或整个文件夹批量去水印
• 提供精准水印识别：基于微软Florence-2视觉大模型，可识别各种样式水印
• 上下文感知修复：使用 LaMa inpainting 模型，实现“原图级”上下文感知图像填补
• 灵活配置支持：可设置水印最大尺寸、透明度灵敏度，适配不同图片
• 多格式输出：支持导出为 .png / .webp / .jpg
• GUI + 命令行双模式：提供图形界面操作和 CLI 脚本
• 无需 GPU 支持：在普通笔记本也能流畅运行，轻量级推理

GitHub：github.com/D-Ogi/WatermarkRemover-AI

92 960