音频处理 - 小众AI

AI开源软件 > 音频处理

Spark-TTS 完全基于Qwen2.5 构建，无需使用流匹配等额外生成模型。它无需依赖单独的模型来生成声学特征，而是直接从 [LLM]预测的代码中重建音频。这种方法简化了流程，提高了效率并降低了复杂性。

VoiceCanvas 是一款开源的文本转语音系统，支持超过 50 种语言和多种音色选择，还具备声音克隆功能。

AbletonMCP 通过模型上下文协议（MCP）将 Ableton Live 连接到 Claude AI，使 Claude 能够直接与 Ableton Live 交互和控制。此集成支持提示辅助音乐制作、音轨创建和 Live 会话作。

强大的少样本语音转换和语音合成 WebUI 工具，输入 5 秒的声音样本就能体验文本到语音转换。支持少样本 TTS、英语、日语和中文，集成了声音伴奏分离、中文自动语音识别和文本标注等功能。

VoiceCraft 能够复制或克隆或甚至编辑你从未听过的语音。

立刻使用

一个专业高质量的AI歌曲和音乐创作平台，方便分享的音乐创作社区。

立刻使用

专业AI音乐创作平台-建设一个任何人都能创作出伟大音乐的未来. 不需要任何工具,只需要想象力.从你的思想到音乐,一句话即可创造高质量原创音乐。

Auralis 是一种文本转语音引擎，使语音生成在现实世界中变得实用：在 10 分钟内将整本《哈利·波特》第一本书转换为语音。

Buzz 是一款基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具，支持 Windows、macOS、Linux，它可以将麦克风的语音实时转换为文字，也支持将视频、音频文件转换为文字、字幕。

ChatTTS是专为对话场景设计的语音生成模型，特别适用于大型语言模型(LLM)助手的对话任务，以及诸如对话式音频和视频介绍等应用。它支持中文和英文，通过使用大约100,000小时的中文和英文数据进行训练，ChatTTS在语音合成中表现出高质量和自然度。

MMAudio 在给定视频和/或文本输入的情况下生成同步音频。我们的关键创新是多模式联合训练，它允许对广泛的视听和音频文本数据集进行训练。此外，同步模块将生成的音频与视频帧对齐。

PDF2Audio，它将彻底改变我们阅读和理解 PDF 文件的方式。我们不再需要盯着屏幕，而是让信息以声音的形式流淌进你的耳朵，无论是在通勤的路上、健身时，还是任何需要解放双手的场合。