小众AI

Auralis
Auralis - 高速文本转语音引擎
Auralis 是一种文本转语音引擎,使语音生成在现实世界中变得实用:在 10 分钟内将整本《哈利·波特》第一本书转换为语音。
  官网   代码仓

Auralis 是一种文本转语音引擎,使语音生成在现实世界中变得实用:

  • 在 10 分钟内将整本《哈利·波特》第一本书转换为语音
  • 自动增强参考质量,即使使用低质量麦克风也可以注册它们!
  • 它可以配置为具有较小的内存占用(scheduler_max_concurrency)
  • 同时处理多个请求
  • 逐段流式传输长文本

主要功能

速度与效率

  • 使用智能批处理快速处理长文本
  • 在消费级 GPU 上运行,不会出现内存问题
  • 并行处理多个请求

轻松集成

  • 简单的Python API
  • 对长文本的流式支持
  • 内置音频增强
  • 自动语言检测

音频质量

  • 从短样本克隆声音
  • 背景噪音降低
  • 语音清晰度增强
  • 体积标准化

语种支持

XTTSv2 支持:英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、土耳其语、俄语、荷兰语、捷克语、阿拉伯语、中文(简体)、匈牙利语、韩语、日语、印地语

安装和使用

安装代码包

pip install auralis

使用下面的样例代码

from auralis import TTS, TTSRequest

# Initialize
tts = TTS().from_pretrained("AstraMindAI/xttsv2", gpt_model='AstraMindAI/xtts2-gpt')

# Generate speech
request = TTSRequest(
    text="Hello Earth! This is Auralis speaking.",
    speaker_files=['reference.wav']
)

output = tts.generate_speech(request)
output.save('hello.wav')

XTTSv2 Finetunes

您可以使用自己的 XTTSv2 微调,只需将其从标准 coqui 检查点格式转换为我们的 safetensor 格式即可。使用这个脚本:

python checkpoint_converter.py path/to/checkpoint.pth --output_dir path/to/output

它将创建两个文件夹,一个包含核心 xttsv2 检查点,另一个包含 gtp2 组件。然后创建一个 TTS 实例

tts = TTS().from_pretrained("som/core-xttsv2_model", gpt_model='some/xttsv2-gpt_model')

更多...


ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。
CHRONOS
CHRONOS是一种新颖的基于检索的时间线摘要 (TLS) 方法,通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。