小众AI

VoiceCanvas
VoiceCanvas - 支持超过 50 种语言的文本转语音
VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。
  官网   代码仓

VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。它集成多种语音服务,如 OpenAI TTS、AWS Polly 等,确保语音合成的高质量与稳定性。用户可上传文本文件,实时预览生成的音频,还能下载音频文件。平台提供用户注册登录、多语言界面、深色/浅色主题切换等功能,同时设有免费试用计划、按年/按月订阅及按量付费等多种付费模式,支持 Stripe 支付。其代码 100% 开源,方便开发者进行二次开发和优化,适合有语音合成需求的个人和企业使用。

主要功能

  • 多语言语音合成:支持超过50种语言,用户可以根据需求选择不同的语言进行文本转语音操作。
  • 音色与语速调节:用户可以自由选择男声或女声,并根据自己的喜好调节语速,使生成的语音更符合个人需求。
  • 语音克隆:用户可以上传自己的声音样本,系统会通过先进的技术克隆出类似用户的声音,为用户提供个性化的语音体验。
  • 文件处理:支持上传文本文件,并将文本内容转换为语音,生成的音频文件可以方便地下载保存。
  • 用户与订阅管理:提供用户注册和登录功能,支持多种付费模式,方便用户根据自己的使用需求选择合适的订阅计划。

📦 安装

  1. 克隆仓库
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
cd Open-VoiceCanvas
  1. 安装依赖
npm install
  1. 配置环境变量
# 创建 .env 文件并添加以下配置

# OpenAI
OPENAI_API_KEY="your_openai_api_key"

# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"

# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"

# Database
DATABASE_URL="your_neon_db_url"

# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"

# NextAuth 配置
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"

# OAuth 提供商配置
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"
  1. 运行数据库迁移
npx prisma migrate dev
  1. 启动开发服务器
npm run dev

🔑 环境变量

变量名 描述 必需
OPENAI_API_KEY OpenAI API 密钥
NEXT_PUBLIC_AWS_REGION AWS 区域 (默认 us-east-1)
NEXT_PUBLIC_AWS_ACCESS_KEY_ID AWS 访问密钥 ID
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY AWS 访问密钥
MINIMAX_API_KEY MiniMax API 密钥
MINIMAX_GROUP_ID MiniMax 组 ID
DATABASE_URL Neon PostgreSQL 数据库连接 URL
STRIPE_SECRET_KEY Stripe 密钥
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY Stripe 公钥
STRIPE_WEBHOOK_SECRET Stripe Webhook 密钥
NEXTAUTH_URL NextAuth URL (开发环境为 http://localhost:3000)
NEXTAUTH_SECRET NextAuth 密钥
GITHUB_ID GitHub OAuth 客户端 ID
GITHUB_SECRET GitHub OAuth 客户端密钥
GOOGLE_ID Google OAuth 客户端 ID
GOOGLE_SECRET Google OAuth 客户端密钥

🔊 支持的语音服务

OpenAI TTS

  • 高质量自然语音
  • 支持多种声音:alloy, echo, fable, onyx, nova, shimmer, ash, coral, ballad, sage
  • 语速调节
  • 自动容错(失败时切换到AWS Polly)

AWS Polly

  • 多语言支持
  • 多种声音选择
  • 语速调节

MiniMax

  • 中文优化
  • 语音克隆功能
  • 多语言支持
  • 语速调节

实战演习

  1. 在线教育:教师可以将教学内容转换为语音,制作成音频资料供学生学习,方便学生在不同场景下复习。
  2. 内容创作:视频制作者可以用它快速生成旁白,节省录制时间,提高创作效率。
  3. 语言学习:学习者可以利用它听不同语言的发音,对比学习,提升语言听力和口语能力。
  4. 有声读物制作:将文字书籍转换为有声读物,方便用户在开车、运动等场景下收听。
  5. 企业培训:企业可以将培训资料转换为语音,方便员工随时随地学习,提高培训效果。
  6. 个性化服务:用户可以克隆自己的声音,用于制作个性化的语音消息或语音助手,增加互动性和趣味性。

更多...


wdoc
一个功能强大的 RAG(检索增强生成)系统,旨在汇总、搜索和查询各种文件类型的文档。
ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。