VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。它集成多种语音服务,如 OpenAI TTS、AWS Polly 等,确保语音合成的高质量与稳定性。用户可上传文本文件,实时预览生成的音频,还能下载音频文件。平台提供用户注册登录、多语言界面、深色/浅色主题切换等功能,同时设有免费试用计划、按年/按月订阅及按量付费等多种付费模式,支持 Stripe 支付。其代码 100% 开源,方便开发者进行二次开发和优化,适合有语音合成需求的个人和企业使用。
主要功能
- 多语言语音合成:支持超过50种语言,用户可以根据需求选择不同的语言进行文本转语音操作。
- 音色与语速调节:用户可以自由选择男声或女声,并根据自己的喜好调节语速,使生成的语音更符合个人需求。
- 语音克隆:用户可以上传自己的声音样本,系统会通过先进的技术克隆出类似用户的声音,为用户提供个性化的语音体验。
- 文件处理:支持上传文本文件,并将文本内容转换为语音,生成的音频文件可以方便地下载保存。
- 用户与订阅管理:提供用户注册和登录功能,支持多种付费模式,方便用户根据自己的使用需求选择合适的订阅计划。
📦 安装
- 克隆仓库
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
cd Open-VoiceCanvas
- 安装依赖
npm install
- 配置环境变量
# 创建 .env 文件并添加以下配置
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# Database
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth 配置
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth 提供商配置
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"
- 运行数据库迁移
npx prisma migrate dev
- 启动开发服务器
npm run dev
🔑 环境变量
变量名 | 描述 | 必需 |
---|---|---|
OPENAI_API_KEY | OpenAI API 密钥 | 是 |
NEXT_PUBLIC_AWS_REGION | AWS 区域 (默认 us-east-1) | 是 |
NEXT_PUBLIC_AWS_ACCESS_KEY_ID | AWS 访问密钥 ID | 是 |
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY | AWS 访问密钥 | 是 |
MINIMAX_API_KEY | MiniMax API 密钥 | 是 |
MINIMAX_GROUP_ID | MiniMax 组 ID | 是 |
DATABASE_URL | Neon PostgreSQL 数据库连接 URL | 是 |
STRIPE_SECRET_KEY | Stripe 密钥 | 是 |
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY | Stripe 公钥 | 是 |
STRIPE_WEBHOOK_SECRET | Stripe Webhook 密钥 | 是 |
NEXTAUTH_URL | NextAuth URL (开发环境为 http://localhost:3000) | 是 |
NEXTAUTH_SECRET | NextAuth 密钥 | 是 |
GITHUB_ID | GitHub OAuth 客户端 ID | 否 |
GITHUB_SECRET | GitHub OAuth 客户端密钥 | 否 |
GOOGLE_ID | Google OAuth 客户端 ID | 否 |
GOOGLE_SECRET | Google OAuth 客户端密钥 | 否 |
🔊 支持的语音服务
OpenAI TTS
- 高质量自然语音
- 支持多种声音:alloy, echo, fable, onyx, nova, shimmer, ash, coral, ballad, sage
- 语速调节
- 自动容错(失败时切换到AWS Polly)
AWS Polly
- 多语言支持
- 多种声音选择
- 语速调节
MiniMax
- 中文优化
- 语音克隆功能
- 多语言支持
- 语速调节
实战演习
- 在线教育:教师可以将教学内容转换为语音,制作成音频资料供学生学习,方便学生在不同场景下复习。
- 内容创作:视频制作者可以用它快速生成旁白,节省录制时间,提高创作效率。
- 语言学习:学习者可以利用它听不同语言的发音,对比学习,提升语言听力和口语能力。
- 有声读物制作:将文字书籍转换为有声读物,方便用户在开车、运动等场景下收听。
- 企业培训:企业可以将培训资料转换为语音,方便员工随时随地学习,提高培训效果。
- 个性化服务:用户可以克隆自己的声音,用于制作个性化的语音消息或语音助手,增加互动性和趣味性。