VoiceCanvas

VoiceCanvas 是一款开源的文本转语音系统，支持超过 50 种语言和多种音色选择，还具备声音克隆功能。它集成多种语音服务，如 OpenAI TTS、AWS Polly 等，确保语音合成的高质量与稳定性。用户可上传文本文件，实时预览生成的音频，还能下载音频文件。平台提供用户注册登录、多语言界面、深色/浅色主题切换等功能，同时设有免费试用计划、按年/按月订阅及按量付费等多种付费模式，支持 Stripe 支付。其代码 100% 开源，方便开发者进行二次开发和优化，适合有语音合成需求的个人和企业使用。

主要功能

多语言语音合成：支持超过50种语言，用户可以根据需求选择不同的语言进行文本转语音操作。
音色与语速调节：用户可以自由选择男声或女声，并根据自己的喜好调节语速，使生成的语音更符合个人需求。
语音克隆：用户可以上传自己的声音样本，系统会通过先进的技术克隆出类似用户的声音，为用户提供个性化的语音体验。
文件处理：支持上传文本文件，并将文本内容转换为语音，生成的音频文件可以方便地下载保存。
用户与订阅管理：提供用户注册和登录功能，支持多种付费模式，方便用户根据自己的使用需求选择合适的订阅计划。

📦 安装

克隆仓库

git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
cd Open-VoiceCanvas

安装依赖

npm install

配置环境变量

# 创建 .env 文件并添加以下配置

# OpenAI
OPENAI_API_KEY="your_openai_api_key"

# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"

# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"

# Database
DATABASE_URL="your_neon_db_url"

# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"

# NextAuth 配置
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"

# OAuth 提供商配置
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

运行数据库迁移

npx prisma migrate dev

启动开发服务器

npm run dev

🔑 环境变量

变量名	描述	必需
OPENAI_API_KEY	OpenAI API 密钥	是
NEXT_PUBLIC_AWS_REGION	AWS 区域 (默认 us-east-1)	是
NEXT_PUBLIC_AWS_ACCESS_KEY_ID	AWS 访问密钥 ID	是
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY	AWS 访问密钥	是
MINIMAX_API_KEY	MiniMax API 密钥	是
MINIMAX_GROUP_ID	MiniMax 组 ID	是
DATABASE_URL	Neon PostgreSQL 数据库连接 URL	是
STRIPE_SECRET_KEY	Stripe 密钥	是
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY	Stripe 公钥	是
STRIPE_WEBHOOK_SECRET	Stripe Webhook 密钥	是
NEXTAUTH_URL	NextAuth URL (开发环境为 http://localhost:3000)	是
NEXTAUTH_SECRET	NextAuth 密钥	是
GITHUB_ID	GitHub OAuth 客户端 ID	否
GITHUB_SECRET	GitHub OAuth 客户端密钥	否
GOOGLE_ID	Google OAuth 客户端 ID	否
GOOGLE_SECRET	Google OAuth 客户端密钥	否

🔊 支持的语音服务

OpenAI TTS

高质量自然语音
支持多种声音：alloy, echo, fable, onyx, nova, shimmer, ash, coral, ballad, sage
语速调节
自动容错（失败时切换到AWS Polly）

AWS Polly

多语言支持
多种声音选择
语速调节

MiniMax

中文优化
语音克隆功能
多语言支持
语速调节

实战演习

在线教育：教师可以将教学内容转换为语音，制作成音频资料供学生学习，方便学生在不同场景下复习。
内容创作：视频制作者可以用它快速生成旁白，节省录制时间，提高创作效率。
语言学习：学习者可以利用它听不同语言的发音，对比学习，提升语言听力和口语能力。
有声读物制作：将文字书籍转换为有声读物，方便用户在开车、运动等场景下收听。
企业培训：企业可以将培训资料转换为语音，方便员工随时随地学习，提高培训效果。
个性化服务：用户可以克隆自己的声音，用于制作个性化的语音消息或语音助手，增加互动性和趣味性。

更多...

小众AI