在线体验(TTS 文字转语音)
今天的你,值得被温柔对待。把文字交给我,剩下的,用耳朵感受。
今晚同你讲个故事,慢慢嚟,慢慢听,好戏在后头。
有些话,不适合大声说。你只要,仔细听。
早安!Today is a good day,我们开始吧。
提示:先选择文本语言(Select Text Language / 选择文本语言),再输入文字、选择音色与方言,点击生成,可下载 MP3。
TTS 你能用来做什么
听书/读文章
夜间朗读更舒适,长文也不累。
短视频/广告配音
方言更本土,情感更带感,支持批量。
课程/演示朗读
清晰稳定,提升表达力。
导航/提醒播报
自然亲切,不再机械。
AI 陪伴/助理
像真人与你说话,实时响应。
无障碍阅读
为视障用户更友好。
一听就知道的“好听”(TTS 朗读示例)
选择不同音色与方言一键播放;满意即可下载保存 MP3/WAV。可按需调整语速/音量/音高。
TTS 方言与音色
中文方言:粤语、四川话、吴语(上海话)、闽南语、北京话、天津话、南京话、陕西话等。
支持语速/音量/音高/比特率调节;严格尊重标点(逗号短停、句号长停、破折号拉长、省略号欲言又止)。
TTS 零门槛上手
Qwen Chat
生成回复后点击“朗读”,几秒出声。
手机朗读
微信长按文字→朗读;iPhone 辅助功能→朗读内容;Android 文本朗读输出(Google TTS)。
TTS 小白 3 步上手
1. 复制文本
选择你想朗读的文字。
2. 选音色/方言
如中文女声、粤语男声。
3. 播放并下载
满意后保存为 MP3/WAV。
TTS 开发者快速集成
实时 API:
https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-conversation(每月免费 50
万字符)。文本建议分段(每段 <500 字符),并用标点控制节奏;指定 language/dialect 以提升混语与方言效果。
WebSocket:
wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime?model=qwen3-tts-flash-realtime
音频参数:
format='wav',sample_rate=22050,bitrate='128k';presence_penalty=0.6
防重复。
import dashscope
dashscope.api_key = 'your_api_key'
response = dashscope.Audio.speech_synthesizer(
model='qwen3-tts-flash-realtime',
text='你好,这是 Qwen3-TTS 测试。',
voice='中文女声',
language='zh'
)
print(response.output_audio)
TTS 常见问题
API Key 无效或区域错误?
北京区使用 sk-,国际区使用 sk-intl-;在 https://dashscope.aliyuncs.com 选择对应区域生成与重置。
实时流式延迟高或连接中断?
使用 WebSocket 并添加重连;本地部署选 flash-realtime 版本。
声音不自然或重复?
长文本分段(每段 <500 字符);用标点控制节奏;选择匹配音色;可调 presence_penalty。
自定义声音克隆?
官方暂不内置;可用开源 So-VITS-SVC/XTTS 训练后路由 Qwen3 输出实现克隆。
本地部署加载慢或内存不足?
pip install transformers torch,from transformers import QwenTTSForConditionalGeneration;GPU
需 CUDA 11+;CPU 用 --device cpu;内存不足使用 FP8 量化。
免费额度与计费?
每月免费约 50 万字符;批量分批调用;也可切换开源本地完全免费。
多语言/方言卡顿或口音错乱?
明确 language 与 dialect;先用短句测试;英文+中文无缝更佳,俄语建议稍慢速。
音频格式不支持或质量低?
设置 format/sample_rate/bitrate;保存前检查文本无乱码。
工具集成报错?
更新 dashscope/qwen-tts;必要时加 torch.no_grad() 防内存泄漏。
Demo 加载慢或无声音?
刷新或使用隐身模式;必要时本地克隆 Hugging Face Space;检查设备权限。
TTS 对比与选择
自然度
多语自然度(WER)更低,中文/多语更稳定。
方言与多语
9 种中文方言 + 10 种语言,混语切换更自然。
开源与成本
开源可本地;云端每月免费约 50 万字符。
TTS 技术原理(科普简述)
架构
Transformer + MoE,统一多模态框架(文本理解、节奏建模、语音生成融合)。
流程
文本分词与编码 → MoE 预测节奏/情感 → 声学建模(多码本 VQ‑VAE → mel‑spectrogram)→ Vocoder(如 HiFi‑GAN)解码为音频(22kHz)。
关键
Adaptive Rhythm、RLHF 稳定性优化、CUDA Graph 加速,保障低延迟与高自然度。
TTS 价格与额度、合规与安全
价格与额度
每月约 50 万字符(≈400 分钟语音);可选低成本型号;本地开源可完全免费。
合规与安全
Apache 2.0 开源许可;可本地运行更安心;声音克隆需自有授权素材并遵守法律规范。