TTS 文字转语音:像真人在“表演”的配音

TTS × Qwen3‑TTS|49+ 高品质音色|中文方言 + 多语言|约 97ms 实时响应|每月免费 50 万字符|开源可本地

人类级节奏与情感 9 种中文方言 中英混读自然 开源 Apache 2.0
立即试听 常见问题

在线体验(TTS 文字转语音)

中文叙述(温柔女声)

今天的你,值得被温柔对待。把文字交给我,剩下的,用耳朵感受。

粤语(都市男声)

今晚同你讲个故事,慢慢嚟,慢慢听,好戏在后头。

四川话(悬疑低沉)

有些话,不适合大声说。你只要,仔细听。

中英混读(元气少女)

早安!Today is a good day,我们开始吧。

提示:先选择文本语言(Select Text Language / 选择文本语言),再输入文字、选择音色与方言,点击生成,可下载 MP3。

TTS 你能用来做什么

听书/读文章

夜间朗读更舒适,长文也不累。

短视频/广告配音

方言更本土,情感更带感,支持批量。

课程/演示朗读

清晰稳定,提升表达力。

导航/提醒播报

自然亲切,不再机械。

AI 陪伴/助理

像真人与你说话,实时响应。

无障碍阅读

为视障用户更友好。

一听就知道的“好听”(TTS 朗读示例)

选择不同音色与方言一键播放;满意即可下载保存 MP3/WAV。可按需调整语速/音量/音高。

TTS 方言与音色

中文方言:粤语、四川话、吴语(上海话)、闽南语、北京话、天津话、南京话、陕西话等。

小雅(甜美活泼) 长卿(成熟磁性) 若兮(古风温柔)

支持语速/音量/音高/比特率调节;严格尊重标点(逗号短停、句号长停、破折号拉长、省略号欲言又止)。

TTS 零门槛上手

Qwen Chat

生成回复后点击“朗读”,几秒出声。

手机朗读

微信长按文字→朗读;iPhone 辅助功能→朗读内容;Android 文本朗读输出(Google TTS)。

TTS 小白 3 步上手

1. 复制文本

选择你想朗读的文字。

2. 选音色/方言

如中文女声、粤语男声。

3. 播放并下载

满意后保存为 MP3/WAV。

TTS 开发者快速集成

实时 API: https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-conversation(每月免费 50 万字符)。文本建议分段(每段 <500 字符),并用标点控制节奏;指定 language/dialect 以提升混语与方言效果。

WebSocket: wss://dashscope-intl.aliyuncs.com/api-ws/v1/realtime?model=qwen3-tts-flash-realtime

音频参数: format='wav'sample_rate=22050bitrate='128k'presence_penalty=0.6 防重复。

import dashscope

dashscope.api_key = 'your_api_key'
response = dashscope.Audio.speech_synthesizer(
    model='qwen3-tts-flash-realtime',
    text='你好,这是 Qwen3-TTS 测试。',
    voice='中文女声',
    language='zh'
)
print(response.output_audio)

TTS 常见问题

API Key 无效或区域错误?

北京区使用 sk-,国际区使用 sk-intl-;在 https://dashscope.aliyuncs.com 选择对应区域生成与重置。

实时流式延迟高或连接中断?

使用 WebSocket 并添加重连;本地部署选 flash-realtime 版本。

声音不自然或重复?

长文本分段(每段 <500 字符);用标点控制节奏;选择匹配音色;可调 presence_penalty

自定义声音克隆?

官方暂不内置;可用开源 So-VITS-SVC/XTTS 训练后路由 Qwen3 输出实现克隆。

本地部署加载慢或内存不足?

pip install transformers torchfrom transformers import QwenTTSForConditionalGeneration;GPU 需 CUDA 11+;CPU 用 --device cpu;内存不足使用 FP8 量化。

免费额度与计费?

每月免费约 50 万字符;批量分批调用;也可切换开源本地完全免费。

多语言/方言卡顿或口音错乱?

明确 languagedialect;先用短句测试;英文+中文无缝更佳,俄语建议稍慢速。

音频格式不支持或质量低?

设置 format/sample_rate/bitrate;保存前检查文本无乱码。

工具集成报错?

更新 dashscope/qwen-tts;必要时加 torch.no_grad() 防内存泄漏。

Demo 加载慢或无声音?

刷新或使用隐身模式;必要时本地克隆 Hugging Face Space;检查设备权限。

TTS 对比与选择

自然度

多语自然度(WER)更低,中文/多语更稳定。

方言与多语

9 种中文方言 + 10 种语言,混语切换更自然。

开源与成本

开源可本地;云端每月免费约 50 万字符。

TTS 技术原理(科普简述)

架构

Transformer + MoE,统一多模态框架(文本理解、节奏建模、语音生成融合)。

流程

文本分词与编码 → MoE 预测节奏/情感 → 声学建模(多码本 VQ‑VAE → mel‑spectrogram)→ Vocoder(如 HiFi‑GAN)解码为音频(22kHz)。

关键

Adaptive Rhythm、RLHF 稳定性优化、CUDA Graph 加速,保障低延迟与高自然度。

TTS 价格与额度、合规与安全

价格与额度

每月约 50 万字符(≈400 分钟语音);可选低成本型号;本地开源可完全免费。

合规与安全

Apache 2.0 开源许可;可本地运行更安心;声音克隆需自有授权素材并遵守法律规范。

TTS 用户口碑与行动

真实摘录

“不再像机器读文字,而是像真人表演。”
“方言本土化是游戏改变者。”
“开源 + 免费额度大,用起来更安心。”

立即开始

试听精选音色 → 选择方言与情绪 → 一键下载 MP3/WAV。需要批量或模板?告诉我们你的场景。