AI 語音播報 PoC

① 參考音（零樣本克隆）

上傳 5–10 秒清晰人聲，並輸入參考音對應文字（文章 §1.2）

參考音 WAV 參考文字

語速 1.0 啟用片語快取（文章 §3.3）句級串流播放（長文分段合成）

參考音 WAV

→

GPT-SoVITS

→

ONNX INT8

→

端側推理

此 PoC 在 homelab 以 Web API 驗證零樣本克隆流程；正式 App 可將量化 ONNX 模型打包進安裝包（文章 §2–3）。 GPT-SoVITS 未啟動時自動降級 Ellie 預設音色。