① 參考音(零樣本克隆)
上傳 5–10 秒清晰人聲,並輸入參考音對應文字(文章 §1.2)
② 合成文字
③ 控制參數
播放結果
架構說明
參考音 WAV
→
GPT-SoVITS
→
ONNX INT8
→
端側推理
此 PoC 在 homelab 以 Web API 驗證零樣本克隆流程;正式 App 可將量化 ONNX 模型打包進安裝包(文章 §2–3)。 GPT-SoVITS 未啟動時自動降級 Ellie 預設音色。