Voice-Clone-Router

Paused

@@ -2,6 +2,8 @@
 # Currently just use current TTS router.
 import os
 import json
 from dotenv import load_dotenv
 import fal_client
 import requests
@@ -232,35 +234,41 @@ def predict_spark_tts(text, reference_audio_path=None):
 def predict_cosyvoice_tts(text, reference_audio_path=None):
-    from gradio_client import Client, file, handle_file
-    client = Client("https://iic-cosyvoice2-0-5b.ms.show/")
     if not reference_audio_path:
         raise ValueError("cosyvoice-2.0 需要 reference_audio_path")
-    prompt_wav = handle_file(reference_audio_path)
-    # 先识别参考音频文本
-    recog_result = client.predict(
-        prompt_wav=file(reference_audio_path),
-        api_name="/prompt_wav_recognition"
-    )
-    print("cosyvoice-2.0 prompt_wav_recognition result:", recog_result)
-    prompt_text = recog_result if isinstance(recog_result, str) else str(recog_result)
-    result = client.predict(
-        tts_text=text,
-        mode_checkbox_group="3s极速复刻",
-        prompt_text=prompt_text,
-        prompt_wav_upload=prompt_wav,
-        prompt_wav_record=prompt_wav,
-        instruct_text="",
-        seed=0,
-        api_name="/generate_audio"
-    )
-    print("cosyvoice-2.0 result:", result)
-    return result
 def predict_maskgct(text, reference_audio_path=None):
     from gradio_client import Client, handle_file
-    client = Client("amphion/maskgct")
     if not reference_audio_path:
         raise ValueError("maskgct 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)

 # Currently just use current TTS router.
 import os
 import json
+import sys
 from dotenv import load_dotenv
 import fal_client
 import requests
 def predict_cosyvoice_tts(text, reference_audio_path=None):
+    import tempfile
+    import soundfile as sf
+    from modelscope import snapshot_download
+    model_dir = os.path.join(os.path.dirname(__file__), "CosyVoice2-0.5B", "pretrained_models", "CosyVoice2-0.5B")
+    if not os.path.exists(model_dir) or not os.listdir(model_dir):
+        snapshot_download('iic/CosyVoice2-0.5B', local_dir=model_dir)
+    sys.path.append(os.path.join(os.path.dirname(__file__), "CosyVoice2-0.5B"))
+    from cosyvoice.cli.cosyvoice import CosyVoice2
+    from cosyvoice.utils.file_utils import load_wav
+    # 全局模型初始化
+    global _cosyvoice_model
+    if '_cosyvoice_model' not in globals() or _cosyvoice_model is None:
+        _cosyvoice_model = CosyVoice2(model_dir)
+    model = _cosyvoice_model
     if not reference_audio_path:
         raise ValueError("cosyvoice-2.0 需要 reference_audio_path")
+    # 读取参考音频
+    prompt_speech_16k = load_wav(reference_audio_path, 16000)
+    # 参考文本可选，这里不做ASR，直接传空字符串
+    prompt_text = ""
+    # 推理
+    result = None
+    for i in model.inference_zero_shot(text, prompt_text, prompt_speech_16k):
+        result = i['tts_speech'].numpy().flatten()
+    # 保存为临时wav
+    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+    sf.write(temp_file.name, result, 24000)
+    return temp_file.name
 def predict_maskgct(text, reference_audio_path=None):
     from gradio_client import Client, handle_file
+    client = Client("cocktailpeanut/maskgct")
     if not reference_audio_path:
         raise ValueError("maskgct 需要 reference_audio_path")
     prompt_wav = handle_file(reference_audio_path)