안녕하세요! 오늘은 E2 F5 TTS를 사용하여 누구나 목소리를 클로닝하고 텍스트를 음성으로 합성하는 방법에 대해 알아보겠습니다.
목소리 클로닝
E2 F5는 추가적인 훈련이 필요하지 않은 제로 샷 텍스트 음성 합성 도구입니다. 누군가가 말하는 5~15초 분량의 녹음만 있으면 그 목소리를 클로닝하여 텍스트를 원하는 목소리로 발성할 수 있습니다.
목소리 클로닝 절차:
- 목소리를 클로닝할 대화 또는 녹음을 다운로드합니다.
- Audacity와 같은 도구를 사용하여 녹음에서 10~15초 분량의 목소리 클립을 추출합니다.
- E2 F5 TTS를 설치하고 실행합니다.
- 클로닝할 목소리 클립을 “참조 오디오” 필드에 로드합니다.
텍스트 음성 합성
목소리를 클로닝한 후에는 텍스트를 음성으로 합성할 수 있습니다.
- 클로닝한 목소리 파일을 로드합니다.
- 생성할 텍스트를 “참조 텍스트” 필드에 입력합니다.
- “합성” 버튼을 클릭하여 음성을 생성합니다.
특징
다양한 감정 생성: E2 F5 TTS는 서로 다른 감정(슬픔, 기쁨, 화남 등)을 가진 목소리를 생성할 수 있습니다.
포드캐스트 생성: 두 사람 간의 대화 또는 포드캐스트 스크립트를 작성하여 포드캐스트 오디오를 생성할 수 있습니다.
립싱크 생성: FaceFusion 3를 사용하여 생성된 오디오와 동기화된 립싱크 비디오를 제작할 수 있습니다.
주의 사항:
- 최적의 결과를 얻으려면 깨끗하고 선명한 입력 오디오 클립을 사용합니다.
- 씨드를 변경하여 다양한 음성 결과를 생성할 수 있습니다.
- 일부 언어는 아직 지원되지 않습니다.
- 생성된 음성은 상업적으로 사용할 수 없습니다.
결론
E2 F5 TTS는 누구나 목소리를 클로닝하고 텍스트를 음성으로 합성할 수 있는 강력한 오픈소스 AI 도구입니다. 창의적인 프로젝트, 개인적인 사용, 교육이나 연구 목적으로 사용할 수 있습니다.