“`html
F5 TTS: 로컬 설치 및 사용 가이드
소개
F5 TTS는 완전히 비자동 회귀 텍스트 음성 변환 시스템으로, 확산 변환기와 흐름 일치를 기반으로 합니다. 이 모델은 복잡한 지속 시간 모델, 텍스트 인코더, 음소 정렬과 같은 설계 없이 작동합니다. 텍스트 입력은 발화된 음성과 동일한 길이로 채워지고, E2 TTS에서 원래 수행했던 것처럼 음성 생성을 위해 노이즈 제거가 수행됩니다.
설치
가상 환경 설정
conda create -n ai
conda activate ai
F5 TTS 저장소 복제
git clone https://github.com/fastnlp/F5-TTS
cd F5-TTS
필수 사항 설치
pip install -r requirements.txt
사용
F5 TTS 모델 다운로드
Hugging Face에서 F5 TTS 모델을 다운로드합니다.
추론
python test_infer_single.py \
--model_path F5-TTS-base/ckpt \
--reference_audio path/to/reference_audio.wav \
--reference_text "Your reference text here" \
--output_path path/to/output_audio.wav
예제
화려한 어조 생성
--reference_text "Once upon a time, in a faraway land, there lived a beautiful princess..."
진지한 어조 생성
--reference_text "I am not amused. This is not a joke."
장점
- 비자동 회귀 방식으로 빠른 추론
- 흐름 일치를 기반으로 한 높은 음질
- 가볍고 CPU에서도 실행 가능
결론
F5 TTS는 음성 생성에 대한 혁신적인 접근 방식을 제공하는 강력한 모델입니다. 로컬 설치 및 사용은 간단하며, 다양한 응용 프로그램에 활용할 수 있습니다.
“`