Hugging Face Parl TTS로 로컬에서 AI 음성 생성
이 튜토리얼에서는 Hugging Face의 Parl TTS(Text to Speech)를 사용하여 클라우드 없이 로컬 머신에서 AI 음성 모델을 실행하는 세 가지 단계를 소개합니다.
1단계: Python 설치 및 가상 환경 생성
- Python 설치
- 명령줄에서 다음을 실행하여 가상 환경 생성:
python -m venv venv
- 가상 환경 활성화:
venv\Scripts\activate
(Windows) 또는source venv/bin/activate
(MacOS/Linux)
2단계: Parl TTS 설치
- 가상 환경 내에서 다음 명령어 실행:
pip install parltts
- 설치 확인:
pip list
3단계: Python 스크립트를 사용한 음성 출력 생성
- Parl TTS의 GitHub 저장소에서 샘플 스크립트 복사
- 샘플 스크립트를 로컬 파일로 저장(예:
random_voice.py
,speaker.py
) - 스크립트에서 출력 파일에 대한 경로와 기타 매개변수 수정
- 스크립트 실행(예:
python random_voice.py
)
Parl TTS의 고유한 특징
- 텍스트 프롬프트를 사용하여 음성 스타일 지정
- 34명의 스피커를 기반으로 모델을 미세 조정 가능
- 전체적으로 오픈 소스
언어 사용 샘플
랜덤 음성 ```python from parltts.utils.text_to_speech import TextToSpeech # 텍스트 프롬프트 text = "어서 오십시오. 문제가 발생하면 언제든지 저에게 알려주십시오." # TextToSpeech 객체 만들기 tts = TextToSpeech() # 랜덤 음성 생성 audio = tts.synthesize(text) # 파일에 저장 audio.save("random_voice.wav") ```
특정 스피커 ```python from parltts.utils.text_to_speech import TextToSpeech # 텍스트 프롬프트 text = "어서 오십시오. 문제가 발생하면 언제든지 저에게 알려주십시오." # TextToSpeech 객체 만들기 tts = TextToSpeech() # 특정 스피커 설정 speaker = "John" # 특정 스피커 음성 생성 audio = tts.synthesize(text, speaker=speaker) # 파일에 저장 audio.save("specific_voice.wav") ```
맺음말
Hugging Face의 Parl TTS를 사용하면 강력한 AI 음성 모델을 로컬에서 사용하여 고품질 음성 합성을 생성할 수 있습니다. 이 튜토리얼에서는 간단한 단계를 통해 설치 및 사용하는 방법을 안내했습니다. 문의 사항이나 피드백이 있으시면 언제든지 주저하지 말고 알려주세요.