Hugging Face Parl TTS: 로컬에서 AI 음성 생성하기

Published on 10/15/2024 in AI 음성 합성, Hugging Face, Parl TTS, 텍스트 음성 변환 by Editor

Hugging Face Parl TTS로 로컬에서 AI 음성 생성

이 튜토리얼에서는 Hugging Face의 Parl TTS(Text to Speech)를 사용하여 클라우드 없이 로컬 머신에서 AI 음성 모델을 실행하는 세 가지 단계를 소개합니다.

1단계: Python 설치 및 가상 환경 생성

Python 설치
명령줄에서 다음을 실행하여 가상 환경 생성: python -m venv venv
가상 환경 활성화: venv\Scripts\activate(Windows) 또는 source venv/bin/activate(MacOS/Linux)

2단계: Parl TTS 설치

가상 환경 내에서 다음 명령어 실행: pip install parltts
설치 확인: pip list

3단계: Python 스크립트를 사용한 음성 출력 생성

Parl TTS의 GitHub 저장소에서 샘플 스크립트 복사
샘플 스크립트를 로컬 파일로 저장(예: random_voice.py, speaker.py)
스크립트에서 출력 파일에 대한 경로와 기타 매개변수 수정
스크립트 실행(예: python random_voice.py)

Parl TTS의 고유한 특징

텍스트 프롬프트를 사용하여 음성 스타일 지정
34명의 스피커를 기반으로 모델을 미세 조정 가능
전체적으로 오픈 소스

언어 사용 샘플

랜덤 음성
```python
from parltts.utils.text_to_speech import TextToSpeech

# 텍스트 프롬프트
text = "어서 오십시오. 문제가 발생하면 언제든지 저에게 알려주십시오."

# TextToSpeech 객체 만들기
tts = TextToSpeech()

# 랜덤 음성 생성
audio = tts.synthesize(text)

# 파일에 저장
audio.save("random_voice.wav")
```

특정 스피커
```python
from parltts.utils.text_to_speech import TextToSpeech

# 텍스트 프롬프트
text = "어서 오십시오. 문제가 발생하면 언제든지 저에게 알려주십시오."

# TextToSpeech 객체 만들기
tts = TextToSpeech()

# 특정 스피커 설정
speaker = "John"

# 특정 스피커 음성 생성
audio = tts.synthesize(text, speaker=speaker)

# 파일에 저장
audio.save("specific_voice.wav")
```

맺음말

Hugging Face의 Parl TTS를 사용하면 강력한 AI 음성 모델을 로컬에서 사용하여 고품질 음성 합성을 생성할 수 있습니다. 이 튜토리얼에서는 간단한 단계를 통해 설치 및 사용하는 방법을 안내했습니다. 문의 사항이나 피드백이 있으시면 언제든지 주저하지 말고 알려주세요.