Hugging Face Parl TTS: 로컬에서 AI 음성 생성하기


Hugging Face Parl TTS로 로컬에서 AI 음성 생성

이 튜토리얼에서는 Hugging Face의 Parl TTS(Text to Speech)를 사용하여 클라우드 없이 로컬 머신에서 AI 음성 모델을 실행하는 세 가지 단계를 소개합니다.

1단계: Python 설치 및 가상 환경 생성

  1. Python 설치
  2. 명령줄에서 다음을 실행하여 가상 환경 생성: python -m venv venv
  3. 가상 환경 활성화: venv\Scripts\activate(Windows) 또는 source venv/bin/activate(MacOS/Linux)

2단계: Parl TTS 설치

  1. 가상 환경 내에서 다음 명령어 실행: pip install parltts
  2. 설치 확인: pip list

3단계: Python 스크립트를 사용한 음성 출력 생성

  1. Parl TTS의 GitHub 저장소에서 샘플 스크립트 복사
  2. 샘플 스크립트를 로컬 파일로 저장(예: random_voice.py, speaker.py)
  3. 스크립트에서 출력 파일에 대한 경로와 기타 매개변수 수정
  4. 스크립트 실행(예: python random_voice.py)

Parl TTS의 고유한 특징

  • 텍스트 프롬프트를 사용하여 음성 스타일 지정
  • 34명의 스피커를 기반으로 모델을 미세 조정 가능
  • 전체적으로 오픈 소스
  • 언어 사용 샘플

    랜덤 음성
    ```python
    from parltts.utils.text_to_speech import TextToSpeech
    
    # 텍스트 프롬프트
    text = "어서 오십시오. 문제가 발생하면 언제든지 저에게 알려주십시오."
    
    # TextToSpeech 객체 만들기
    tts = TextToSpeech()
    
    # 랜덤 음성 생성
    audio = tts.synthesize(text)
    
    # 파일에 저장
    audio.save("random_voice.wav")
    ```
    
    특정 스피커
    ```python
    from parltts.utils.text_to_speech import TextToSpeech
    
    # 텍스트 프롬프트
    text = "어서 오십시오. 문제가 발생하면 언제든지 저에게 알려주십시오."
    
    # TextToSpeech 객체 만들기
    tts = TextToSpeech()
    
    # 특정 스피커 설정
    speaker = "John"
    
    # 특정 스피커 음성 생성
    audio = tts.synthesize(text, speaker=speaker)
    
    # 파일에 저장
    audio.save("specific_voice.wav")
    ```
    

    맺음말

    Hugging Face의 Parl TTS를 사용하면 강력한 AI 음성 모델을 로컬에서 사용하여 고품질 음성 합성을 생성할 수 있습니다. 이 튜토리얼에서는 간단한 단계를 통해 설치 및 사용하는 방법을 안내했습니다. 문의 사항이나 피드백이 있으시면 언제든지 주저하지 말고 알려주세요.


Leave a Reply

Your email address will not be published. Required fields are marked *