머리말
안녕하세요. 오늘은 OpenAI의 Realtime API를 사용하여 보다 사실적이고 자연스러운 대화가 가능한 음성 AI 에이전트를 만드는 방법을 알아보겠습니다. 이뿐만 아니라 고객 이력 관리, 스트리밍 기능과 같은 기능도 통합하여 빠른 대응과 여러 위치에서의 약속 관리가 가능합니다.
트리거 문제
최근 영상이 19,000회 이상 조회되면서 다양한 고객과 전화 통화를 하게 되었습니다. 그러나 대부분의 고객은 시간 지연에 대해 우려를 표명했고, 음성 에이전트가 더 자연스럽고 사실적으로 들리기를 원했습니다. 또한 복잡한 일정 약속을 여러 위치에서 처리할 수 있는 에이전트를 원했습니다.
솔루션 개요
오늘 소개할 솔루션은 이러한 모든 우려 사항을 해결합니다. 이를 위해 TroReplit, N1 및 OpenAI Realtime API를 사용하는 다이어그램을 준비했습니다.
구조 설명
- 인바운드 전화: Twilio로 들어오는 전화가 인바운드 콜 엔드포인트로 전달됩니다.
- 인바운드 콜 엔드포인트: 두 가지 작업을 수행합니다. Google 시트에서 채팅 기록을 가져오고, Tulio에 미디어 스트림을 위한 엔드포인트를 알립니다.
- 미디어 스트림 엔드포인트: OpenAI 통합, Pine Cone 통합, N1 웹 후크를 처리하는 핵심 코드입니다.
- Pine Cone Assistant: 회사 세부 정보를 담은 지식 베이스를 제공합니다.
- N1 웹 후크: 채팅 기록, 전화 요약, 약속 예약 도구와 관련된 세 가지 기능을 담당합니다.
코드 구조
브라이언에서 구축된 코드 구조는 다음과 같습니다.
- Incoming Call: 구성 및 기본 메시지 설정
- Media Stream: 질문과 대답, 약속 예약 기능 처리
- Schedule Meeting: 약속 예약 파라미터 수집 및 N1 웹 후크를 통한 통신
데모
테스트 콜을 통해 음성 AI 에이전트의 작동 방식을 확인할 수 있습니다. 사용자의 질문에 답하고, 약속을 예약할 수 있고, 복잡한 일정을 처리할 수 있는 것도 확인할 수 있습니다.
요약
OpenAI Realtime API, Pine Cone Assistant, N1 웹 후크를 통합하여 사실적이고 자연스럽고 효율적인 음성 AI 에이전트를 구축했습니다. 이 솔루션은 고객 서비스, 약속 예약, 기타 다양한 애플리케이션에 활용할 수 있습니다.
취약점 및 한계
현재 시스템의 취약점으로는 다음이 있습니다.
- 기술적 복잡성: 통합 구성 및 유지 관리에 기술적 노력이 필요합니다.
- 데이터 저장 및 보안: 개인 데이터(예: 이메일, 전화 번호)가 시스템에서 수집되고 저장되며, 적절한 데이터 보호 조치가 필요합니다.
결론
오늘 알아본 내용이 음성 AI 에이전트 개발에 도움이 되기를 바랍니다. 지속적인 학습과 탐구를 통해 더욱 혁신적이고 효율적인 솔루션을 구축할 수 있습니다.