구글 Text to Speech API
구글의 **Text to Speech API** (TTS: 텍스트 음성 변환)는 텍스트를 사람처럼 읽어주는 음성 합성 API로 Google AI 기술을 기반으로 글자를 음성(Text -> Speech)으로 변환하는 서비스이다. ## 1. 기본 개념 구글의 Text-to-Speech는 텍스트 또는 음성 합성 마크업 언어(SSML) 입력을 MP3 또는 LINEAR16(WAV 파일에서 사용되는 인코딩)과 같은 오디오 데이터로 변환하며, WaveNet이라는 고급 딥러닝 모델을 기반으로 동작하기 때문에 일반적인 TTS보다 자연스럽고 사람같은 발음을 제공한다. 변환 된 오디오 데이터 파일은 애플리케이션 성능을 강화하거나 동영상 또는 오디오 녹음과 같은 미디어를 보강하는 데 사용할 수 있다. #### 1) Text-to-Speech 음성변환 과정 + 텍스트를 입력 + 언어, 음성스타일, 성별, 속도 설정 + Text-to-Speech API 호출 + 자연스러운 음성으로 변환 ## 2. 주요 기능 + 다양한 언어/음성: 50개 이상 언어와 200개 이상의 음성(남/여, 억양) 지원 + WaveNet 음성: Google DeepMind의 WaveNet 기반 고품질 음성 + SSML 지원: SSML(Speech Synthesis Markup Language)로 억양, 멈춤, 강세 조절 가능 + 속도/피치 조절: 말하는 속도(speed), 음의 높이(pitch) 조절 가능 + 다양한 출력 포맷: MP3, LINEAR16 (WAV), OGG 등 선택 가능 + 클라우드 API: REST API 또는 gRPC로 호출 가능 + 인증 기반: Google Cloud 서비스 계정을 통한 인증 필요 ## 3. 기본적인 API 사용 과정 + Google Cloud 프로젝트 생성 + Text-to-Speech API 활성화 + 서비스 계정 키 생성(JSON) + 코드 또는 REST 호출을 통해 API 요청 #### 1) 명령줄을 사용한 오디오 변환 + [명령줄을 사용한 오디오 변환 구글문서 바로가기](https://cloud.google.com/text-to-speech/docs/create-audio-text-command-line?hl=ko) + Json 예제 ```json { "input": { "text": "Android is a mobile operating system developed by Google" }, "voice": { "languageCode": "en-gb", "name": "en-GB-Standard-A", "ssmlGender": "FEMALE" }, "audioConfig": { "audioEncoding": "MP3" } } ``` → 응답으로는 base64 인코딩된 오디오 파일이 오고, 디코딩해서 저장하면 된다. ## 4. 활용 예시 + 챗봇/가상 비서 음성 출력 + 전자책 읽어주기 + 내비게이션 안내 음성 + 시각장애인 접근성 서비스 + 자동 전화 응답 시스템 (IVR) --- ## + 참고 + [구글 클라우드 TTS 공식문서 바로가기](https://cloud.google.com/text-to-speech/docs/basics) + [구글 클라우드 TTS 적용 데모사이트 바로가기](https://ondago365.web.app/play/text-to-speech.html) + [설명 문서 자세히보기](https://onda2me.github.io/google/google-api-tts/)