책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 인공지능
· ISBN : 9791143004390
· 쪽수 : 177쪽
· 출판일 : 2025-09-12
책 소개
목차
인간의 언어, 기계의 목소리
01 TTS 기술의 필요성과 의의
02 TTS 기술의 작동 원리
03 TTS 기술의 현재와 미래
04 연결되는 소리, 부드러운 흐름
05 개입되는 소리, 선택의 문제
06 흔들리는 소리, 경계의 선택
07 강해지는 소리, 복잡한 조건
08 운율이라는 시험대
09 속도라는 리듬, 인간과 AI의 차이
10 AI의 말, 우리가 다시 듣는 언어
저자소개
책속에서
그러나 2010년대 후반부터 등장한 딥 러닝 기반의 음성 합성 모델은 TTS의 세계를 크게 변화시켰다. 구글의 타코트론(Tacotron), 패스트스피치(FastSpeech), VITS (Variational Inference with adversarial learning for Text-to-Speech) 등은 대규모 음성 데이터를 학습해 문장의 높낮이, 길이, 감정 흐름 등을 파악하고 재현하는 능력을 갖추게 되었다. TTS는 이제 텍스트를 읽는 것을 넘어 문맥, 문장 유형, 감정적 색채를 고려해 어떻게 말할 것인가를 표현하는 기술로 진화했다.
-01_“TTS 기술의 필요성과 의의” 중에서
콘텐츠 제작 측면에서는 효율성과 확장성이 TTS의 가장 큰 장점이다. 전문 성우를 섭외하고 녹음실에서 제작하던 기존 방식 대신, TTS는 빠르게 수정 가능하고, 다양한 톤을 실험할 수 있으며, 소규모 예산으로도 고퀄리티 결과를 낼 수 있는 제작 방식을 가능하게 한다. 이는 유튜브, 광고, 기업 교육 영상, 오디오 광고, 소셜 미디어 쇼츠 등 단기·다량 제작이 필요한 환경에서 특히 강점을 발휘한다. 최근에는 실시간 스트리밍 중 채팅 내용을 TTS로 읽어 주는 기능을 도입한 방송인들도 늘고 있다.
-03_“TTS 기술의 현재와 미래” 중에서
같은 시스템(GT) 안에서도 문장 맥락에 따라 [결단녁]과 [결달력]이 혼용되는 양상이 나타났다. 이는 TTS 시스템이 발음 결정에서 의미 흐름이나 문장 구조를 충분히 고려하지 못하고 있음을 보여 준다.
외래어의 경우 이 문제는 더욱 두드러진다. ‘치킨라이스’는 [치킬라이스]와 [치킨나이스]라는 두 발음이 공존할 수 있는 구조인데, 실험 결과 NP는 [치킬라이스], GT는 [치킨나이스]를 출력했다. 이는 TTS가 외래어 내의 형태소 경계를 인식하지 못하고, 단어 전체를 고정된 음성 블록처럼 처리하는 방식을 따르고 있음을 나타낸다.
‘온라인’의 경우도 마찬가지다. 이 단어는 영어의 ‘on’과 ‘line’이라는 복합어 기반 조어이지만, NP는 [올라인], GT는 [온나인]으로 출력했다. 이는 /ㄴㄹ/ 연쇄에 대한 처리 방식이 시스템 간은 물론, 시스템 내부에서도 맥락·위치·습관 인식 없이 결정되고 있다는 명백한 증거다.
-06_“흔들리는 소리, 경계의 선택” 중에서



















