파이썬으로 배우는 음성인식

책 이미지

eBook 미리보기

책 정보

· 제목 : 파이썬으로 배우는 음성인식 (음성인식의 기술 발전 동향부터 파이토치를 활용한 딥러닝 실습까지)
· 분류 : 국내도서 > 컴퓨터/모바일 > 프로그래밍 언어 > 파이썬
· ISBN : 9791165921828
· 쪽수 : 336쪽
· 출판일 : 2023-01-09

책 소개

지금까지의 음성인식 기술의 역사와 기술 발전 동향을 이해하고, 파이썬과 파이토치를 통해 최신 음성인식 시스템을 실습한다. 음성인식의 목적이나 알고리즘의 개요를 설명하고, 소스 코드를 상세하게 분석하고, 마지막으로 소스 코드를 첨부하여 독자들이 직접 구현할 수 있도록 한다.

제 1 장 음성인식이란?
제1절 음성인식은 무엇이며, 어디에 사용되는가?
제2절 음성을 인식한다는 것은? - 음성인식 원리-
제3절 이 책의 목적과 구성

제 2 장 음성인식 기초 지식
제1절 음성인식과 확률
제2절 음성인식 문제를 수식으로 정의하기
제3절 텍스트 종류와 발음 사전 - 음소ㆍ히라가나ㆍ문자ㆍ단어 –
제4절 음성인식 실험 두 가지
제5절 음성인식 실험 프로세스

제 3 장 음성 처리 기초와 특징 추출
제1절 데이터 준비하기
제2절 음성 파일 읽어보기
제3절 푸리에 변환으로 음성을 주파수 분해하기
제4절 음성을 단시간 푸리에 변환하여 스펙트럼 생성하기
제5절 로그 Mel Filter Bank 특징
제6절 Mel 주파수 켑스트럼 특징
제7절 특징의 평균과 표준편차 계산해보기

제 4 장 음성인식 첫걸음 DP Matching
제1절 음성인식에서 떼어놓을 수 없는 정렬(얼라인먼트) 문제
제2절 DP Matching
제3절 DP Matching 구현해보기

제 5 장 GMM – HMM 기반 음성인식
제1절 템플릿이 아닌, 분포와 빈도 관점
제2절 정규분포와 최빈 추정법을 활용한 매개변수 추정
제3절 혼합 정규분포(GMM)와 EM 알고리즘
제4절 은닉 마코프 모델(HMM)
제5절 GMM - HMM 구현하기

제 6 장 DNN-HMM 기반 음성인식
제1절 ‘분포’에서 ‘Deep Neural Network’로
제2절 Deep Neural Network
제3절 DNN과 HMM을 조합한 DNN - HMM 하이브리드 시스템
제4절 DNN - HMM을 파이썬과 파이토치로 구현해보기
제5절 HMM 기반 대어휘 연속 음성인식

제 7 장 End–to–End 모델 기반 연속 음성인식
제1절 하이브리드 시스템에서 Full Neural Network Model로
제2절 순환 신경망(Recurrent Neural Network)
제3절 Connectionist temporal classification(CTC)
제4절 CTC를 파이썬과 파이토치로 구현해보기
제5절 Attention encoder-decoder 모델
제6절 Attention 모델을 파이썬과 파이토치로 구현해보기
제7절 기타 기법과 음성인식 모델
제8절 참고 문헌

저자소개

다카시마 료이치 (지은이) 정보 더보기

2013년 고베 대학 대학원 시스템 정보학 연구과 박사 후기 과정 수료(공학박사) 2011년 4월~2013년 3월 일본 학술 진흥회 특별 연구원 [DC2]. 2013년 4월에 ㈜히타치 제작소 연 구개발 그룹에 입사하여 장비 이상 검사와 음성인식을 위한 잡음 제거 등, 음성 및 음향 신호 처 리에 관한 연구 개발에 종사했다. 2016년 10월부터 2018년 9월까지 국립 연구 개발 법인 정보 통 신 연구 기구에 전출하여 음성인식에 관한 연구 개발에 종사했다. 2019년 4월부터 고베 대학 도 시안전 연구 센터 겸 동 대학원 시스템 정보학 연구과 준교수로 부임했고, 현재는 음성인식 기반 의 음성 처리, 기계 학습 기술과 복지 분야 응용 관련 연구에 종사하고 있다.

펼치기

다카시마 료이치의 다른 책 >

정권우 (지은이) 정보 더보기

카네기멜론 대학교 응용수학과 학부를 졸업했다. 5살부터 유초중고 시절을 일본 도쿄에서 보내 고, 대학교를 미국으로 진학한 덕분에 한국어, 일본어, 영어에 능통하다. 대학 시절에는 금융 수학을 전공하여, UBS Seoul, JP Morgan Tokyo 지사에서 사회생활을 시작했다. 대학교 2학년 때 처음으로 프로그래밍을 접하면서 관심을 갖게 되어, 휴학 후 한국에서의 병역특례 군복무 시절 머신러닝을 독학하고, 캐글 경진대회에 출전한 이력이 있다. 모바일 콘텐츠 플랫폼 카카오페이지를 운영하는 다음카카오의 자회사 포도트리를 거쳐 P2P 투자 기업 8퍼센트의 챗봇을 개발한 데이터나다에서 머신러닝 엔지니어로 근무한 경력이 있으며, 현재는 네이버 파파고 팀에서 딥러닝을 통해 더 나은 번역기를 개발하고 있다. 텍스트 번역으로 시작한 기계번역은 어느덧 사진을 번역해주는 이미지 번역으로 발전한 것처럼, 앞으로 궁극적으로는 음성을 바로 번역하는 것으로 발전할 것이라 생각한다. 음성인식을 공부하는 과정에서 이 책을 만나고, 직접 번역하게 된 것을 영광으로 생각한다.

펼치기

정권우의 다른 책 >