Deview 2017 책 읽어주는 딥러닝

2018. 1. 10. 04:28 Machine Learning

1. 데이터

음성 추출 -> 문장 별 자르기 -> 텍스트 <-> 음성 맞추기 싱크

뉴스 + Youtube + 오디오북에서 데이터를 모음.

2. 모델

TF - Tacotron(Google), Deep Voice 2(Baidu Research)

Tacotron

음성 합성 모델의 핵심

- 학습하지 않았던 문장도 얼마나 잘 말할 수 있는가?

Attention - 집중하고자 하는 것에만 집중.

Deep Voice 2

- Tacotron을 Multi-Speaker 모델로 N명의 목소리를 하나의 모델로.

- GPU 메모리의 사용량을 줄일수 있다.

- Speaker Embedding - 이 발화자는 여기서 이렇게 말할거니깐 다르게 계산.

Multi-Speaker 모델을 사용한 이유

- Speaker의 데이터가 적을때 Multi-Speaker의 데이터를 이용하여 Loss를 줄이고 Attention을 잘하게함.

- 완벽한 데이터가 완벽하지 않은 데이터의 학습을 도와준다.

3. 결과

- 오디오북

- 데모사이트(https://carpedm20.github.io/tacotron/)

- Github(https://github.com/GSByeon/multi-speaker-tacotron-tensorflow)

데브시스터즈(http://www.devsisters.com/)의 개발자 김태훈님의 스피치

주제가 흥미롭고 데모와 발표가 좋았음. 특히 데이터의 첫부분에서 Raw 데이터를 노가다로 잘라서 만드는 부분이 대단.

출처

헬스케어 챗봇 HealDa (0)	2018.01.26
딥러닝 면접 질문 리스트 (0)	2018.01.17
금융의 역사를 통해 본 딥러닝의 함정 (0)	2018.01.17
지도 vs 비지도 학습 (0)	2018.01.17
Major tasks in data preprocessing (0)	2018.01.10

Posted by 커다란꼬꼬마

JK_korea