2018. 1. 10. 04:28 Machine Learning
Deview 2017 책 읽어주는 딥러닝
1. 데이터
음성 추출 -> 문장 별 자르기 -> 텍스트 <-> 음성 맞추기 싱크
뉴스 + Youtube + 오디오북에서 데이터를 모음.
2. 모델
TF - Tacotron(Google), Deep Voice 2(Baidu Research)
Tacotron
음성 합성 모델의 핵심
- 학습하지 않았던 문장도 얼마나 잘 말할 수 있는가?
Attention - 집중하고자 하는 것에만 집중.
Deep Voice 2
- Tacotron을 Multi-Speaker 모델로 N명의 목소리를 하나의 모델로.
- GPU 메모리의 사용량을 줄일수 있다.
- Speaker Embedding - 이 발화자는 여기서 이렇게 말할거니깐 다르게 계산.
Multi-Speaker 모델을 사용한 이유
- Speaker의 데이터가 적을때 Multi-Speaker의 데이터를 이용하여 Loss를 줄이고 Attention을 잘하게함.
- 완벽한 데이터가 완벽하지 않은 데이터의 학습을 도와준다.
3. 결과
- 오디오북
- 데모사이트(https://carpedm20.github.io/tacotron/)
- Github(https://github.com/GSByeon/multi-speaker-tacotron-tensorflow)
데브시스터즈(http://www.devsisters.com/)의 개발자 김태훈님의 스피치
주제가 흥미롭고 데모와 발표가 좋았음. 특히 데이터의 첫부분에서 Raw 데이터를 노가다로 잘라서 만드는 부분이 대단.
출처
'Machine Learning' 카테고리의 다른 글
헬스케어 챗봇 HealDa (0) | 2018.01.26 |
---|---|
딥러닝 면접 질문 리스트 (0) | 2018.01.17 |
금융의 역사를 통해 본 딥러닝의 함정 (0) | 2018.01.17 |
지도 vs 비지도 학습 (0) | 2018.01.17 |
Major tasks in data preprocessing (0) | 2018.01.10 |