1. 데이터

음성 추출 -> 문장 별 자르기 -> 텍스트 <-> 음성 맞추기 싱크


뉴스 + Youtube + 오디오북에서 데이터를 모음.


2. 모델

  TF - Tacotron(Google), Deep Voice 2(Baidu Research)


Tacotron



음성 합성 모델의 핵심

  - 학습하지 않았던 문장도 얼마나 잘 말할 수 있는가?

Attention - 집중하고자 하는 것에만 집중.


Deep Voice 2

  - Tacotron을 Multi-Speaker 모델로 N명의 목소리를 하나의 모델로.

  - GPU 메모리의 사용량을 줄일수 있다.

  - Speaker Embedding - 이 발화자는 여기서 이렇게 말할거니깐 다르게 계산.


Multi-Speaker 모델을 사용한 이유

  - Speaker의 데이터가 적을때 Multi-Speaker의 데이터를 이용하여 Loss를 줄이고 Attention을 잘하게함.

  - 완벽한 데이터가 완벽하지 않은 데이터의 학습을 도와준다.


3. 결과

  - 오디오북

  - 데모사이트(https://carpedm20.github.io/tacotron/)

  - Github(https://github.com/GSByeon/multi-speaker-tacotron-tensorflow)


데브시스터즈(http://www.devsisters.com/)의 개발자 김태훈님의 스피치

주제가 흥미롭고 데모와 발표가 좋았음. 특히 데이터의 첫부분에서 Raw 데이터를 노가다로 잘라서 만드는 부분이 대단.


출처

https://deview.kr/2017/schedule/182

https://www.slideshare.net/carpedm20/deview-2017-80824162

'Machine Learning' 카테고리의 다른 글

헬스케어 챗봇 HealDa  (0) 2018.01.26
딥러닝 면접 질문 리스트  (0) 2018.01.17
금융의 역사를 통해 본 딥러닝의 함정  (0) 2018.01.17
지도 vs 비지도 학습  (0) 2018.01.17
Major tasks in data preprocessing  (0) 2018.01.10
Posted by 커다란꼬꼬마

블로그 이미지
커다란꼬꼬마

공지사항

Yesterday
Today
Total

달력

 « |  » 2024.5
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

최근에 올라온 글

최근에 달린 댓글

글 보관함