Major tasks in data preprocessing

1. Data cleaning

  - Fill in missing values 

  - smooth noisy data, identify of remove outliers

  - resolve inconsistenciies


2. Data integration

  - integration of multiple databases, data cubes, or files

  - Need to handle data redundancy (e.g. chi-square test, correlation analysis)


3. Data reduction

  - Dimensionality reduction

  - Numerosity reduction (Sampling)

  - Data compression


4. Data transformation

  - Normalization

  - Discretization or Binning

'Machine Learning' 카테고리의 다른 글

헬스케어 챗봇 HealDa  (0) 2018.01.26
딥러닝 면접 질문 리스트  (0) 2018.01.17
금융의 역사를 통해 본 딥러닝의 함정  (0) 2018.01.17
지도 vs 비지도 학습  (0) 2018.01.17
Deview 2017 책 읽어주는 딥러닝  (0) 2018.01.10
Posted by 커다란꼬꼬마

1. 데이터

음성 추출 -> 문장 별 자르기 -> 텍스트 <-> 음성 맞추기 싱크


뉴스 + Youtube + 오디오북에서 데이터를 모음.


2. 모델

  TF - Tacotron(Google), Deep Voice 2(Baidu Research)


Tacotron



음성 합성 모델의 핵심

  - 학습하지 않았던 문장도 얼마나 잘 말할 수 있는가?

Attention - 집중하고자 하는 것에만 집중.


Deep Voice 2

  - Tacotron을 Multi-Speaker 모델로 N명의 목소리를 하나의 모델로.

  - GPU 메모리의 사용량을 줄일수 있다.

  - Speaker Embedding - 이 발화자는 여기서 이렇게 말할거니깐 다르게 계산.


Multi-Speaker 모델을 사용한 이유

  - Speaker의 데이터가 적을때 Multi-Speaker의 데이터를 이용하여 Loss를 줄이고 Attention을 잘하게함.

  - 완벽한 데이터가 완벽하지 않은 데이터의 학습을 도와준다.


3. 결과

  - 오디오북

  - 데모사이트(https://carpedm20.github.io/tacotron/)

  - Github(https://github.com/GSByeon/multi-speaker-tacotron-tensorflow)


데브시스터즈(http://www.devsisters.com/)의 개발자 김태훈님의 스피치

주제가 흥미롭고 데모와 발표가 좋았음. 특히 데이터의 첫부분에서 Raw 데이터를 노가다로 잘라서 만드는 부분이 대단.


출처

https://deview.kr/2017/schedule/182

https://www.slideshare.net/carpedm20/deview-2017-80824162

'Machine Learning' 카테고리의 다른 글

헬스케어 챗봇 HealDa  (0) 2018.01.26
딥러닝 면접 질문 리스트  (0) 2018.01.17
금융의 역사를 통해 본 딥러닝의 함정  (0) 2018.01.17
지도 vs 비지도 학습  (0) 2018.01.17
Major tasks in data preprocessing  (0) 2018.01.10
Posted by 커다란꼬꼬마

데이터 연결_DMP의 중요성

  - 데이터는 역사, 따라서 일찍부터 모은 기업들이 나중에 격차가 더더욱 커질것이다.

  - 데이터의 학습과 예측부분도 중요하지만 가장 많은 시간이 소요되는 전처리 과정을 위한 플랫폼이 중요하다. 비용적인 측면에서도 데이터의 반복적인 접근과 재사용성을 높여 비용을 줄일수있고 시간의 관점에서도 시간을 줄여 빠르게 변화하는 시대에 실시간적인 도움을 줄수있다.


출처

https://www.youtube.com/watch?v=GtUsiqENUnU

'일상' 카테고리의 다른 글

Funnel Analysis : basic  (0) 2019.01.25
DNS 터널링  (0) 2018.04.08
Category Theory  (0) 2018.02.05
Google AutoML  (0) 2018.01.23
빅데이터 가상화  (0) 2018.01.08
Posted by 커다란꼬꼬마

블로그 이미지
커다란꼬꼬마

공지사항

Yesterday
Today
Total

달력

 « |  » 2025.4
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30

최근에 올라온 글

최근에 달린 댓글

글 보관함