헬스케어 챗봇 HealDa


헬스케어챗봇의 HealDa 라는 어플을 우연히 알게 되었다.

공식 사이트는 아직 없지만, Youtube의 공식 채널이 있었다.


HealDa 소개 영상


헬스케어와 관련해서는 헬스케어와 클라우드의 만남의 책을 읽으면서 헬스케어쪽 양질의 데이터를 구하기가 어렵고 법적인 부분이 아직 기술을 따라오지 못해서 어려움이 많다는 정보는 대략 알고 있었다.


또한, 챗봇 관련해서는 RNN과 Seq2Seq 모델을 이용하여 한국어 챗봇 프로젝트를 해보면서 실제 구현하기가 정말 힘들고 성능도 상당히 안 좋아서 하기가 힘들었다. 또한, 상용제품으로 되어 있는 쪽도 단순히 단어를 검색해서 보여주는 방식도 있었고 한국어의 경우에는 Clova(음성쪽이지만 음성이 Text로 바뀌고 그것이 활용되어서 챗봇과 비슷하다고 생각.)가 잘되고 발전이 많지만 아직까지는 나의 생활에 실질적인 편리함을 가져다 주지는 않았다.


하지만 HealDa의 경우에는 기사를 찾아보니 내부엔진을 사용하였고 현재에도 미국의 회사들과 싱가포르의 병원에서 실제로 서비스 중이었다. 데모 영상을 살펴보니 긴 내용도 잘 되면서 버튼 방식과 Text방식을 잘 섞어서 UI가 편리하였다. 또한, CEO분이 말했다시피 현재 한국에서 서비스중인 서비스들은 1~2분을 사용하기 위한 서비스가 많은데 데모영상에서 보면 7분 영상이지만 계속 원활한 대화가 이루어진다는 것을 보고 내부엔진과 알고리즘이 궁금해졌다.


기사를 보니 헬스케어를 시작으로 다른 산업으로도 확장을 계획하고 있다는데 앞으로도 잘 지켜봐야겠다.




출처

http://www.zdnet.co.kr/news/news_view.asp?artice_id=20170522143600

https://www.rocketpunch.com/companies/healthcarechatbot

http://m.chosun.com/svc/article.html?sname=biz&contid=2017110902169

http://techholic.co.kr/archives/64474

https://www.facebook.com/YoonSupChoi.Healthcare.Innovation/posts/675396685955466

http://www.medigatenews.com/news/2175810392

Posted by 커다란꼬꼬마

1년 이하 정도 딥러닝을 열심히 해 본 개발자들이 일정 수준 이상으로 잘 대답할 것으로 기대하는 질문들



1. 요즘 Sigmoid 보다 ReLU를 많이 쓰는데 그 이유는?


+ Non-Linearity라는 말의 의미와 그 필요성은?

+ ReLU로 어떻게 곡선 함수를 근사하나?

+ ReLU의 문제점은?

+ Bias는 왜 있는걸까?


2. Gradient Descent에 대해서 쉽게 설명한다면?


+ 왜 꼭 Gradient를 써야 할까?

+ 그 그래프에서 가로축과 세로축 각각은 무엇인가?

+ 실제 상황에서는 그 그래프가 어떻게 그려질까?

+ GD 중에 때때로 Loss가 증가하는 이유는?

+ 중학생이 이해할 수 있게 더 쉽게 설명 한다면?

+ Back Propagation에 대해서 쉽게 설명 한다면?


3. Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는?


+ GD가 Local Minima 문제를 피하는 방법은?

+ 찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은?


4. CNN에 대해서 아는대로 얘기하라


+ CNN이 MLP보다 좋은 이유는?

+ 어떤 CNN의 파라메터 개수를 계산해 본다면?

+ 주어진 CNN과 똑같은 MLP를 만들 수 있나?

+ 풀링시에 만약 Max를 사용한다면 그 이유는?

+ 시퀀스 데이터에 CNN을 적용하는 것이 가능할까?


5. Word2Vec의 원리는?


+ 그 그림에서 왼쪽 파라메터들을 임베딩으로 쓰는 이유는?

+ 그 그림에서 오른쪽 파라메터들의 의미는 무엇일까?

+ 남자와 여자가 가까울까? 남자와 자동차가 가까울까?

+ 번역을 Unsupervised로 할 수 있을까?


6. Auto Encoder에 대해서 아는대로 얘기하라


+ MNIST AE를 TF나 Keras등으로 만든다면 몇줄일까?

+ MNIST에 대해서 임베딩 차원을 1로 해도 학습이 될까?

+ 임베딩 차원을 늘렸을 때의 장단점은?

+ AE 학습시 항상 Loss를 0으로 만들수 있을까?

+ VAE는 무엇인가?


7. Training 세트와 Test 세트를 분리하는 이유는?


+ Validation 세트가 따로 있는 이유는?

+ Test 세트가 오염되었다는 말의 뜻은?

+ Regularization이란 무엇인가?


8. Batch Normalization의 효과는?


+ Dropout의 효과는?

+ BN 적용해서 학습 이후 실제 사용시에 주의할 점은? 코드로는?

+ GAN에서 Generator 쪽에도 BN을 적용해도 될까?


9. SGD, RMSprop, Adam에 대해서 아는대로 설명한다면?


+ SGD에서 Stochastic의 의미는?

+ 미니배치를 작게 할때의 장단점은?

+ 모멘텀의 수식을 적어 본다면?


10. 간단한 MNIST 분류기를 MLP+CPU 버전으로 numpy로 만든다면 몇줄일까?


+ 어느 정도 돌아가는 녀석을 작성하기까지 몇시간 정도 걸릴까?

+ Back Propagation은 몇줄인가?

+ CNN으로 바꾼다면 얼마나 추가될까?


11. 간단한 MNIST 분류기를 TF나 Keras 등으로 작성하는데 몇시간이 필요한가?


+ CNN이 아닌 MLP로 해도 잘 될까?

+ 마지막 레이어 부분에 대해서 설명 한다면?

+ 학습은 BCE loss로 하되 상황을 MSE loss로 보고 싶다면?

+ 만약 한글 (인쇄물) OCR을 만든다면 데이터 수집은 어떻게 할 수 있을까?


12. 간단한 MNIST DCGAN을 작성한다면 TF 등으로 몇줄 정도 될까?


+ GAN의 Loss를 적어보면?

+ D를 학습할때 G의 Weight을 고정해야 한다. 방법은?

+ 학습이 잘 안될때 시도해 볼 수 있는 방법들은?


13. 딥러닝할 때 GPU를 쓰면 좋은 이유는?


+ 학습 중인데 GPU를 100% 사용하지 않고 있다. 이유는?

+ GPU를 두개 다 쓰고 싶다. 방법은?

+ 학습시 필요한 GPU 메모리는 어떻게 계산하는가?


14. TF 또는 Keras 등을 사용할 때 디버깅 노하우는?


15. Collaborative Filtering에 대해 설명한다면?


16. AutoML이 뭐하는 걸까?


이상 공통 (기본) 질문들만 정리해 봤다.


출처

https://www.facebook.com/dgtgrade?ref=br_rs


'Machine Learning' 카테고리의 다른 글

헬스케어 챗봇 HealDa  (0) 2018.01.26
금융의 역사를 통해 본 딥러닝의 함정  (0) 2018.01.17
지도 vs 비지도 학습  (0) 2018.01.17
Major tasks in data preprocessing  (0) 2018.01.10
Deview 2017 책 읽어주는 딥러닝  (0) 2018.01.10
Posted by 커다란꼬꼬마

금융의 역사를 통해 본 딥러닝의 함정


  - SK T 아카데미에서 챗봇 관련 오프라인 세미나를 통해서 알게되었던 이태영님께서 진행하신 naver d2에서의 세미나


  - 최신의 비트코인과 기존 회사에서의 머신러닝을 바라보는 관점을 느낄 수 있었고 역사론적 관점을 통해 세부적인 요소에서 벗어나 큰 그림을 보는 시각은 느낌.


  - 현재 금융권에서 딥러닝을 어떤 방식으로 다루고 월스트리스에서 호령하고 있는 켄쇼 프레임워크를 알게 됨.



출처

https://www.youtube.com/watch?v=mpZSb9DzAR8

'Machine Learning' 카테고리의 다른 글

헬스케어 챗봇 HealDa  (0) 2018.01.26
딥러닝 면접 질문 리스트  (0) 2018.01.17
지도 vs 비지도 학습  (0) 2018.01.17
Major tasks in data preprocessing  (0) 2018.01.10
Deview 2017 책 읽어주는 딥러닝  (0) 2018.01.10
Posted by 커다란꼬꼬마

Supervised learning(classification)

  - The training data(observations, measurements, etc.) are accompanied by labels indicating the class of the observations

  - New data(unlabeled data) is classified based on the training set


Unsupervised learning(clustering)

  - The class labels of training data is unknown

  - Given a set of measurements, observations, etc. with the aim of establishing the existence of classes or clusters in the data

  - Group the data based on some similarity or distance measure

Posted by 커다란꼬꼬마

Major tasks in data preprocessing

1. Data cleaning

  - Fill in missing values 

  - smooth noisy data, identify of remove outliers

  - resolve inconsistenciies


2. Data integration

  - integration of multiple databases, data cubes, or files

  - Need to handle data redundancy (e.g. chi-square test, correlation analysis)


3. Data reduction

  - Dimensionality reduction

  - Numerosity reduction (Sampling)

  - Data compression


4. Data transformation

  - Normalization

  - Discretization or Binning

'Machine Learning' 카테고리의 다른 글

헬스케어 챗봇 HealDa  (0) 2018.01.26
딥러닝 면접 질문 리스트  (0) 2018.01.17
금융의 역사를 통해 본 딥러닝의 함정  (0) 2018.01.17
지도 vs 비지도 학습  (0) 2018.01.17
Deview 2017 책 읽어주는 딥러닝  (0) 2018.01.10
Posted by 커다란꼬꼬마

1. 데이터

음성 추출 -> 문장 별 자르기 -> 텍스트 <-> 음성 맞추기 싱크


뉴스 + Youtube + 오디오북에서 데이터를 모음.


2. 모델

  TF - Tacotron(Google), Deep Voice 2(Baidu Research)


Tacotron



음성 합성 모델의 핵심

  - 학습하지 않았던 문장도 얼마나 잘 말할 수 있는가?

Attention - 집중하고자 하는 것에만 집중.


Deep Voice 2

  - Tacotron을 Multi-Speaker 모델로 N명의 목소리를 하나의 모델로.

  - GPU 메모리의 사용량을 줄일수 있다.

  - Speaker Embedding - 이 발화자는 여기서 이렇게 말할거니깐 다르게 계산.


Multi-Speaker 모델을 사용한 이유

  - Speaker의 데이터가 적을때 Multi-Speaker의 데이터를 이용하여 Loss를 줄이고 Attention을 잘하게함.

  - 완벽한 데이터가 완벽하지 않은 데이터의 학습을 도와준다.


3. 결과

  - 오디오북

  - 데모사이트(https://carpedm20.github.io/tacotron/)

  - Github(https://github.com/GSByeon/multi-speaker-tacotron-tensorflow)


데브시스터즈(http://www.devsisters.com/)의 개발자 김태훈님의 스피치

주제가 흥미롭고 데모와 발표가 좋았음. 특히 데이터의 첫부분에서 Raw 데이터를 노가다로 잘라서 만드는 부분이 대단.


출처

https://deview.kr/2017/schedule/182

https://www.slideshare.net/carpedm20/deview-2017-80824162

'Machine Learning' 카테고리의 다른 글

헬스케어 챗봇 HealDa  (0) 2018.01.26
딥러닝 면접 질문 리스트  (0) 2018.01.17
금융의 역사를 통해 본 딥러닝의 함정  (0) 2018.01.17
지도 vs 비지도 학습  (0) 2018.01.17
Major tasks in data preprocessing  (0) 2018.01.10
Posted by 커다란꼬꼬마
이전버튼 1 이전버튼

블로그 이미지
커다란꼬꼬마

공지사항

Yesterday
Today
Total

달력

 « |  » 2024.5
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

최근에 올라온 글

최근에 달린 댓글

글 보관함