음성을 합성하는 방식

1.이제 곧 NeurIPS 학회가 시작된다. 마침 우리 회사 AI Lab 소속된 분들이 쓴 2편의 논문도 이 학회에 게재 승인된 터라 이번주는 이 논문을 살펴보고 있다.

작업한 글


2.매우 취약한 분야 중 하나였던 음성합성 분야 논문이라 글쓰기에 에로사항이 많았다. 두 논문 모두 음성합성 모델에 관한 내용을 다룬다는 부분이 그나마 내게는 큰 다행이다.


3.두 논문에서는 음성을 생성하는 방식을 크게 몇 가지 갈래로 나눠서 설명하고 있다. implicit한 방식과 explicit 방식으로 나눠서 비교하기도 한다(hifi-GAN). 그런가 하면 explicit 접근 방식을 좀 더 세세하게 들어가서 autoregressive(non-parallel), flow-based 방식(parallel)을 직접적으로 비교하기도 한다(glow-TTS).


4.연구원이 코멘트를 달아주는 내용만으로는 논문 내용을 이해하기가 쉽지 않다. 그래서 자발적으로 논문을 내려받아서 밑줄을 그어가면서 보는 편이다. 따로 공부하지 않았다면 이런 대세를 이해하는 데 큰 어려움이 있었을 거라 판단하기 때문이다. 아울러, 내가 무엇을 알고 무엇을 모르는지 알아야 좋은 질문을 할 수 있다는 점은 아무리 강조해도 지나치지 않는다고 생각한다.


5.논문을 쓴 연구원은 대개 하나라도 더 알려주지 못해서 안타까운 심정을 내비치고는 한다. 그건 아마도 4번에서 언급했던 “자발적으로 논문을 읽는 행위”가 상대에게 큰 감화를 준 건 아닐까 싶은 생각을 종종 하기도 한다. 적어도 연구 실적 또는 개발 내용을 대외용 자료로 만드는 사람이라면 당연히 그 사람이 쓴 논문 또는 연구 내용을 더 잘 이해하기 위해 노력해야 한다고 본다. 논문 하나 들여다보지 않고 그 가치와 의의를 설명해달라고 하는 행동은 자칫 논문 저자의 의욕을 저하하는 일이라고 생각해서다.


6.어쨌든 오는 7일(미국 시각 기준)부터 NeurIPS 학회가 열린다. 여기에 카카오엔터프라이즈 AI Lab이 새로 제안한 음성합성 관련 연구 2편이 공개될 예정이다. 기회가 있다면 두 저자와 함께하는 (한국어) 세미나도 기획해보면 좋을 거 같다.




Samantha
Samantha 7년차 글쟁이. 경제지와 뉴미디어에서 기자로 일하다, 현재 IT 기업에서 인공지능 콘텐츠를 쓰고 있다. 취미로 생산성 앱을 활용한 글쓰기 프로세스를 연구한다.
comments powered by Disqus