퍼블릭 클라우드로 음성 AI 만들기 위한 전제조건

소식
2023.07.13

24시 상담이 가능한 ai 콜센터, 이동 간에 귀로 듣는 오디오 북, 트위치 스트리머의 목소리로 음성 후원을 해주는 서비스와, 네이버의 클로바 보이스 등..

어느 순간부터 내가 입력한 텍스트를 사람이 읽어주는 TTS(Text To Speech) 서비스가 우리 일상에 눈에 띄게 많이 생겨나고 있습니다.

해가 거듭할수록 일상에서 쉽게 접하게 되는 ai 전화 상담사의 목소리가 진짜 사람이 말하는 것처럼 자연스러워지는 이유는 무엇일까요?
또 이처럼 생동감 있는 ai 음성을 만들려면 어떠한 전제조건이 성립되어야 하는 것일까요?

전제조건 1. 충분한 학습 데이터 확보

기계가 사람의 자연스러운 감정, 억양, 목소리를 표현하려면 충분한 데이터가 필요합니다.

실제로 클루닉스에서 자체적으로 유인나 “목소리로 책 읽어주기”를 구현해 보기 위해, 구글 STT를 통해 음성에 대한 text를 자동 인식 시켰을 때의 정확도 보다
audio/text 매핑 작업을 3~4천 개 정도 학습 데이터를 만들었을 때의 결과물 차이가 상당했습니다. [관련 내용 및 목소리 들으러 가기 Link]

자체적인 결론은 정확하고 아주 많은 학습 데이터가 결과물의 퀄리티를 결정한다는 것이었습니다.
- 클루닉스 대표 엔지니어 曰 -

사실상 충분한 학습 데이터를 확보하는 것에 노력을 얼마나 했는지에 따라서 ai 음성의 퀄리티를 좌지우지한다고 볼 수 있겠습니다.
충분한 데이터가 확보되었다면, 그 다음 필요한 것은 AI가 음성을 이해하고 이를 활용할 수 있도록 가르치는 것입니다.

전제조건 2. AI를 가르칠 수 있는 딥러닝/머신러닝 환경 확보

AI가 사람의 음성을 자연스럽게 구현하기 위해서는 생각보다 많은 정보가 필요합니다. 사람은 음성을 시각과 청각으로 정보를 입력받지만,
이를 음성 파형으로 본다면, 어느 부분이 어떤 단어를 의미하는지 알 수 없습니다. 컴퓨터는 어떤 단어인지 모르니,
한 사람이 같은 문장을 이야기하더라도 음성 파형의 형태가 매우 다르다면 또 다른 정보로 받아들이게 되게 됩니다.

그래서 음성을 1초에 몇 번 진동했는지 파악하여 진동이 빠른지 느린지를 파악하여 음의 높 낮이를 찾는 등의
수학적인 신호처리를 거쳐야만 정확한 문장과 음성을 추출할 수 있습니다.
앞선 충분히 확보된 데이터들이 이러한 수학적인 계산 방식으로 AI에게 학습됩니다.

다만 이 과정에서 결과물의 퀄리티를 높이려면 상당한 시간이 소요되며 이는 컴퓨터 사양을 구성하고 관련 S/W를 설치하는 등의 시간과 노력이 상당히 소모됩니다.
연구 시작도 전에 에너지 소모가 심할 수 밖에 없습니다.

아렌티어 클라우드 소개

여기에 딥러닝에 필요한 라이브러리를 비롯하여 딥러닝/머신러닝 환경에 필요한 모든 것을 단 3분만에 구축할 수 있는 클라우드 플랫폼이 있습니다.
클루닉스의 퍼블릭 클라우드 환경인 아렌티어 클라우드는 개발자를 고려한 다양한 서비스를 탑재하고 있습니다.

지금부터 아렌티어 클라우드의 딥러닝 플랫폼에 대해 간단히 소개하고자 합니다.

AWS 자원을 기반으로 3~5분 만에 구축되는 빠른 딥러닝 플랫폼 환경

RNTier Cloud 서비스에서 제공하는 딥러닝 AI 응용개발 플랫폼은 딥러닝 응용 개발 및 모델 학습에 필요한 다양한 Python 버전과 딥러닝 오픈 프레임워크,
CUDA SDK와 CUDNN 환경을 RNTier GPU 전용 스케줄러와 함께 연동하여 사용자가 원하는 딥러닝 플랫폼 환경을 3~5분 이내 빠르게 생성이 가능합니다.

수많은 응용 S/W 개발 환경 제공

RNTier Cloud 딥러닝 AI 응용개발 플랫폼에서 제공되는 응용 S/W 환경은
Python 2.7, 3.6, 3.7, 3.8, Anaconda2, 3, CUDA 9, 10, 10.1, 11.0, 11.1, Tensorflow, Caffe, Pytorch, Theano, Keras, Horovod, Jupyter Notebook,
Jupyter Lab, PyCharm, VSCode 등으로 딥러닝 개발에 필요한 대부분의 개발 환경이 포함되어 있습니다.

다양한 플랫폼 서비스 기능으로 편리한 환경 구성

사용자는 RNTier Cloud에서 제공하는 GPU 스케줄러, GPU 모니터링, 리눅스 데스크탑 GUI 작업환경, Multi GPU 학습, 분산 GPU 학습, Python 가상 패키지 관리 등 다양한 딥러닝 플랫폼 서비스 기능으로 더욱 쉽고 편리한 플랫폼 이용이 가능합니다.

TTS 개발 입문자도 사용 가능하도록 동영상 가이드 제공

사용자는 아래와 같은 TTS 서비스 이용 안내 가이드 영상을 따라, TTS 서비스를 이용해 볼 수 있습니다.
[가이드 동영상 바로가기]

지금까지 생동감 있는 AI 음성을 만들기 위한 전제조건과, AI가 어떻게 사람의 음성을 합성하는지 등에 대한 내용을 설명해 드렸습니다.
클루닉스의 아렌티어 클라우드는 AI 개발자들을 위한 딥러닝 개발 환경을 제공하면서, 더 편리한 경험을 선사하기 위해, 계속해서 업그레이드된 서비스를 제공할 계획입니다.

현재는 신규 가입자 크레딧(Credit)인 무료 클루(Clue)를 통하여 경험해보실 수 있는 기회를 제공하고 있으니,
23년간의 HPC 전문 기업 클루닉스의 저력이 담긴 아렌티어 클라우드 서비스를 경험해 보시기 바랍니다.

Clunix