Pre-loader

Technical Details

Audio AI

오디오 인공지능

소리에는 단순히 글로 옮겨 적을 수 없는 다양한 정보가 들어있습니다. 디플리의 전문성은 소리에 담긴 정보를 해석해 특정 사건을 탐지하고, 그 맥락을 파악하는 데에 있습니다. 10년 이상의 학계 및 관련 업계 종사 경험을 바탕으로, 디플리는 딥러닝 및 머신러닝 기술을 이용한 음성 분석을 제공합니다.

  • 오디오 이벤트 탐지
  • 화자 분리
  • 정서 인식
Contact

Data

디플리의 오디오 인공지능 기술은 자체 수집한 대규모의 현실 데이터를 기반으로 합니다.

14,000+ GB

Home Audio

기업에서 오디오 딥러닝을 적용하려고 할 때, 가장 먼저 맞닥뜨리는 문제는 데이터 수집입니다. 디플리는 다양한 환경에서 소리를 수집하여, 딥러닝 모델 학습에 즉시 적용 가능한 대규모 음성 데이터셋을 보유하고 있습니다. 디플리만의 데이터에 관심이 있다면 문의 부탁드립니다.

  • 실제 가정집에서 수집한 소리 데이터
  • 각 소리에 맞는 라벨 보유
  • 녹음 기기별, 녹음 거리별 데이터
Contact
How the dataset is gathered
01
수집 계획

소리 녹음은 주변 환경의 영향을 많이 받습니다. 딥러닝 모델을 만들기 위해서는 녹음 공간의 크기, 마이크의 위치, 종류 등의 세부 정보를 계획 단계에서 미리 고려해야 합니다. 디플리는 다년간의 경험을 통해 소리 데이터 수집의 특성과 어려움을 파악하고 있고, 이를 반영하여 수집 계획을 세웁니다.

02
데이터 수집

디플리는 실제 환경에서도 잘 작동하는 딥러닝 모델을 만들기 위해 데이터 수집 시 마이크의 정보나 녹음 공간에 대한 정보도 같이 수집하고 있습니다. 또한, 대상 소리뿐만 아니라 주변 환경 소음도 같이 녹음하여 소음에 강인한 모델을 만듭니다.

03
데이터 정제

수집된 데이터는 딥러닝 학습에 사용되기 전에 먼저 이상치/결측치 등을 확인하고 정리하는 데이터 정제 과정을 거칩니다. 보통 데이터 정제는 인력이 많이 들어가는 일이지만, 디플리는 이 과정을 최대한 자동화하여 진행합니다.

04
딥러닝 학습

수집한 데이터를 이용하여 딥러닝 모델을 학습시킵니다. 이렇게 현실의 소리를 직접 수집하여 학습시킨 디플리의 딥러닝 모델의 정확도는, 디플리의 기업 고객들에게 현실에서도 잘 작동한다고 인정받았습니다.

14273

기가바이트

50714

시간

250

가구

Core Technology

디플리의 Audio AI 기술은 진보된 머신러닝 기술과 신호처리 기술을 기반으로 자체개발 되었습니다

오디오 이벤트 탐지

사람은 아기의 울음소리, 유리창이 깨지는 소리, 비가 오는 소리를 듣자마자 쉽게 알아채고, 그 뜻을 이해합니다. 간단한 일처럼 보일 수도 있지만, 사실 이걸 해내는 인공지능은 많지 않습니다. 실제 소리에는 목표 소리 이외에도 다양한 소음이 섞여있기 때문입니다. 따라서 현실에 적용 가능한 딥러닝 모델을 만들기 위해서는 추가적인 노력이 필요합니다.

디플리는 구분할 수 있는 소리의 종류를 무조건적으로 늘리기보다는, 몇 가지 중요한 소리를 안정적이고 확실하게 구분해내는 것에 집중합니다. 현재 디플리는 울음 분석 모바일 앱 WAAH와 Babba를 출시하였고, 앱 내 모델은 아기 울음과 다른 가정 내 소리를 최고 수준의 정확도로 구분합니다. 만 시간 이상의 홈 사운드를 이용하여 모델을 만들었기에, 공개 데이터셋 몇십 개로 만들어낸 모델보다 강인하고 안정적입니다. 아기 울음소리뿐만 아니라 길거리에서의 여성 비명소리 탐지, 특정 화자의 목소리 구분 등의 핵심기술 개발 R&D 프로젝트도 진행 중입니다.

맥락 인식

특정 소리를 듣고 주변 상황을 모두 파악하는 것은 사람에게도 쉽지 않은 일입니다. 어떤 사람의 목소리만 듣고 그 사람의 기분을 전부 파악할 수 있을까요? 단순히 소리를 탐지하는 것보다, 소리에서 관련 맥락을 알아내는 것이 더욱 어려운 이유입니다. 물론 몇몇 특별한 능력이 있는 사람들은 목소리에서 감정을 쉽게 읽어내기도 합니다. 그렇다면 인공지능 기술로도 이러한 특별한 능력을 학습시킬 수 있을까요?

디플리가 처음 주목한 과제는 아기 울음소리를 듣고 아기의 상태를 알아내는 맥락 인식 과제입니다. 현재 디플리의 울음 해석 모델은 일부 환경에서 5개의 아기 상태를 높은 정확도로 분류해냅니다. 또한 사람의 목소리에서 부정적인 감정을 찾아내거나, 아기와 부모 같은 사회적 관계를 해석하는 R&D 프로젝트도 진행 중입니다.

오디오 특화 모델

오디오 딥러닝 모델을 현실에 적용할 때는 몇 가지 어려움이 있는데, 그중 하나가 소리 데이터에 고려할 점이 많다는 것입니다. 이는 소리의 특성과 관련이 있습니다. 소리는 매체를 통해 진동이 전파되는 것이기 때문에 매체의 물리적인 특성이나 소리가 시작된 곳과의 거리, 공간의 특성 등의 영향을 많이 받습니다. 소리를 녹음하게 되면 마이크의 특성과 회로에도 영향을 받게 됩니다.

디플리는 소리 데이터만의 특성을 잘 파악하고 있고, 이를 모델에 반영하여 어떤 소리 환경과 세팅에서도 작동이 가능한 AI 모델을 만듭니다. 예를 들어 임펄스 응답 등을 이용해 특정 공간의 정보를 빠르게 감지하고, 이를 실시간으로 추가 학습하여 공간 맞춤형 모델을 구성할 수 있습니다. 또한 디플리는 같은 소리를 서로 다른 마이크와 거리로 녹음한 데이터셋을 구축하였고, 이를 이용하여 마이크와 거리에 따른 소리 변화에 대응합니다.

감지하고 싶은 소리가 있으신가요?

디플리는 가정, 자동차, 공장 등 다양한 환경에서 특정한 소리를 감지하는 기술을 성공적으로 개발, 운영해왔습니다.
여러분의 프로젝트에 오디오 AI 기술을 적용할 수 있을지 알아보고 싶으시다면 바로 연락해주세요!

문의하기