Automatic Speech Recognition

 

소개

Automatic Speech Recognition (ASR, 음성 인식) 엔진은 사용자의 음성 데이터를 입력받아 해당 음성을 텍스트로 변환하는 기능을 제공합니다.

즉, 사람이 귀로 들은 내용을 글자로 표현하는 받아쓰기와 같은 역할을 수행합니다. 넓은 의미에서는 STT (Speech To Text)라고도 합니다.

 

ASR 엔진을 통해 음성을 텍스트로 변환하는 과정 이미지

 

ThinQ.AI에서 제공하는 ASR 엔진은 다음과 같은 특징을 가지고 있습니다.

ASR 엔진의 특징
특징 설명
다국어 지원 한국어, 영어
다양한 결과 전달 방식 음성 데이터 분석 결과를 계속 수신하는 방식과 최종 결과를 한 번만 수신하는 방식 중 하나를 선택할 수 있습니다.
안전한 서버 연결 보안에 강화된 TLS(Transport Layer Security) 기반의 HTTP/2 방식으로 서버와 연결합니다.

 

엔진 구조

ASR 엔진의 모든 기능은 서버에서 동작합니다. ASR 엔진은 PCM 데이터와 JSON 데이터를 입력 값으로 받고, 텍스트 데이터로 변환하여 출력합니다.

 

ASR 엔진 구조 이미지

 

활용하기

ASR 엔진은 일상생활 속에서 다양하게 활용할 수 있습니다.

 

  • 운전 중 음성으로 기기 조작

기기를 직접 조작하기 힘든 상황에서 음성으로 메시지를 입력하여 문자 메시지를 보내거나 내비게이션에 목적지 입력을 할 수 있습니다.

운전 중에 음성으로 메시지를 보내거나 내비게이션의 목적지를 설정하는 이미지

  • 콜센터 통화내용 저장

고객과의 통화 내용이 중요한 콜 센터에서 음성 인식 기능을 활용하여 통화 내용을 텍스트로 저장하여 보관할 수 있습니다.

통화 내용을 텍스트 파일로 저장하는 이미지

  • 회의록 작성

음성 인식 기술이 더욱 발전하면 중요한 회의를 할 때, 음성 인식 기능을 활용하여 회의록을 작성할 수 있기를 기대해봅니다.

회의 내용이 텍스트로 작성되는 이미지

ThinQAI_Community_banner_pc
ThinQAI_Community_banner_mobile
ThinQAI_Community_banner_mobile_2x
ThinQAI_Community_banner_mobile_3x
ThinQAI_Community_banner_tablet