IT 이슈 정리

[IT issue] 음성인식, STT

aram 2022. 6. 17. 14:42

- 자연어 : 우리가 평소 사용하는 언어

 

- 자연어 처리 기술(NLP, Natural Language Processing)

  • 사람이 이해하는 자연어를 컴퓨터가 이해할 수 있는 값으로 변환하는 과정
  • 컴퓨터가 이해하는 값을 다시 사람이 이해할 수 있도록 바꾸는 과정까지 포함
  • 음성인식, 내용요약, 언어번역, 인간의 감정 분석, 텍스트 분류 작업, 자동 Q&A 시스템, 챗봇과 같은 분야에서 다양하게 사용됨

 

- 음성인식

  • 사용자의 목소리를 실제 컴퓨터가 들을 수 있도록 인식하는 기술
  • 소음과 구분 필수, 사람 목소리의 주파수 대역을 샘플링 하는 기술이 좋아야 함.
    > 딥러닝 모델의 최적화, 비지도 학습방식 개발, 멀티모달(Multi-Modal) 융합으로 기술적 성능 개선이 급격히 이루이고 있음
  • 말을 하면 자동으로 내용을 받아 적거나, 외국어를 자동 통역해주거나, 말만 하면 알아서 일정관리를 해주는 지능형으로 점점 진화
  • 시장 전망
    : 연평균 성장률(CAGR) 16%로 2027년까지 약 70~80억 달러로 성장 예상
  • 국제경쟁력 확보를 위해선 다국어 확장은 필수, 하지만 대량의 데이터 확보가 힘듦(low resource)
    > 구축한 다국적 언어을 통합 학습 > 희소 언어와 유사한 음향 특성을 반영

 

- STT(Custom Speech-to-Text)

  • AI를 활용해 사용자의 음성을 텍스트 데이터로 변환해주는 기술
  • AI 스피커, 음성 검색, 내비게이션 등 다양한 용도로 활용
  • 단점 : AI를 학습시키는데 시간과 비용이 많이 들어감

 

- 음성인식 AI

  • 주로 인공지능 스피커를 통해 대중화
  • 국내 기업들은 한국어 위주 콜센터 녹취, 회의록 전사, 외국어 교육 등의 시장을 확대
  • 활용 사례
    • 네이버의 '클로바노트'
       > 앱 가입자 100만 돌파
       > 네이버의 AI '하이퍼클로바' 기반의 음성인식 기술과 화자인식 기술 적용됨
       > 화상회의 솔루션인 '줌(Zoom)'과도 연동 가능
       > 2021년 8월부터 한국어 외에 영어와 일본어 등 다국어 서비스도 지원
       > 코멘트 작성 기능, 태스크 관리 기능, 공동 편집 기능, 그룹 관리 기능 등 다양한 관리 및 편집 기능 준비 중
    • AI 음성인식 스타트업 리턴제로의 '비토'
       > 전화 음성을 텍스트로 전환해 채팅처럼 보여주는 통화앱
       > 간단한 설정만으로 통화녹음과 음성인식,  화자분리, 메신저 형태의 말풍선 화면(UI/UX) 뿐만 아니라 부분 재생과 검색, 편집, 내보내기, 메모와 같은 부가 기능 등도 다채롭게 이용 가능
    • SK텔레콤, KB국민은행의 ‘리브 Next’ 앱에 AI스피커 ‘누구 SDK’ 적용
       > 고객이 음성으로 송금/조회 등의 뱅킹 업무 이용가능
  • 의료분야 AI 음성인식 - 셀비 메디보이스, 셀비노트
    • 셀비 메디보이스(AI 의료 음성인식 솔루션)
       : 영상의학과, 핵의학과, 내/외과 등 다양한 분과에서 영상 판독을 할 때 음성으로 판독결과를 빠르게 입력하고 의무기록을 작성할 수 있도록 지원
       : 최근, 클라우드 서비스를 통해 병원의 시스템 운영 부담을 줄여 중소형 병원에서도 다양하게 사용
       : 의학용어를 학습한 엔진 포함 > 정확하게 입력 가능(인식률 98% 이상)
    • 셀비 노트(AI 음성기록 솔루션)
       : 2인 이상 상담하는 환경에서 기록이 필요할 때 음성으로 자동 기록할 수 있는 제품
       : 병원 내에서 상담이 이뤄지는 정신과 상담이나 성형외과 상담, 일반 진료 시 환자와의 상담 등 다양한 곳에서 활용이 가능하고 대화 내용을 정확하게 문서화 가능

       : 단순 문서화 뿐 아니라 음성녹음, 북마크, 검색 등 사용자 맞춤 기능 > 병원 내 사실 확인 및 상담 분쟁 해결 등에 도움을 줌
       : 작성자의 피로도 감소 & 업무 효율성 향상
       : 업무를 진행하다가 기록이 필요한 부분의 누락, 손실 등을 보완할 수 있어 꼼꼼히 기록 & 업무 질 향상

    • 인식률 98% 이상으로 향후 분쟁 등에서 데이터를 활용할 수 있을 것이라는 전망
    • 비대면 진료 및 상담 분야
      진료 상담 등에 대해 온라인으로 진행하고, 이에 대한 내용을 AI 음성기록인 셀비노트로 기록을 남길 수 있도록 지원해 비대면 진료 시, 사용자에게 업무 편리성을 제공 예정
  • 카카오엔터프라이즈(대표 백상엽)의 기업용 AI 음성 인식-변환 모델 ‘커스텀 STT(Custom Speech-to-Text)’
    • 각 기업의 고객과 산업 특성에 맞는 모델을 쉽고 빠르게 구축해 음성 인식-변환의 정확도를 높일 수 있음
    • 음성인식 오류율 기존 대비 30% 이상 개선
    • 클라우드 기반의 '서비스형 AI(AIaaS)'
       → 기업의 서비스 관리 시간과 비용 부담 해소

    • 고객사가 직접 단어와 패턴을 추가
       > 가장 적합한 AI 모델을 빠른 시간 내 자동으로 만들어주며 고유명사나 길고 복잡한 단어 처리도 가능
       > AI 재학습과 업데이트 소요시간을 크게 단축
       > 사용자들에게 새로운 정보를 빠르게 전달하고 더 편리한 경험을 제공할 수 있을 것
    • 올 상반기 오픈 할 ‘카카오 i 커넥트 센터(AICC)’의 문의응대/상담 업무 등에도 커스텀 STT 적용 예정
       > 사용자의 최근 주요 요청 사항이나 신제품 출시, 신규 이벤트 등 새로운 정보를 실시간 업데이트

 

- 음성인식 AI의 미래

  • 팀즈용 메시(Mesh for Microsoft Teams)
     > 특별한 장비가 없이 어떤 기기에서도 개인화된 아바타를 통해 가상 환경에서 현실감 있는 회의 진행이 가능
  • 미국 로블록스, 국내 네이버 제페토 등 가상공간인 메타버스 플랫폼에서 새로운 비즈니스 모델 창출되고 있음
  • 비대면 디지털 커뮤니케이션 수단으로 메타버스가 대안으로 부상
    = 물리적인 제약이 사라짐
    > 외국인과의 언어소통이 매우 중요
    > 모든 언어 간 실시간 통역이 가능하도록 다국어 통번역 기술의 고도화 필요(다국어 음성인식 기술)

  

 

 

 

 

 

사람언어를 이해하는 음성인식, #자연어처리기술

[BY GONGHOON] 안녕하세요, 공훈 공식 블로그입니다. 최근 음성인식 서비스 및 솔루션에 대한 설명을 보...

m.post.naver.com

 

실시간 업데이트 가능한 AI 음성인식 서비스 등장 - 스마트시티투데이

카카오엔터프라이즈(대표 백상엽)가 기업용 AI 음성 인식-변환 모델 ‘커스텀 STT(Custom Speech-to-Text)’를 공개했다.STT는 AI를 활용해 음성을 텍스트로 변환해주는 기능으로, AI 스피커, 음성 검색,

www.smartcitytoday.co.kr

 

[이슈] 디지털 생명체와 자연스러운 대화, 음성인식 AI 어디까지 왔나

최근 메타버스 기반 신규 비즈니스 창출에 대한 기대가 커지고 있는 가운데, 자연어 음성인식 핵심기술의 선도적 개발이 필요하다는 주장이 제기됐다. 디지털 생명체와의 자연스러운 대화가 매

www.elec4.co.kr

 

음성언어 문자로 바꾸는 'STT기술' 각광…클로바노트 가입자 100만명 돌파 - 더스탁(The Stock)

인공지능(AI)이 최근 실생활과 비즈니스의 다양한 영역으로 파고들고 있다. 그 가운데에서도 AI를 활용해 음성을 문자로 변환하는 \'STT(Speech To Text)\' 분야에서 국내 유망 기술 스타트업들이 빠르

www.the-stock.kr

 

‘AI 의료 음성인식 솔루션 선두’ 셀바스AI, 쌍끌이 주목 - 의학신문

[의학신문·일간보사=오인규 기자] ‘음성인식(STT, Speech To Text)’은 사람의 음성을 텍스트 형식으로 변환해주는 기술이다. 1950년대 첫 등장 후, 점점 인식률이 높아지면서 2011년 아이폰4S의 Siri(시

www.bosa.co.kr

 

728x90