"00아, 오늘 날씨는 어때?” 들어보거나 혹은 직접 AI 스피커에 얘기해본 적이 있을 것이다.이는 STT(Speech-to-Text)기술을 활용 한 것이며, 음성 인식이라고도 한다.
음성 인식(Speech Recognition)이란, 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 로봇, 텔레매틱스 등 음성으로 기기 제어,, 정보검색이 필요한 경우에 응용된다.
대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향 모델을 구성하며 말뭉치 수집을 통하여 언어 모델을 구성한다.
+ TTS(Text-to-Speech) : 음성 합성
HMM(Hidden Markov Model) - 은닉 마르코프 모델
은닉 마르코프 모델은 시간의 흐름에 따라 변화하는 시스템의 패턴을 인식하는 작업에 유용하다.
은닉 마르코프 모델에서는 상태를 직접적으로 볼 수 없고 상태들로부터 야기된 결과들만을 관찰할 수 있다. 각각의 상태는 특정 확률 분포에 따라 여러가지 결과를 도출해 낼 수 있으므로, HMM으로부터 생성된 결과들의 나열은 숨겨진 상태들에 대한 정보들을 제공하고 있다고 생각할 수 있다.
관찰된 결과들(observation)을 이용하여 간접적으로 은닉 상태(state)를 추론하기 위한 문제를 풀기 위해 사용된다.
ex) HMM 개념 이해 예시
영희와 철수는 멀리 떨어져서 살고 있기 때문에 안부를 전화로 물을 수밖에 없다. 철수의 일과는 'walk', ‘shop’, ‘clean’ 하는 세가지로 있는데, 무엇을 할지는 그 날의 날씨에 따라 결정된다. 영희는 철수가 살고 있는 지역의 날씨에 관해서 정확히는 모르고 대략적인 경향성만을 알고 있을 뿐이다. 영희는 철수와의 통화내용에 기반하여 그 지역의 날씨를 예측해보려고 한다.
영희는 날씨가 이산 마르코프 연쇄로 동작한다고 믿는다. ‘Rainy’, ‘Sunny’이라는 두 가지 상태가 있다는 것을 알지만 직접 관찰할 수 없기 때문에 정확히 알 수는 없다. 즉, 날씨는 영희에게 은닉 상태이다. 철수는 그 날의 날씨에 따라서 걷거나, 쇼핑을 하거나, 청소를 하고 영희는 전화 통화를 통해 그것들을 관찰한다. 이는 은닉 마르코프 모델의 좋은 비유가 될 수 있다.
철수의 일과가 'walk', 'shop' 이였다면 높은 확률로 날씨가 'Sunny' 할 것이라고 예측할 수 있다.
ex) HMM이 사용되는 예시
음성 인식, 필기 인식, 동작 인식, 품사 태깅, 악보에서 연주되는 부분을 찾는 작업
+ 음성 인식 : 음성을 듣고 무슨 말을 했는지 결과를 단어나 문장으로 바꾸면 된다. 연속적인 전압의 높낮이(음성신호)를 해당 문자로 대치하려면 음성신호의 반복패턴을 찾아내서 매칭 시켜야 한다. 즉 반복 패턴(결과)을 어떤 단어나 문장과 매칭(은닉된 상태)시키는 기술의 키가 패턴 인식이고 이것의 핵심이 HMM이라는 것이다.