음성 인식에 대한 연구는 1950년대 이후 짧은 시간 내에 이루어졌다. 그러나 선두 그룹에 의해 개발된 인식 장치에도 기술에 대한 많은 제약이 있다.
음성 인식의 궁극적인 목표는 인간처럼 자연스럽게 들리는 모든 목소리를 인식하는 것이어야 하지만, 기술적 제약으로 인해 음성 인식 시스템은 애플리케이션 환경에 따라 여러 단계로 개발된다. 음성 인식 소프트웨어는 음성 형식에 따라 다음과 같이 분류할 수 있다.
단어 대 단어 인식은 분리된 단어 인식이 아니라 단어로 분리되기 때문입니다. 이 방법은 두 가지 유형으로 나눌 수 있습니다. 즉, 고정된 단어를 사용한 고정 단어 인식과 응용 프로그램에 따라 인식된 단어를 업데이트할 수 있는 가변 단어 인식입니다.
이것은 음성 인식의 가장 기본적인 단계이며 현재 상업적으로 이용 가능한 형태이다. 명령 인식, 단일 자릿수 음성 인식 또는 영어 알파벳 인식은 대표적이다. 수십 개의 단어 단계부터 수십만 개의 단어 단계까지 다양한 형태가 있으며, 비교적 조용한 환경에서는 지각률이 90%를 넘는다.
연결 인식은 여러 단어를 연결하여 발음을 인식하는 형식입니다. 대상 단어가 제한되더라도 유연한 인터페이스를 제공하는 다양한 언어 처리가 가능합니다. 고립된 단어 인식에 비해 난이도가 높고 인식률이 낮습니다. 대표적인 예가 현재 부분적으로 상용화되고 있는 디지털 접근 감지이다.
키워드 스포츠 자연스럽게 들리는 연속 음성에서 인식해야 하는 단어만 추출되고 인식됩니다. 문장 형식의 발음을 인식하는 것은 표현 능력에 한계가 있기 때문에 그것을 극복하고 특정 분야에 적용하는 제안의 한 방법이다. 사용자의 관점에서 볼 때, 자연스럽게 말할 수 있기 때문에, 그것은 사용자 인터페이스에 대한 더 친근한 느낌을 준다.
이 방법은 사용자가 자동 열차 및 항공 예약 시스템에 지정된 다양한 정보만 알고 싶을 때 사용되며, 제품 예약 또는 자동 콜 센터에도 사용할 수 있습니다. 상업화는 현재 부분적으로 진행되고 있다.
지속적인 음성 인식. 그들은 자연스럽고 분명한 문장의 형태로 지속적인 구절을 인식한다. 이는 음성 신호 처리 기술뿐만 아니라 가장 어려운 단계이기 때문에 음성 기록기와 같은 문법적 형식에 적합한 음성 인식에 특히 적용된다.
언어 문법의 적용은 어렵고 음향 발성의 형태는 매우 다르기 때문에 자유로운 형태의 발음을 구별하기가 어렵다. 인식된 단어의 크기는 수십만 개의 단어 클래스와 무제한 어휘로 나눌 수 있다.
또 다른 기술적 제한은 음성 인식이 스피커의 특성에 따라 다르다는 것입니다. 특정 스피커에만 높은 감지 성능을 제공하며, 상대적으로 쉽게 인식할 수 있으므로 사용할 수 있는 모든 스피커를 다음과 같이 분류할 수 있습니다.
확성기에 따라 달라지는 음성 인식은 특정 스피커나 사용자가 자신의 음성으로 인식자를 미리 훈련시켜야 한다. 이 경우 인식자는 훈련된 스피커의 음성을 다른 스피커보다 더 정확하게 인식할 수 있습니다. 사용자의 유사한 목소리가 성능에 영향을 미칠 수 있습니다. 구현이 비교적 쉬우므로 단말기에 적용되지만 사용자 학교에 불편하기 때문에 제한된 영역에서만 사용됨
목표는 수십만에서 수천 개의 음성 정보를 사전에 추출하여 스피커에 의존하지 않는 데이터베이스로 변환하는 것이다.사용자는 추가 교육 없이 음성 출력을 사용할 수 있습니다. 구현은 확성기 의존적 인식보다 더 어렵지만, 대부분의 상용 시스템은 현재 이 방법을 사용하고 있다.
확성기의 적응 방법은 확성기의 독립성과 독립성 사이의 절충안이다. 특정 확성기가 독립적인 확성기를 사용할 때, 그것은 자신의 목소리에 적응하고 자신의 음성 인식을 사용한다. 따라서 사용자는 필요한 볼륨을 줄이고 인식 값을 사용해야 합니다.
'음성언어기술' 카테고리의 다른 글
| 음성 합성 기술의 현황분석 (0) | 2022.09.21 |
|---|---|
| 소리의 정의 및 원리 (0) | 2022.09.18 |