음성 인식 이해

문제를 제거하기 위해 도구를 사용해보십시오





소파에 편안히 앉아 컴퓨터 나 노트북 또는 휴대폰을 주문하여 편지를 입력하거나 몇 가지 명령을 수행하는 것과 같은 간단한 작업을 수행한다고 상상해보십시오. 가능할까요?

물론 그렇기 때문에 음성 인식이 등장합니다.




정의에 따르면 인간의 음성을 인식하고 텍스트 형식으로 해독하는 과정입니다.

원리

기본 원리 음성 인식 인간이 말한 말이나 말이 음파라고 알려진 공기 중에 진동을 유발한다는 사실을 포함합니다. 이러한 연속 또는 아날로그 파동은 디지털화되고 처리 된 다음 적절한 단어와 적절한 문장으로 디코딩됩니다.



음성 인식

음성 인식 시스템의 구성 요소

그렇다면 기본 음성 인식 시스템은 무엇으로 구성됩니까?

음성 인식 시스템의 구성 요소

  • 음성 캡처 장치 : 음파 신호를 전기 신호로 변환하는 마이크와 아날로그 신호를 샘플링하고 디지털화하여 컴퓨터가 이해할 수있는 이산 데이터를 얻는 Analog to Digital Converter로 구성됩니다.
  • 디지털 신호 모듈 또는 프로세서 : 주파수 영역 변환과 같은 원시 음성 신호에 대한 처리를 수행하고 필요한 정보 만 복원합니다.
  • 전처리 된 신호 저장 : 전처리 된 음성을 메모리에 저장하여 음성 인식의 추가 작업을 수행합니다.
  • 참조 음성 패턴 : 컴퓨터 또는 시스템은 미리 정의 된 음성 패턴 또는 메모리에 이미 저장되어있는 템플릿으로 구성되어 일치를위한 참조로 사용됩니다.
  • 패턴 매칭 알고리즘 : 알 수없는 음성 신호를 기준 음성 패턴과 비교하여 실제 단어 또는 단어 패턴을 결정합니다.
시스템 작동

이제 전체 시스템이 실제로 어떻게 작동하는지 살펴 보겠습니다.


시스템 작동

  • 음성은 음향 파형, 즉 메시지 정보를 전달하는 신호로 볼 수 있습니다. 조음 기 (음성 기관)의 움직임 속도가 제한적인 일반 인간은 초당 평균 10 개의 소리 속도로 음성을 생성 할 수 있습니다. 평균 정보 속도는 약 50-60 비트 / 초입니다. 이는 실제로 음성 신호에 50 비트 / 초의 정보 만 필요함을 의미합니다. 이 음향 파형은 마이크에 의해 아날로그 전기 신호로 변환됩니다. 아날로그-디지털 변환기는 이산 간격으로 파동을 정밀하게 측정하여이 아날로그 신호를 디지털 샘플로 변환합니다.
  • 디지털화 된 신호는 초당 16000 회 샘플링 된 주기적 신호 스트림으로 구성되며 실제 수행하는 데 적합하지 않습니다. 음성 인식 패턴을 쉽게 찾을 수 없기 때문에 프로세스. 실제 정보를 추출하기 위해 시간 영역의 신호는 주파수 영역의 신호로 변환됩니다. 이것은 FFT 기술을 사용하는 디지털 신호 프로세서에 의해 수행됩니다. 디지털 신호에서 1/100 이후 구성 요소1 초의 시간이 분석되고 이러한 각 구성 요소에 대한 주파수 스펙트럼이 계산됩니다. 즉, 디지털화 된 신호는 주파수 진폭의 작은 부분으로 분할됩니다.
  • 각 세그먼트 또는 주파수 그래프는 인간이 만든 서로 다른 소리를 나타냅니다. 컴퓨터는 알 수없는 세그먼트와 특정 언어의 저장된 음성 학적 일치를 수행합니다. 이 패턴 일치는 세 가지 방법으로 수행됩니다.

음향 음성 접근 방식 사용 : 음향 적 음성 접근법에서는 일반적으로 Hidden Markov Model이 사용됩니다. 이 모델은 음성 인식을위한 비 결정적 확률 모델을 개발합니다. 이 모델은 컴퓨터 메모리에 저장된 음소의 숨겨진 상태와 디지털 신호의 가시 주파수 세그먼트라는 두 가지 변수로 구성됩니다. 각 음소는 자신의 확률을 가지고 있으며, 세그먼트는 그 확률에 따라 음소와 매칭되고 매칭 된 음소는 저장된 언어의 문법 규칙에 따라 올바른 단어를 형성하기 위해 함께 수집됩니다.

패턴 인식 접근 방식 사용 : 패턴 인식 접근법에서 시스템은 모든 언어에 대한 특정 음성 패턴으로 훈련되고 시간 왜곡 기법을 사용하여 신호 사이의 거리를 결정하여 알려지지 않은 음성 패턴을 기준 음성 패턴과 비교합니다.

인공 지능 사용 : 인공 지능 접근 방식은 스펙트럼 측정을 기반으로하는 소리에 대한 지식, 적절한 의미 및 구문 단어에 대한 지식과 같은 기본 지식 소스의 활용을 기반으로합니다.

음성 인식 시스템이 의존하는 요소

음성 인식 시스템은 다음 요인에 따라 달라집니다.

  • 고립 된 단어 : 연속 된 단어가 겹칠 수있어 단어가 시작되거나 끝나는 시점을 시스템이 이해하기 어렵 기 때문에 연속 된 단어 사이에 멈춤이 있어야합니다. 따라서 연속 된 단어 사이에는 침묵이 있어야합니다.
  • 단일 스피커 : 많은 화자가 동시에 음성 입력을 시도하면 신호가 겹치거나 중단 될 수 있습니다. 사용되는 대부분의 음성 인식 시스템은 화자 종속 시스템입니다.
  • 어휘 크기 : 어휘가 큰 언어는 어휘가 작은 언어보다 패턴 매칭에 고려하기가 어렵습니다. 후자에서는 모호한 단어를 가질 가능성이 적기 때문입니다.
Windows 7의 음성 인식 시스템

음성 인식 시스템에 Windows 7을 사용하는 모든 사용자에게 다음 단계를 권장하고 싶습니다.

  • 시작 메뉴에서 또는 아이콘을 클릭하여 제어판을 엽니 다.
  • 접근성을 선택한 다음 음성 인식을 클릭합니다.
  • 그런 다음 마이크 설정을 클릭하고 사용 가능한 옵션에서 데스크톱 마이크를 선택합니다.
  • 다음으로 음성 튜토리얼을 듣고 주어진 지침을 따르십시오.
  • 그런 다음 컴퓨터가 음성 신호의 명확한 패턴을 저장하도록 컴퓨터를 더 나은 옵션으로 훈련 시키십시오. 이 작업은 '컴퓨터를 더 잘 이해할 수 있도록 교육'옵션을 클릭 한 다음 지침을 따릅니다.
  • 이제 음성 인식 아이콘을 시작하고 컴퓨터에 음성을 받아쓰기 시작합니다. 컴퓨터 사전에 자신의 단어를 추가 할 수도 있습니다.
실용적인 음성 인식 시스템 : HM2007 사용

음성 인식 IC를 이용한 실용적인 음성 인식 시스템 구축 가능 HM2007 . HM2007은 음성 인식 기능을 제공하는 48 핀 IC입니다. 수동 모드 또는 CPU 모드의 두 가지 모드로 작동합니다. 두 모드에서 IC는 먼저 키를 누른 해당 숫자에 대해 각 단어를 말하는 사용자에 의해 단어를 인식하도록 훈련됩니다. IC는 각 워드 신호를 워드에 해당하는 메모리 위치에 저장합니다. IC에서 출력 된 데이터는 LCD에 표시되는 마이크로 컨트롤러에 인터페이스됩니다.

실용적인 음성 인식 시스템

일반적으로 HM2007 작동에는 수동 모드를 사용합니다.

  • HM2007은 IC가 교육용으로 준비되었음을 나타내는 액티브 로우 핀인 RDY 핀으로 구성됩니다.
  • 음성 입력은 IC의 MICIN 핀에 연결된 마이크를 통해 제공됩니다.
  • IC는 각 단어에 해당하는 숫자 입력을 제공하는 데 사용되는 키패드와 인터페이스됩니다. IC는 Clear와 Train의 두 가지 기능으로 작동합니다. 키보드에서 Train 키를 누르면 IC가 교육 프로세스를 시작합니다.
  • 사용자는 'Train'기능 키를 누르기 전에 숫자 키를 누르고 마이크에 필요한 단어를 말합니다.
  • IC는 SRAM의 해당 ME 핀에 연결된 ME (Memory Enable) 핀에 하이 신호를 보냅니다. 누른 번호에 해당하는 8 비트 데이터 신호는 외부 버스를 통해 SRAM (외부 RAM)에 저장됩니다.
  • 음성 입력이 감지 된 후 RDY 핀은 로직 하이가되고 IC는 인식 프로세스를 시작하는 인식 상태가됩니다.
  • 프로세스의 결과는 DEN (Data Enable) 핀이 하이 인 데이터 버스를 통해 제공됩니다.
  • 8 비트 데이터는 직렬 인터페이스 프로세서를 통해 마이크로 컨트롤러에 제공되거나 래치 IC 74HC573을 사용하여 먼저 래치 될 수 있습니다.
  • 마이크로 컨트롤러는 LCD와 인터페이스되며 해당 단어가 디스플레이에 표시되도록 프로그래밍됩니다.

취해야 할 유일한 예방책은 동음 이의어 (유사한 소리를 가진 단어)를 사용하지 않고 음성의 자극을 처리하는 것입니다.

그래서, 이것은 모든 방법입니다 기본 음성 인식 시스템 공장. 추가 입력은 환영합니다.

이미지 크레딧

음성 및 화자 인식 소개에 의한 음성 인식 시스템의 구성 요소 – Richard D. Peacocke 및 Daryl H. Graf