Whisper(STT - Speech To Text)

Whisper는 범용 음성 인식 모델입니다. 다양한 오디오의 대규모 데이터 세트에 대해 학습되며 다국어 음성 인식, 음성 번역 및 언어 식별을 수행할 수 있는 멀티태스킹 모델이기도 합니다.

June 6, 2023 less than 1 minute read

우연히 페이스북 그룹에서 OpenAI에서 공개한 음성을 텍스트로(STT - Speech To Text) 프로그램인 Whisper에 대해 소개를 했다. 그래서 마침 필요한 곳이 있어서 이용해 보기로 했다.

https://github.com/openai/whisper

설치

작업 환경은 Windows 10이고 WSL은 안쓰기 때문에 Window Powershell 에서 진행을 했다.
파이썬 3.9.9, Chocolatey이 필요하고 아래와 같이 순차적으로 설치를 시작한다.

반드시 작업은 파워쉘 관리자 권한에서 실행을 해야 한다.

pip install -U openai-whisper
pip install git+https://github.com/openai/whisper.git 
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
pip install setuptools-rust

텍스트로 추출하기

테스트할 음성파일을 가지고 텍스트 추출을 아래와 같이 진행한다.
Bash shell을 사용하는 것 처럼 출력방향을 텍스트 파일로 하여 내용을 저장하려 했으나 실패하여 파워쉘에서 텍스트를 복사해 메모장에 저장하는 형태로 작업을 했다.

whisper test.mp3

test.mp3파일은 텍스트로 추출할 음성파일이다.

위 스크린샷과 같이 음성을 텍스트로 변환해 준다. 하지만 내용을 보고 수정이 필요하다.
[주의] 반드시 관리자 권한에서 실행하세요!

어떻게 활용할 것인지

해당 프로그램으로 회의내용 정리, 강의 내용정리 같은 곳에 활용할 수 있다.
나는 동영상 강의 같은 곳에서 내용을 정리를 하기 위해 사용할 생각이다.

Share on

Twitter Facebook LinkedIn

Whisper(STT - Speech To Text)

Jeongdo

설치

텍스트로 추출하기

어떻게 활용할 것인지

Share on

You may also enjoy

Aqua Security에서 개발한 오픈소스 취약점 스캐너 Trivy

Kubernetes 클러스터 외부로 들어오는 트래픽을 관리하는 Nginx Ingress Controller

업무 보조도구(맞춤법 검사)

AWSKRUG DevOps 소모임 참여(CircleCI)