우연히 페이스북 그룹에서 OpenAI에서 공개한 음성을 텍스트로(STT - Speech To Text) 프로그램인 Whisper에 대해 소개를 했다. 그래서 마침 필요한 곳이 있어서 이용해 보기로 했다.
설치
작업 환경은 Windows 10이고 WSL은 안쓰기 때문에 Window Powershell 에서 진행을 했다.
파이썬 3.9.9, Chocolatey이 필요하고 아래와 같이 순차적으로 설치를 시작한다.
- 반드시 작업은 파워쉘 관리자 권한에서 실행을 해야 한다.
pip install -U openai-whisper
pip install git+https://github.com/openai/whisper.git
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
pip install setuptools-rust
텍스트로 추출하기
테스트할 음성파일을 가지고 텍스트 추출을 아래와 같이 진행한다.
Bash shell을 사용하는 것 처럼 출력방향을 텍스트 파일로 하여 내용을 저장하려 했으나 실패하여 파워쉘에서 텍스트를 복사해 메모장에 저장하는 형태로 작업을 했다.
whisper test.mp3
test.mp3
파일은 텍스트로 추출할 음성파일이다.
- 위 스크린샷과 같이 음성을 텍스트로 변환해 준다. 하지만 내용을 보고 수정이 필요하다.
- [주의] 반드시 관리자 권한에서 실행하세요!
어떻게 활용할 것인지
해당 프로그램으로 회의내용 정리, 강의 내용정리 같은 곳에 활용할 수 있다.
나는 동영상 강의 같은 곳에서 내용을 정리를 하기 위해 사용할 생각이다.