EarScribe 소개

EarScribe는 Transformers.js와 WebGPU / WebAssembly 런타임을 사용하여 OpenAI의 Whisper 음성 인식 모델을 브라우저에서 직접 실행하는 정적 웹 앱입니다.

오디오에 접근하는 백엔드는 존재하지 않습니다. Cloudflare Pages 호스트는 정적 HTML, JS, CSS 파일만 제공합니다. Whisper 모델 가중치는 최초 사용 시 Hugging Face CDN에서 가져와 브라우저에 캐시됩니다.

Transformers.js, ONNX Runtime Web, 그리고 OpenAI의 오픈소스 Whisper 모델을 기반으로 제작되었습니다.

무료 무제한 음성 텍스트 변환 — 자주 묻는 질문

EarScribe는 정말 100% 무료이고 제한이 없나요?

네 — 100% 무료, 무제한, 회원가입·로그인 불필요입니다. 유료 요금제, 신용카드, 분당 요금, 일별·월별 사용 한도가 전혀 없습니다. Whisper 음성 인식 모델이 사용자의 기기에서 직접 실행되므로 클라우드 연산 비용이 발생하지 않습니다. 아무 조건 없는 무료 음성 텍스트 변환입니다.

제 오디오 파일은 안전하게 보호되나요?

완전히 보호됩니다. EarScribe는 로컬 우선 음성 텍스트 변환기로, 오디오 파일이 기기 밖으로 나가거나 서버에 업로드되는 일이 없습니다. 계정이 필요 없으므로 개인 데이터가 수집되지 않습니다. 모델을 다운로드한 후에는 오프라인에서도 사용할 수 있습니다.

오디오가 어딘가에 업로드되나요?

아닙니다. 무료 음성 텍스트 변환은 완전히 로컬에서 처리됩니다 — 오디오는 기기에서 디코딩되어 Web Worker에서 실행 중인 Whisper 모델에 전달됩니다. 서버로 전송되는 데이터는 없습니다.

첫 번째 실행이 느린 이유는 무엇인가요?

음성 텍스트 변환을 위해 처음으로 모델을 선택하면 브라우저가 모델을 다운로드합니다(크기에 따라 80MB~800MB). 이후에는 무료 음성 텍스트 변환 모델이 캐시되어 재사용되므로 다시 다운로드할 필요가 없습니다.

지원되는 언어는 몇 가지인가요?

Whisper를 통해 99개 언어를 지원합니다. 언어는 자동으로 감지되므로 직접 선택할 필요가 없습니다.

동영상을 변환할 수 있나요?

직접적으로는 지원하지 않습니다. 동영상의 음성을 텍스트로 변환하려면 먼저 오디오를 추출해 주세요(MP3 또는 WAV를 출력할 수 있는 도구라면 무엇이든 사용 가능합니다).

오프라인에서도 사용할 수 있나요?

모델이 한 번 다운로드된 후에는 오프라인에서도 무료 음성 텍스트 변환이 가능합니다. 처음에는 페이지를 로드해야 하지만, 이후의 변환은 인터넷 없이도 작동합니다.

MP3를 무료로 텍스트로 변환하는 방법은?

EarScribe에 MP3를 드래그하면 무료로 텍스트로 변환됩니다. 파일은 브라우저에서 디코딩되고 Whisper가 로컬에서 변환을 수행합니다. 변환된 텍스트를 복사하거나 SRT, VTT, TXT, JSON 형식으로 내보낼 수 있습니다. 업로드 과정도, 계정도 필요하지 않습니다.

Otter.ai나 Rev의 무료 대안이 있나요?

EarScribe는 Otter.ai, Rev, HappyScribe 같은 클라우드 음성 변환 서비스의 무료 대안입니다. 차이점은 사용자의 기기에서 직접 연산을 처리한다는 점이지만, 오디오는 기기 밖으로 나가지 않으며 분당 요금이나 구독료도 없습니다.

오디오에서 SRT 또는 VTT 자막을 생성할 수 있나요?

네. 음성 텍스트 변환 후 내보내기 → .srt 또는 .vtt를 클릭하세요. 큐 타이밍은 Whisper가 출력하는 타임스탬프에서 생성되므로, 수동으로 분할하지 않아도 자막이 오디오와 정확히 동기화됩니다.

브라우저에서 OpenAI Whisper를 직접 실행할 수 있나요?

네 — EarScribe는 Transformers.js를 통해 WebGPU에서 Whisper(Tiny, Base, Small, Large v3 Turbo)를 브라우저에서 직접 실행합니다. WebGPU를 사용할 수 없는 경우 WebAssembly로 자동 전환됩니다.