EarScribeについて

EarScribeは、Transformers.jsとWebGPU / WebAssemblyランタイムを使用してOpenAIのWhisper音声認識モデルをブラウザ上で直接動作させる静的Webアプリです。

音声データに触れるバックエンドは一切ありません。Cloudflare PagesホストはHTML、JS、CSSの静的ファイルを配信するだけです。Whisperモデルのウェイトは初回使用時にHugging Face CDNから取得され、ブラウザにキャッシュされます。

Transformers.js、ONNX Runtime Web、およびOpenAIのオープンソースWhisperモデルを基盤に構築されています。

無料・制限なしの音声テキスト変換 — よくある質問

EarScribeは本当に100%無料で制限なしですか？

はい — 100%無料、制限なし、登録・ログイン不要です。有料プラン、クレジットカード、分単位の料金、日次・月次クォータは一切ありません。Whisperモデルはお使いのデバイス上で動作するため、クラウドの計算コストが発生しません。完全無料の音声テキスト変換です。

音声データのプライバシーとセキュリティは守られますか？

完全プライベートです。EarScribeはローカルファーストの音声テキスト変換ツールです。音声ファイルはデバイス外に出ることなく、サーバーにアップロードされることもありません。アカウント不要のため、個人データが収集されることもありません。モデルをダウンロードした後はオフラインでも使用できます。

音声はどこかにアップロードされますか？

いいえ。音声テキスト変換はすべてローカルで処理されます — 音声はデバイス上でデコードされ、Web Worker内で動作するWhisperモデルに渡されます。サーバーへの送信は一切ありません。

最初の実行が遅いのはなぜですか？

初回にモデルを選択すると、ブラウザがモデルをダウンロードします（サイズに応じて80MBから800MB）。2回目以降はモデルがキャッシュされ再利用されるため、再ダウンロードは不要です。

対応言語は何種類ありますか？

Whisperを通じて99言語に対応しています。言語は自動的に検出されるため、手動で選択する必要はありません。

動画の文字起こしはできますか？

直接は対応していません。動画の音声を文字起こしするには、まず音声を抽出してください（MP3またはWAVを出力できるツールであれば何でもご利用いただけます）。

オフラインでも使用できますか？

モデルのダウンロード後はオフラインでも使用できます。最初にページを読み込む必要がありますが、その後の音声テキスト変換はインターネット接続なしで動作します。

MP3を無料でテキストに変換する方法は？

EarScribeにMP3をドロップするだけで無料でテキストに変換できます。ファイルはブラウザでデコードされ、WhisperがローカルでMP3を文字起こしします。テキストをコピーするか、SRT、VTT、TXT、JSON形式でエクスポートできます。アップロード手順もアカウントも不要です。

Otter.aiやRevの無料の代替ツールはありますか？

EarScribeは、Otter.ai、Rev、HappyScribeなどのクラウド音声変換サービスに対する無料の代替ツールです。違いは、自分のマシンで計算処理を行う点ですが、音声データはデバイス外に出ず、分単位の料金やサブスクリプションもありません。

音声からSRTまたはVTT字幕を生成できますか？

はい。音声テキスト変換後、「エクスポート」→「.srt」または「.vtt」をクリックしてください。キューのタイミングはWhisperが出力するタイムスタンプから生成されるため、手動での分割なしに字幕が音声に同期されます。

OpenAI WhisperをブラウザでそのままWhisperをブラウザで動かせますか？

はい — EarScribeはWhisper（Tiny、Base、Small、Large v3 Turbo）をTransformers.jsを通じてWebGPUで直接ブラウザ上で動作させます。WebGPUが利用できない場合はWebAssemblyにフォールバックします。