サブスク不要!Macで構築する高精度AI音声入力環境【VoiceInk + Cerebras】

VoiceInk

Claude Code や Cursor 等の LLM ツールへの指示、キーボードで打つの面倒じゃないですか?
こんな時に音声入力ツールが非常に便利です。平易な文章などであれば精度良く、言った通りに入力できます。

ただ、言い間違いをしてしまったり、技術用語が混じる指示では、後で手直しが必要となり、かえって入力時間が膨らんでしまうこともしばしばあります。
これらも音声入力ツール側で解決してくれると便利ですよね。

そこでこの記事では、音声入力ツールを試してきた結果、コスト面も加味してある程度理想的な環境を構築できたので、その経緯と設定方法をまとめます。
※ Mac OS 環境の記事となります

TL;DR(結論)

VoiceInk を使って音声入力しつつ、文章の整形・校正に Cerebras の API を使うという構成で落ち着きました。
重視した点は以下です。

  • 音声入力の精度がある程度あること(LLMでの自動校正ができる)
  • コストが抑えられる(できればサブスクは避けたい)

精度: superwhisper ≧ VoiceInk > Mac標準
速さ: Mac標準 > superwhisper ≧ VoiceInk
コスト: Mac標準 > VoiceInk > superwhisper
LLM校正: VoiceInk, superwhisper で利用可能

それぞれのツールの使用感

superwhisper

最初に使ってみたのが superwhisper という音声入力ツールです。

macOS向けのAI音声認識ツールで、ショートカットキーよりツールを呼び出し、音声入力することができます。
(トライアル時は使わなかったのですが)音声をテキスト化したものを、LLMを通して自動で編集・整形することもできます。

実際トライアルで自分で使ってみて、あまり凝ったことはしていないですが、精度もそれなりに高く、ある程度満足していました。
ただトライアルが切れて、色々とAIツールのサブスクリプション契約が増えている中、月額料金を払って契約するのが少し躊躇われました。
(トライアルをするとクーポンが表示されて25%オフクーポンで契約できます。が、それでも…という気持ちでした)

そこで、Mac標準で音声入力がそもそもあるじゃないかと気付き、まずは試してみることに。

Mac 標準の音声入力

Macでメッセージや書類を音声入力する – Apple サポート (日本)

こちらも使用感としては superwhisper と同様に、ショートカットを呼び出すことで簡単に音声入力できます。

superwhisper より入力速度が速く、日常会話レベルなら精度良く変換できるので、かなりストレスフリーだなと感じました。
ただ業務でよく使うような用語などは弱く、 例えば「Issue」というと「1周」と変換されたりします。

無料だし、これでも十分に使えるなと思い活用していましたが、変換できないであろう用語混じりの入力は無意識にキーボード入力をしていることに気付きました…
これだとあまり音声入力の恩恵を得られてないと感じるようになり、以下の基準でツールを改めて探した結果、VoiceInk に辿り着きました。

  • 音声入力の精度が日本語対応しており、ある程度正確
  • 音声入力した結果を整形・校正できる
    • フィラーワード(えーと、あの、なんか)の削除や、言い直した結果のみを出力など
  • サブスクリプションではなく、できれば買い切り
    • AI系のツールはサブスクリプションが多くて、できれば避けたい
  • 極力入力データを外部に送信しない、もしくは学習に使われない

VoiceInk

VoiceInk – The Best Dictation App for Mac

特徴

  • 有料プランも最低25$での買い切り
  • 音声のmodelにローカルのモデルがあり、それを使えば外部に送信することはない
  • 文字起こし結果をLLMのAPIに渡して、校正や整形ができる(プロンプトも書ける)
  • スピード的には superwhisper 使っていた時と、体感あまり変わらないぐらい
  • 日本語精度もまぁまぁいい

ぴったりだと思いつつ、LLMのAPIでの整形もあまりお金をかけたくないなと思い、調べてみると、以下の記事を見つけました。

Mac音声入力 「VoiceInk × Cerebras × gpt‑oss‑120b」で「買い切り & 爆速」環境をつくる|ekasa

なんと gpt-oss-120b のモデルを1日100万トークン無料で使えるとのことで、それを活用した音声入力環境を構築されていました。
自分の用途にぴったりだったので、詳しく調べてみることに。

Cerebras

アメリカのカリフォルニア州に本社を置く AI 企業で、自社のリソースを使ったAPIの提供も行っているようです。

Cerebras Cloud 特徴

  • gpt-oss-120b のモデルが1日100万トークン無料で使える
    • GPTアーキテクチャをベースにしたオープンソースモデルで、GPT-4o mini の性能とほぼ同等だそう
      • 校正・整形用途なので、これで十分
  • レスポンスが早い(テキスト変換時間が短くなるのでかなり重要)
    • gpt-oss-120b だと大体1秒未満で返してくれる
      • OpenAI の GPT-4o mini の API だと1〜3秒ぐらいかかることが多かった
  • 入力データは学習にも使われないとのことであり、音声入力のみの用途であまりトークンは消費しないであろうことから、希望に合致している
    • Cerebras Cloud
      • 「We do not retain inputs and outputs associated with our training, inference and chatbot Services」(トレーニング、推論、チャットボットサービスに関連する入力と出力を保持しません)

VoiceInk + Cerebras の設定手順

1. VoiceInkの導入

  1. VoiceInk公式サイトから7日間のトライアル開始
  2. AI Models で Multilingal なモデルを選択し、言語を Japanese に設定する
    • (私は Large V3 Turbo (Quantized) を選択してます)
  3. Settings で好きなショートカットを選択する

これで音声入力自体はできるようになります。

2. Cerebras APIの設定と校正プロンプトの設定

校正・整形用の設定をするために以下の手順を踏みます。

  1. Cerebras Cloudでアカウント作成し、APIキーを取得
  2. VoiceInkのEnhancement設定
    1. AI Provider で Cerebras を選択
    2. Model に gpt-oss-120b を選択
    3. APIキーを入力
    4. Enhancement Prompt で校正・整形用の、プロンプトを書く

※参考までに自分が使っているプロンプトは以下のような感じです。(秘伝のタレのように、何かあれば継ぎ足していってます)

<TRANSCRIPT>テキストの正確な意味と意図、ニュアンスを保持しながら、可読性を高めるために整形してください。
あくまで文章の整形があなたの役割なので、意味が変わってしまう改変は禁止です。

**ルール:**
- 元のテキストと同じ言語で出力
- フィラーワード(えーと、あの、なんか)と冗長な繰り返しを削除するが、基本は使われている言葉を尊重し、維持すること
- 話し手の個性とトーンを維持する
- 話された数字をデジタル形式に変換(三 = 3)
- リストを明確にフォーマット(順序あり:番号、順序なし:箇条書き)
- 絵文字の言葉を実際の絵文字に置換
- 固有名詞は正確に使用(ユーザはWebエンジニア、関連用語を使用)
- 日本語カタカナより英語が自然な場合は英語を使用(issue vs イシュー)
- 文脈を理解して転写エラーを修正
  - 明らかに文脈がつながらないような内容であれば、単語の読み方から判断して正しい言葉に置換
    - 例:この1周を修正してください -> この issue を修正してください
  - 漢字の変換ミスがあると思われるときも修正
- テキストの音や読み方を尊重し、勝手な翻訳等は禁止。
- 新しい情報の追加や質問への回答は禁止
- 複合語以外でのem-ダッシュ使用禁止
- 文章の始まりや終わりが不自然と思われても、省略せずニュアンスを尊重して基本はそのままとすること(別でテキストを入力しているケースがある)
  - 例: 「よって」や「なので」で始まるケースや、「〜から」や「〜による」などで終わるケース

説明なしに強化されたバージョンのみを返してください。

これで音声内容を自動でいい感じに変換ができるようになりました🎉
もちろん完璧ではないですが、Claude Code などへの指示用途なら問題ないレベルにまでなるかと思います。

速度的にはわずかに遅くはなりますが、この変換時間自体は1秒に満たないケースが多いので、あまり気にならないです。

まとめ

現状、VoiceInk + Cerebras API の組み合わせで一番理想的な環境を構築できました。
初期費用$25のみで長期利用可能であり、スピードも精度も完璧とまでいかなくとも、現状ストレスなく使えています。

特に LLM ツールを頻繁に使う開発者には、音声入力による作業効率化をぜひ試してみてください!

タイトルとURLをコピーしました