スマホで文字を入力する速度は、話すよりずっと遅い。1分あたりで入力できるのは36ワード程度だが、声に出せばその4倍以上のスピードで意図を伝えられる。
この記事でわかること:
- Essential VoiceがAI音声入力で何を変えたか
- 具体的な機能と使い方
- 対応デバイスとプライバシーの仕組み
Nothingは2026年4月23日、AI音声入力ツール「Essential Voice」を発表した。スマホの音声入力をシステムレベルで刷新する新機能だ。
https://techcrunch.com/2026/04/24/nothing-introduces-an-ai-powered-dictation-tool/
従来の音声入力の問題
スマホの音声入力には長年の弱点がある。「えー」「あの」といった言い淀みがそのままテキストになり、文章が整形されないため読み返すたびに編集が必要になる。音声入力専用アプリも存在するが、システムに統合されていないため起動が一手間かかるのも難点だ。
Essential Voiceはこの問題を3つの方向で解決する。フィラーワードの自動削除、文章の自動整形、そしてキーボードへのネイティブ統合だ。
主な機能
リアルタイムでフィラーワードを削除する
話しながら文字にするとき、Essential Voiceは「えー」「あの」などの言い淀みを除去し、整形されたテキストを生成する。リストや箇条書き、手順書のような構造化テキストへの変換も自動で行う。話した内容がそのままコピペできる状態で出力されるのが最大の特徴だ。
100言語に対応した翻訳機能
自動言語検出をサポートし、100言語以上での利用が可能。「最後をスペイン語に翻訳して」と声で指示するだけで、その場でテキストが翻訳される。地域ごとの表記の違いにも対応しており、英語の場合はイギリス英語・アメリカ英語などを区別して扱える。
カスタムショートカット
よく入力する情報を短いフレーズに紐づけて登録できる。「自宅の住所」と言えば登録された住所がそのまま入力される。お気に入りのレストラン名に住所とリンクをひも付けることも可能で、「○○レストランの場所を送って」と言うと住所とURLがセットで入力される仕組みだ。「メールを送って」という発話でメールアドレスを自動入力することもできる。
システムレベルの統合
Wispr FlowやSuperwhisperなど多くのAI音声入力ツールはサードパーティアプリとして動作する。Essential Voiceはキーボードに直接統合されており、どのアプリを使っている最中でもキーボードから起動できる。Nothing Phone (3)のようにEssential Keyを搭載するデバイスでは、そのボタン一押しで起動する。
今後はアプリのカテゴリ(仕事・メッセージなど)に応じてAIの編集トーンを変更できる機能も追加される予定だ。
競合ツールとの違い
AI音声入力の分野には、Wispr Flow、Superwhisper、Willow、Monologueなど複数の競合が存在する。いずれもサードパーティアプリとして独立して動作し、ユーザーは別途インストールして使う形になる。
TechCrunchによると、NothingはシステムレベルでAI音声入力を統合した「最初の企業の一つ」だ(参考)。同時期にSuperwhisperもiPhoneのアクションキーへの対応を追加したが、OSに直接組み込まれた統合とは異なるアプローチを取っている。
システム統合の利点は「特定のアプリを開かずに使える」という点に集約される。メッセージアプリ、メモアプリ、検索ボックスなど、どこでも同じ操作で音声入力が呼び出せる。
プライバシーの仕組み
Essential Voiceはユーザーが明示的に起動したときだけ動作する。バックグラウンドでの常時録音は行わない。音声データはNothingのサーバーで暗号化処理され、変換されたテキストのみがデバイスに返送される。Nothingはサーバー側に録音を永続保存しないと説明している。
常時マイクがオンになっているような挙動ではなく、使う瞬間だけ処理が走る設計だ。
対応デバイスと提供時期
| デバイス | 提供時期 |
|---|---|
| Nothing Phone (3) | 2026年4月 提供中 |
| Nothing Phone (4a) Pro | 2026年4月中 |
| Nothing Phone (4a) | 2026年5月初旬 |
追加料金はかからない。既存のNothingスマホへのソフトウェアアップデートとして配信される。
AI音声入力の競争が本格化している
2026年に入り、AI音声入力ツールの競争は加速している。GoogleはオフラインのAI音声入力アプリをリリースし、各社が独自機能を打ち出している。
Nothingのアプローチの特徴は、スマホOSにネイティブ統合された音声入力という点にある。アプリを別に入れる必要がなく、どの画面からでも同じ体験で利用できる。スマホの主入力がキーボードから音声へと移行するとすれば、こうしたシステム統合がその起点になると考えられる。