Watson Speech to Text をPythonで使ってみよう

Watson Speech to Text をPythonで使ってみよう

Watson APIのSpeech to TextをPythonで実装してみましょう

こんにちは。

AI coordinatorの清水秀樹です。

WatsonのSpeech to textを使用するには、Bluemixのユーザーアカウントが必要になります。

まだ登録していない方は以下の記事を参考にしてください。

IBM Bluemix登録方法30日間は無料で使用できるぞ

 

Python SDKも必要になります。

Python環境構築は以下の記事を参考にしてください。

Pepper用Python 2.7 SDK(WIN)セットアップ方法

Pepper用Python 2.7 SDK(MAC)セットアップ方法

 

BluemixからSpeech to Textを作成しよう

Speech to TextアプリをBluemix上で作成しましょう。

アプリの作成方法は以下の記事を参考にしてください。

カタログ上で選択するアプリを変更するだけです。

Watson APIを使った翻訳できるPepperサンプル

Watson APIのNLCを簡単に作成して使う方法

 

アプリケーションが作成できたら、Bluemixのダッシュボード上のサービス欄にSpeech to Textが表示されていることを確認しましょう。

Watson Speech to Text をPythonで使ってみよ 画像1

サービスを使用するためのサービス資格情報は、上記赤丸部分をクリックすれば次画面で取得できます。

API発行時に使用するのでメモしておきましょう。

Watson Speech to Text をPythonで使ってみよ 画像2

音声データの準備

次は音声データの準備です。

特に難しいことはありません。

Windowsであればボイスレコーダーを使用して音声を取得できますし、MACであればQuickTime Playerのファイルメニュー内にある新規オーディオ収録から録音が可能です。

 

ただし注意点として、Speech to Textでは使用できる音声データが決まっています。

使用できる音声データは、FLAC、WAV、OGGといった形式になるため、WindowsやMACで録音した音声データをそのまま使用することができません。

適当なツールなりサイトなりを利用して、Speech to Textで使用できる音声データに変換しておきましょう。

 

この例では「こんにちは。今日も元気です」と録音したデータを使用しています。

 

Pythonコード

Pythonコードは以下通りです。

特に難しくありません。

ソースコードのダウンロードはこちらから → speech-to-text.zip

 

上記ソースを実行して、結果画面に録音した音声データのテキストが表示されていれば成功です。

「こんにちは」が「今日は」になっていますが、ひとまずテキスト化には成功しているようです。

 

ぜひお試しあれ。

 

それではまた。

この記事の内容について、相談したい方へ

技術選定・実装の進め方・組織での導入など、AI/IoT全般のご相談を受け付けています。

無料相談会(30分・オンライン)

About The Author

Hideki
東京大学発AIスタートアップでロボット開発室室長・画像解析室室長・動画解析室室長を務め、画像認識関連のAI特許を在籍中に3件取得。その後、KDDIグループでプロダクトリーダーとして自然言語処理パッケージの自社開発を経て、現在はAGRIST株式会社の執行役員CTO 兼 VPoEとして、農業の人手不足解決に向けた収穫ロボットの開発組織を統括しています。AI・ハード・エレキ・通信・クラウド・IoTまでを一気通貫で設計できる視点を強みに、性能だけでなく「感動やワクワク体験」までデザインできるロボットの研究を進めています。並行して、AI coordinatorとして企業のAI導入・教育機関のAI授業・地域の技術相談を月額契約で継続伴走しています。

COMMENTS & TRACKBACKS

  • Comments ( 0 )
  • Trackbacks ( 1 )

コメントはまだありません。

LEAVE A REPLY

*
*
* (公開されません)