「見ている」物を合成音声で説明する「目玉」を作ってみる——ラズパイとOpenAI APIを活用
2023/08/31 06:30
3Dプリント製の動眼が「見ている」物をOpenAI APIを活用して認識し、その結果を合成音声で読み上げるデバイスをRaspberry Pi公式ブログが紹介した。
このデバイスは、Raspberry Pi Zero 2 W、Raspberry Piカメラモジュール、目玉部分の円盤に加え、モーター制御用のPimoroni製「Inventor HAT Mini」、モーター、スピーカー等で構成。白目を模した白い円盤と黒目(瞳孔部分)を模した黒い円盤がセットで1つの動く「目玉」となり、計2つの目玉が使用されている。
デスクトップ上のマウスカーソルの動きを黒目が追うアプリケーション「xeyes」の動眼のようにも見えるデバイスだが、実際に対象物を「見て」いるのは、2つの目玉の間に配置されたRaspberry Piカメラモジュールだ。
Raspberry Piカメラで撮影した画像をRaspberry Pi Zero 2 WからOpenAIに送信すると、画像に何が映っているのかを説明するテキストが送り返されてくる。その後、合成音声でテキストを読み上げてスピーカーからアナウンスする仕組みだ。
黒目の部分はエンコーダー付きモーターを使用して回転させるので、正確な位置決めが可能だ。黒目をぐるりと360度回転させたり、ある方向を見ているようにするため特定の位置まで回転させたりできるとのことだ。
各パーツを収納するホルダーや目玉部分の円盤などいくつかの部品を3Dプリントする必要があり、3Dプリント用のSTLファイルはプロジェクトの解説ページからダウンロードできる。