幼児に装着したヘッドカメラのデータだけで、AIが言語を学習
2024/03/13 06:30
ニューヨーク大学は2024年2月1日、幼児の頭に取り付けたカメラで収集したデータを使って、マルチモーダルAIを訓練するという研究を発表した。この研究の成果は、2024年2月2日付で『Science』に掲載された。また、その内容について、研究者がニューヨーク大学の公式YouTubeチャンネルで解説している。
OpenAIのGPT-4のような最先端のAIシステムは、人間のように言葉を使いこなすことで話題になっている。これが可能なのは、インターネットから集められた天文学的な量のデータを学習しているためだ。その量は、1人の人間が一生のうちに受け取るものの100万倍にもなるという。
一方、人間の幼児は、自分の環境にあるものを吸収するだけで、より少ないインプットで言語を学習する。控えめに言っても、子供たちが自然な環境の中だけで耳にする単語の量が、AIが受け取るデータ量に達するには10万年もの経験が必要だと、ニューヨーク大学データサイエンスセンターおよび心理学科の助教で、論文のシニアオーサーのBrenden Lake氏は語る。そのため、日常的な環境で学習している1人の子供の目と耳を通して、AIシステムを訓練することが理想的なテストとなるという。
そこで、研究チームは生後6カ月から25カ月までの間、週に1回、1人の幼児に小さなカメラを装着し、20カ月の合計で60時間以上の映像を撮影した。これには、約25万の単語が含まれており、その単語が話されたときに子どもが見た映像フレームとリンクしている。また、食事、読書、遊びなど、発達の全般にわたるさまざまな活動が含まれている。
このような1人の子供のインプットの一部だけでマルチモーダルAIシステムを訓練したところ、日常的な環境の単語の相当数を学習できることが分かった。このシステムは、単語と視覚的に参照される物体の対応付けを学習できたのだ。Lake氏は、現在のAIシステムが、子供が言語を学習するときに実際に受け取るようなごくわずかな量のデータに晒されただけで、これほど学習できることに驚いたという。
ただし、幼児がビーチで遊んでいるときだけ手という単語がよく出てくるため、モデルが手という単語を砂と結びつけてしまうなどの失敗もあった。これらは今回のデータの限界を浮き彫りにする興味深い事例だという。
(fabcross for エンジニアより転載)