機械学習の成否を左右する前処理を学ぶ——リックテレコム、「機械学習のための「前処理」入門」発刊
2019/06/11 14:00
リックテレコムは、構造化データ、画像データ、時系列データ、自然言語について、機械学習における前処理の手順を紹介する「機械学習のための「前処理」入門」を、2019年6月上旬に発刊する予定だ。
データ分析技術の中心には、分析アルゴリズムやモデリング手法があり、機械学習における分析モデルの作成は自動化されつつあるが、投入する特徴量は人の手で前処理して作成するため、実務の現場では前処理の重要性に直面するという。その方法は分析目標とデータ形式によって異なり、そこからどのように特徴量を作り出すかで、機械学習の成否が左右される。
同書では、4種類のデータを対象として、機械学習で予測を行う場合の前処理の基本ノウハウを学び、演習問題を経て、Pythonによる実装までを体験する。データ分析のためのプロセスモデル「CRISP-DM(CRoss-Industry Standard Process for Data Mining)」に沿って実装を進めるので、実務に近い形で前処理のテクニックを身に付けることができる。
付録では、JupyterLab ローカル環境の構築、画像認識モデルや記事分類モデルの作成、記事トピックの抽出、様々な可視化ツールなどについても触れていて、サンプルコードがダウンロードできるサイトが用意されている。
著者は足立悠氏で、B5変型判304ページ。価格は2800円(税別)だ。