この記事は、THE iDOLM@STER Series Advent Calendar 2019 の15日目の記事です。

THE iDOLM@STER Series Advent Calendar
https://adventar.org/calendars/3920

アイドルマスターシンデレラガールズに登場する小日向美穂というアイドルは、
皆さんご存じの通り、データサイエンスアイドルとして知られています。

今まで以下のエントリで小日向美穂のデータサイエンスについて、
その数理的な解説を行ってきましたが、
今回のエントリではデータエンジニアリング視点で、
データの加工プロセスを整理したいと思います。

「何つながりなのかな?」を探る自然言語処理 ~765PRO LIVE THEATERに通りがかる小日向美穂~
https://takemikami.com/2019/02/21/765PRO-LIVE-THEATER.html

IM@S Engineer Talks 2019でお話ししてきました
https://takemikami.com/2019/07/14/IMS-Engineer-Talks-2019.html

一般的な分類問題のデータ加工プロセス

まずは、機械学習を使った一般的な分類問題のデータ加工プロセスを見てみます。

一般的な分類問題のデータ加工プロセス

左の赤枠が学習のプロセス、右の青枠が予測のプロセスです。

学習のプロセスでは、
正解(分類結果)が分かっている教師データを用意し、
教師データを使って学習を行い分類モデルを生成します。

予測のプロセスでは、
分類結果を予測したい対象データに対して、
分類モデルを使って、分類結果を予測します。

具体的には、以下の資料のスライド35〜37あたりがその流れになります。

スライド35,36が学習の部分で、
スライド35が教師データ、スライド36が分類モデルです。
スライド37が予測の部分で、分類結果です。

この例では、
シンデレラガールズのアイドルが教師データ、
ミリオンライブのアイドルが予測の対象データです。

「何つながりなのかな?」のデータ加工プロセス

次に、「何つながりなのかな?」のデータ加工プロセスを見てみます。

何つながりなのかな?」のデータ加工プロセス

一般的な分類問題のデータ加工プロセスと比較して、
最も大きな違いは「予測」が無い事です。

「何つながりなのかな?」で解こうとしている問題は分類問題ですが、
「分類結果を予測したい対象データ」がある訳では無く、
「どうして、その分類結果になったのか?」と言う説明を求めようとしています。

そのため、分類モデルを使って予測するのではなく、
分類モデルに含まれる回帰係数を、単語の分散表現を使って説明するプロセスになります。

このようにデータ加工プロセスを整理してみると、
事前にバッチ処理で「単語の分散表現」「アイドル別の特徴行列」を用意しておけば。
「アイドルの分類情報」を入力として受け付けて、
「つながりを表す単語とスコア」を返却する
Webアプリケーションなどを作ることも可能だということがわかります。

実運用を考えた、機械学習によるアプリケーションの実装を行う場合、
このようにデータの加工プロセスを整理することが大切です。

これできっと、データサイエンスアイドル小日向美穂が実装出来ますね。