昨日(5/14)、
「白金鉱業 Meetup Vol.7」と言うデータ分析・エンジニアリングの勉強会で、
お話を聞いて来たので感想などをまとめておきます。

白金鉱業 Meetup Vol.7
https://brainpad-meetup.connpass.com/event/126945/

このイベントは、BrainPadのデータサイエンティストさんが、
受託中心だと、分析業務に関することを社外で言いにくいく、
事業会社に比べると、社外への情報発信、社外との交流が出来ていないのでは無いか?
と言う問題意識から、始められたイベントだそうです。

# 個人的には、BrainPadさんのブログや資料はよく見かけるので、
# 社外への情報発信はしっかりされているイメージがありますが。。

三浦航さん「MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと」

「店舗名称」の入力に対して、
店舗カテゴリを予測する機械学習システムの構築・運用を行う中で、
どのような問題があったか、どのように考え・取り組んだかについて、のお話でした。

印象に残ったポイント:

  • 季節性や状況の変化で、入力データの傾向が大きく変わりタスクの難易度が変わるので評価指標の設計が難しい。
    F値だけでなく、カテゴリ分布の変化・データ件数が少ないカテゴリのprobabilityが下がっていないかなども評価した。
  • ルールベース・機械学習ベースを組み合わせて予測していたが、ルールベースでの網羅率を上げるため、ルールを複雑にすると運用仕切れなくなるのでバランスを考える必要がある。
  • OneShotのPoCだけでなく、ビジネスの目的と合致しているかを運用する中でテストしていくことが大切。

サイエンス部分を中心に担いがちなデータサイエンティストという立場から、
ビジネス面・機械学習システムの運用面を含めた範囲を考えていく中で感じたこと
という感じの話で、興味深く聞かせて頂きました。

機械学習モデルの品質管理と、それを測るための評価指標については、
私自身も試行錯誤しているので、このような話を聞けたことは嬉しかったです。

このような、実運用での評価や検証の話題は、
数の面でも深さの面でも、たくさん聞きたいなと思っています。

カラーヌワット・タリンさん「ディープラーニングによるくずし字認識」

古文書のくずし字を人(現代人)が読むのは大変で、たくさんの古文書が読まれていない。
この問題にディープラーニングを使って対処するため研究についてのお話でした。

印象に残ったポイント:

  • 明治時代の小学校令で仮名文字が統一される以前の文献はくずし字なので、歴史的に見てくずし字でかかれた文献は非常に多い
  • 通常のテキスト解析のプロセス「画像→レイアウト解析→文字分割→文字解析」でなく、画像→文字解析を直接行うアプローチをとった
  • U-NetによるSematic Segmentationでも文字分割が上手く出来ないケースがあり、分割でなく文字の中心点を探すアプローチをとった
  • ほとんど出てこない漢字があり、認識出来ない

資料が公開されたらリンクを追加しようと思っていますが、
実際のくずし字の文書の画像を見ながら、課題などを上げて説明されていたのでイメージしやすく興味を持って話を聞かせて頂きました。

学習に使用したというくずし字のデータセットは、おそらく以下のものだと思います。
見てみると雰囲気がわかるかもしれません。

日本古典籍くずし字データセット
http://codh.rois.ac.jp/char-shape/

このようなセッションでは結果的に選んだ手法の話になりがちです。
そこにたどり着くのに、かなり試行錯誤したのだろうなということが、
質疑などから垣間見れたのも興味深かったです。

西場正浩さん「AIチームのチームビルディングについて」

データサイエンスとは直接関係ない、
採用とチームビルディングのお話でした(対象とするチームはデータ分析のチームですが)。

印象に残ったポイント:

  • 採用を考える際には、きちんと現状分析をする。実際には、4PとかAISASのフレームワークにあてはめて考えた。自分と一緒に働く魅力を説明できないなら採用は上手くいかない
  • チームメンバーは、プロとして扱う
  • リーダーはモチベーションマネジメント(モチベーションを上げるためのアクション)はしない、個人に任せる
  • 求める機械学習エンジニアの条件として「年間60本以上の論文を読み、6本以上を実装している」

西場さん自身が
冒頭に「このようなやり方は偶然上手くいっているだけの可能性は高い」と言っていましたが、
考え方として納得感はあると思いました。

求める機械学習エンジニアの条件について、
条件として上げている内容の妥当性は分からないですが、
ある程度人物像が分かるように示している点は好感を持てました。
# 世間では「とにかく強い人を採用したい」みたいなものを、よく見るので。

また、リーダーはモチベーションを上げるためのアクションをしないと言いながらも、
メンバーのやりたいこと聞いて、活躍出来そうなジョブを提示するなど、
話を聞く限り、モチベーションマネジメントはきちんと行っているように思いました。
「モチベーションを上げるためのアクション」と言う言葉が、もっとすごい何かを指しているのかも知れません。。

内容は、以下のnoteに書かれている内容と被る部分も多かったので、ご参考まで。

自分のキャリアについて | note
https://note.mu/nishiba/n/nfda7625ff4f0

全体的な感想など

主催の吉田さんがFacebookで宣伝しているのを見て、
以前からイベントの存在は知っていたのですが。
私は、今回はじめて参加しました。
交流会メインという印象が強かったのですが、
セッションの方も興味深い内容で、楽しかったです。

都合があって、抽選に当たれば、、またお話を聞きに行ければと思います。