この記事は、データ基盤 Advent Calendar 2020 の6日目の記事です。

データ基盤 Advent Calendar 2020
https://qiita.com/advent-calendar/2020/datainfrastructure

今年、embulk-input-sparqlという、
SPARQLで取得したデータを入力とするEmbulkのプラグインを作ったので、
その意図について、少し書いておこうと思います(エモい話です)。

SPARQLで取得したデータを入力とするEmbulkプラグイン(embulk-input-sparql)のご紹介 https://takemikami.com/2020/10/17/SPARQLEmbulkembulkinputsparql.html

クローズなデータとのリンク

SPARQLとは、
RDF(Resource Description Framework)で記述されたデータに対するクエリ言語ですが、
RDFは、LOD(Linked Open Data)を実現するための基盤となる要素です。

「オープンデータ」というものは、その名の通り一般に公開されてるデータのことです。
それをさらに進め、LOD(Linked Open Data)とすると、
オープンデータ同士を紐付けて検索や集計などを行うことが出来るようになります。

ただ、実際にビジネスの現場などで、
データを紐付けて集計や分析などを行いたいケースは、
オープンデータ同士だけで無く、
自分たちが保持しているクローズなデータと紐付けたいことが多いのでは無いでしょうか?

基幹系のデータベースやログ情報を、データウェアハウスにロードする場合には、
Embulkのようなバルクロードツールを利用しているとことが多いと考えられるので、
同じツールでオープンデータのロードが出来ると都合が良いと思い、
このプラグインを作成しました。

オープンデータを使う・流通させる

広告やマーケティングなどでは、
POSやインターネット等の普及で顧客情報が集めやすくなった一方で、
プライバシーへの配慮などの理由から、
必要以上の顧客情報を保持しないことも求められています。

このようなプライバシー配慮の世間のニーズと、
広告やマーケティングデータ分析ニーズの折り合いをつけるためには。
例えば、
ある商品を販売したという情報に対して、
直接、顧客の属性(年齢・性別など)を紐付ける分析ではなく。
ある商品を販売した場所と、人口の年齢や性別構成などを紐付けて、
商圏として分析するなどの方法を考えることが出来ます。

このような分析を行う手法の一つとして、
国勢調査など公的機関の情報を利用することが考えられます。

もちろんSPARQLで取得出来るものは限られてはいますが、
まずは使っていくことが大切ではないかと思っています。
更に言うと、行政が保有するデータであれば、
公開請求を行う事で、入手できる可能性もあるわけです。

ITの世界では、データを保持するプラットフォーマーが有利という現状があり、
それが技術・ビジネスの発展の阻害要因となっている見方もあります。
オープンデータの流通を増やすことには、
そのような現状を変化させる可能性があると、私は考えています。

以上。