SPARQLで取得したデータを入力とするEmbulkプラグイン(embulk-input-sparql)のご紹介

SPARQLのクエリでさまざまなendpointから、データをバルクロード出来るように、Embulkのプラグインを書いたので、その概要と使い方を紹介します。embulk-input-sparql | GitHubhttps://github.com/takemikami/embulk-input-sparql<...

FlaskからMicrosoft Graph APIでOneDrive for Businessにアクセスしてみる

Pythonを使ってAPI経由で、OneDrive for Businessのファイルを扱いたく、実装方法を調べていたのですが。難しくは無いものの、いろいろと混乱してしまい時間がかかったので、メモを残しておこうと思います。アクセスするサービス・利用するAPIAPIを考える前に、マイクロソフトが提供しているサービスには、以下のように「OneDrive for Business」と似たサービスがあります。</p...

Google Colabでpandas DataFrameにスタイル適用する時に、既定のスタイルが外れてしまう問題の対応方法

Google ColaboratoryでpandasのDataFrameを表示する際、「カラムの中の最大値を赤字にする」といったようなスタイルを適用する時に、既定のスタイルが外れてしまう問題があったので、対応方法をまとめておきます。そもそもpandasのDataFrameにスタイルを適用する時は、以下のStylerを使います。 pandas.io.formats.style.Styler | pandas API reference<br...

ソードアート・オンラインのアニメを見ていて、フラットデザインについて思ったこと

ソードアート・オンラインのテレビアニメに出てくるユーザインターフェイスって、フラットデザインだよなぁ、と以前から思っていたのですが。フラットデザインは、(VRのような)3次元空間のユーザインターフェイスに適している、相性が良いと言う事を、何年も前から言っていて、なかなか理解してもらえないので、つらつら書いてみようと思います。# 完全に素人なので、単に自分が思っていることを書くだけなのですが。そもそもフラットでは...

HDD-SEL2で、自作PCのOS切替を便利にしてみた

HDD-SEL2という製品を自作PCに組み込んだら、便利にOS切替ができるようになったので、このエントリで紹介します。HDD-SEL2 | Ainexhttps://www.ainex.jp/products/hdd-sel2/<img src="https://lh3.googleusercontent.com/pw/ACtC-3e...

IntelliJ IDEAでmypyによるInspectionを利用する設定手順

本エントリでは、IntelliJ IDEAでmypyによるInspectionを利用するための設定手順を示します。# pycharmでも、おそらく同様の手順で設定出来ると思います。ここでは、mypyを利用して、型のアノテーションが抜けている箇所に警告を表示されるように設定してみます。Mypy | readthedocs<a href="https://mypy.readthedocs.io/en/stable/i...

DatabricksのPythonからのファイル削除を高速化する

このエントリでは、DatabricksのPython上で、ファイル削除を高速化する方法を紹介します。Databricksでのファイル一覧の取得・削除の高速化は、以下のKnowledge Baseに手法が書いてありますが、この方法は、Scalaでは可能ですが、PythonのNotebookでは実施できないようです。How to list and delete files faster in Databricks | Dat...

ハイパーパラメータチューニングのための、pyspark用の自前関数

pysparkでハイパーパラメータのチューニングを行いたいとき、MLflow、MLlibのModel Selectionなどの方法がありますが。ツールをインストールしにくい環境だったり、フレームワークに乗せられるように実装を手直しするのが手間な時のために、評価結果の記録、パラメータグリッドを作る自前関数を作ってみました。MLflowhttps://mlflow....

GitHubリポジトリで.ideaが管理されていない時(IDEA使ってるのが自分だけな時とか)の管理方法

プロジェクトの中で自分だけがIntelliJ IDEA使ってるとか、オープンソースのプロジェクトでIDEが統一されていないとかいった場合でも。自分用にはideaのプロジェクト用設定を管理したいなと思ったのですが。一般的なやり方を見つけることが出来なかったので、やり方を考えてみました。結論から言うと、forkしたリポジトリに別ブランチを作って「.idea」を以下をpushすることにしました。対象のプロジェクトをIntell...

pysparkで、MAXMIND GeoLite2 Databasesを使用してIPアドレスから国を判定する手順

このエントリでは、pysparkで、MAXMINDのGeoLite2 Databasesを使用してIPアドレスから国を判定する手順を説明します。MAXMIND GeoLite2 Databaseshttps://dev.maxmind.com/geoip/geoip2/geolite2/Databaseは上記のURLから...

IntelliJ IDEAで選んだファイルに対して何か処理をするプラグインを作る

この記事は、JetBrainsIDE Advent Calendar 2019 の20日目の記事です。JetBrainsIDE Advent Calendar 2019https://qiita.com/advent-calendar/2019/jetbrainsIntelliJ IDEAのプラグイン開発ではいろいろな事が出来...

Herokuで2つの異なる言語で構成されたアプリケーションを1つのdynoで動かす

Rails等で作ったちょっとしたWebアプリケーションを動かす時に、Herokuにデプロイするとお手軽で便利ですが。近頃はちょっとしたアプリケーションでも、バックエンド(API)と、フロントエンドのServerSideRenderingなどを組み合わせることも多くなってきました。小さなアプリケーションを試す場合に、バックエンドとフロントエンドで個々にデプロイするのは面倒だと思います。そこで、このエントリでは、...

rdflintによるLinkedOpenDataのCI運用イメージ

この記事は、CI/CD Advent Calendar 2019 の3日目の記事です。CI/CD Advent Calendar 2019https://qiita.com/advent-calendar/2019/ci-cdContinuous Integration というと、一般的にアプリケーションのテストやデプロイを...

データサイエンスアイドル小日向美穂の実装をデータエンジニアリング視点で整理する

この記事は、THE iDOLM@STER Series Advent Calendar 2019 の15日目の記事です。THE iDOLM@STER Series Advent Calendarhttps://adventar.org/calendars/3920アイドルマスターシンデレラガールズに登場する小日向美穂というアイドルは、皆さんご...

pysparkでデータ加工する時、処理済み中間ファイルの生成処理をスキップする書き方を考えた

pysparkでデータ加工のプロセスを書いていると。加工処理①→加工処理②→加工処理③のような流れで、加工処理ごとに中間ファイルを出力しておき、途中から(例えば、加工処理①は行わずに、②③のみ)再実行できるようにしたい場合があります。※ビッグデータを扱う場合は、処理時間がかかるため、こういった要件は多いと思います。再実行を行う場合に、スキップしたい箇所をコメントアウトしたりなどの対応を行うと、ミスの原因となるので、<br...

Author
takemikami
データエンジニア
・データ分析基盤の開発運用
・マーケティングデータ分析
研究発表履歴
facebook
twitter
LinkedIn
github
slideshare
Hatena::Bookmark
takemikami's shop
Twitter
Recent Posts
[PR]
タグ
PlayStation
Steam
RSS

subscribe via RSS