HDD-SEL2で、自作PCのOS切替を便利にしてみた

HDD-SEL2という製品を自作PCに組み込んだら、便利にOS切替ができるようになったので、このエントリで紹介します。HDD-SEL2 | Ainexhttps://www.ainex.jp/products/hdd-sel2/<img src="https://lh3.googleusercontent.com/pw/ACtC-3e...

IntelliJ IDEAでmypyによるInspectionを利用する設定手順

本エントリでは、IntelliJ IDEAでmypyによるInspectionを利用するための設定手順を示します。# pycharmでも、おそらく同様の手順で設定出来ると思います。ここでは、mypyを利用して、型のアノテーションが抜けている箇所に警告を表示されるように設定してみます。Mypy | readthedocs<a href="https://mypy.readthedocs.io/en/stable/i...

DatabricksのPythonからのファイル削除を高速化する

このエントリでは、DatabricksのPython上で、ファイル削除を高速化する方法を紹介します。Databricksでのファイル一覧の取得・削除の高速化は、以下のKnowledge Baseに手法が書いてありますが、この方法は、Scalaでは可能ですが、PythonのNotebookでは実施できないようです。How to list and delete files faster in Databricks | Dat...

ハイパーパラメータチューニングのための、pyspark用の自前関数

pysparkでハイパーパラメータのチューニングを行いたいとき、MLflow、MLlibのModel Selectionなどの方法がありますが。ツールをインストールしにくい環境だったり、フレームワークに乗せられるように実装を手直しするのが手間な時のために、評価結果の記録、パラメータグリッドを作る自前関数を作ってみました。MLflowhttps://mlflow....

GitHubリポジトリで.ideaが管理されていない時(IDEA使ってるのが自分だけな時とか)の管理方法

プロジェクトの中で自分だけがIntelliJ IDEA使ってるとか、オープンソースのプロジェクトでIDEが統一されていないとかいった場合でも。自分用にはideaのプロジェクト用設定を管理したいなと思ったのですが。一般的なやり方を見つけることが出来なかったので、やり方を考えてみました。結論から言うと、forkしたリポジトリに別ブランチを作って「.idea」を以下をpushすることにしました。対象のプロジェクトをIntell...

pysparkで、MAXMIND GeoLite2 Databasesを使用してIPアドレスから国を判定する手順

このエントリでは、pysparkで、MAXMINDのGeoLite2 Databasesを使用してIPアドレスから国を判定する手順を説明します。MAXMIND GeoLite2 Databaseshttps://dev.maxmind.com/geoip/geoip2/geolite2/Databaseは上記のURLから...

IntelliJ IDEAで選んだファイルに対して何か処理をするプラグインを作る

この記事は、JetBrainsIDE Advent Calendar 2019 の20日目の記事です。JetBrainsIDE Advent Calendar 2019https://qiita.com/advent-calendar/2019/jetbrainsIntelliJ IDEAのプラグイン開発ではいろいろな事が出来...

Herokuで2つの異なる言語で構成されたアプリケーションを1つのdynoで動かす

Rails等で作ったちょっとしたWebアプリケーションを動かす時に、Herokuにデプロイするとお手軽で便利ですが。近頃はちょっとしたアプリケーションでも、バックエンド(API)と、フロントエンドのServerSideRenderingなどを組み合わせることも多くなってきました。小さなアプリケーションを試す場合に、バックエンドとフロントエンドで個々にデプロイするのは面倒だと思います。そこで、このエントリでは、...

rdflintによるLinkedOpenDataのCI運用イメージ

この記事は、CI/CD Advent Calendar 2019 の3日目の記事です。CI/CD Advent Calendar 2019https://qiita.com/advent-calendar/2019/ci-cdContinuous Integration というと、一般的にアプリケーションのテストやデプロイを...

データサイエンスアイドル小日向美穂の実装をデータエンジニアリング視点で整理する

この記事は、THE iDOLM@STER Series Advent Calendar 2019 の15日目の記事です。THE iDOLM@STER Series Advent Calendarhttps://adventar.org/calendars/3920アイドルマスターシンデレラガールズに登場する小日向美穂というアイドルは、皆さんご...

pysparkでデータ加工する時、処理済み中間ファイルの生成処理をスキップする書き方を考えた

pysparkでデータ加工のプロセスを書いていると。加工処理①→加工処理②→加工処理③のような流れで、加工処理ごとに中間ファイルを出力しておき、途中から(例えば、加工処理①は行わずに、②③のみ)再実行できるようにしたい場合があります。※ビッグデータを扱う場合は、処理時間がかかるため、こういった要件は多いと思います。再実行を行う場合に、スキップしたい箇所をコメントアウトしたりなどの対応を行うと、ミスの原因となるので、<br...

rdflintの外れ値検証と仕様検討経緯

このエントリではRDFチェックツール「rdflint」に実装した、外れ値検証機能の仕様と、その仕様の検討経緯について紹介します。「rdflint」とは、Linked Open Dataと呼ばれる、インターネット上を通じて、機械での処理に適したデータを公開・共有するための技術に、RDF(Resource Description Framework)というデータを記述する枠組みがあるのですが。この枠組みに基づいて記載された...

pysparkでGraphFramesを利用する手順

本エントリでは、pysparkからGraphFramesを利用する手順を示します。pyspark REPLからの利用手順と、IntelliJ IDEAで開発環境を設定する手順を示します。GraphFrameshttps://graphframes.github.io/graphframes/do...

Apache Jena FusekiをHerokuで運用する手順(ただしReadOnlyのデータセットのみ)

このエントリでは、Apache Jena FusekiというSPARQLサーバを、Heroku上で運用する手順を示します。但し、ReadOnlyのデータセットのみを対象とします。Apache Jena Fusekihttps://jena.apache.org/documentation/fuseki2/<...

IM@S Engineer Talks 2019でお話ししてきました

先週(2019/7/6)開催された「IM@S Engineer Talks」という、アイドルマスターを好きなIT系エンジニアが集まって、アイマスの話題を通じ、技術分野を超えた情報交換するLT会イベントで、登壇してきました。このエントリではその振り返りを、書こうと思います。IM@S Engineer Talks 2019 | connpass<a href="https://imas.connpass.com/event/1347...

Author
takemikami
データエンジニア
・データ分析基盤の開発運用
・マーケティングデータ分析
研究発表履歴
facebook
twitter
LinkedIn
github
slideshare
Hatena::Bookmark
takemikami's shop
Twitter
Recent Posts
[PR]
タグ
PlayStation
Steam
RSS

subscribe via RSS