pysparkでデータ加工する時、処理済み中間ファイルの生成処理をスキップする書き方を考えた

pysparkでデータ加工のプロセスを書いていると。加工処理①→加工処理②→加工処理③のような流れで、加工処理ごとに中間ファイルを出力しておき、途中から(例えば、加工処理①は行わずに、②③のみ)再実行できるようにしたい場合があります。※ビッグデータを扱う場合は、処理時間がかかるため、こういった要件は多いと思います。再実行を行う場合に、スキップしたい箇所をコメントアウトしたりなどの対応を行うと、ミスの原因となるので、<br...

rdflintの外れ値検証と仕様検討経緯

このエントリではRDFチェックツール「rdflint」に実装した、外れ値検証機能の仕様と、その仕様の検討経緯について紹介します。「rdflint」とは、Linked Open Dataと呼ばれる、インターネット上を通じて、機械での処理に適したデータを公開・共有するための技術に、RDF(Resource Description Framework)というデータを記述する枠組みがあるのですが。この枠組みに基づいて記載された...

pysparkでGraphFramesを利用する手順

本エントリでは、pysparkからGraphFramesを利用する手順を示します。pyspark REPLからの利用手順と、IntelliJ IDEAで開発環境を設定する手順を示します。GraphFrameshttps://graphframes.github.io/graphframes/do...

Apache Jena FusekiをHerokuで運用する手順(ただしReadOnlyのデータセットのみ)

このエントリでは、Apache Jena FusekiというSPARQLサーバを、Heroku上で運用する手順を示します。但し、ReadOnlyのデータセットのみを対象とします。Apache Jena Fusekihttps://jena.apache.org/documentation/fuseki2/<...

IM@S Engineer Talks 2019でお話ししてきました

先週(2019/7/6)開催された「IM@S Engineer Talks」という、アイドルマスターを好きなIT系エンジニアが集まって、アイマスの話題を通じ、技術分野を超えた情報交換するLT会イベントで、登壇してきました。このエントリではその振り返りを、書こうと思います。IM@S Engineer Talks 2019 | connpass<a href="https://imas.connpass.com/event/1347...

「Spark Meetup Tokyo #1」のメモ

遅くなりましたが、6/12(水)に「Spark Meetup Tokyo #1」と言う「Spark+AI Summit 2019」に参加した方々からの情報共有を目的とした勉強会に参加し、お話を聞いてきたので、メモをまとめておきます。Spark Meetup Tokyo #1 (Spark+AI Summit 2019)<a href="https://spark-meetup-tokyo.connpass.com/event/131791...

CIの成果物をGoogleDriveで共有するための設定手順

gitbookやRe:VIEWのように、成果物がPDFになるリポジトリをGitHubで管理している場合。成果物のPDFをGoogleDriveに共有しておくと、プレビューなどが利用でき確認が便利だと思います。# また、GitHubにアカウントが無い人に確認して貰う運用もやりやすくなります。ここでは、CircleCIを例に、CIで生成した成果物をGoogleDriveに共有する手順を説明します。GoogleDri...

GitHubのPullRequestを用いた暫定対処コードのコントロール手法の提案

きのこるエフエムというPodCastに呼んで頂いた時に、「ソフトウェア開発において、 暫定対処で書いた(汚い)コードはコントロール下に置いておくことが大事」というニュアンスの話をしたのですが。言いっぱなしというのも、良くないと思ったので、このエントリでは、コントロール下に置く手法を、具体的に提案したいと思います。ep2. フルリモートで働くフリーランスエンジニア | kinokoru.fm / きのこるエフエム...

新規サービスの創出を目的とせずに、Googleのような「20%ルール」を導入しても良いのでは無いだろうか?

今さらですが、Googleの「20%ルール」を話題に上げようと思います。この「20%ルール」というのは、業務時間の2割までを、個人の裁量で通常業務以外の仕事に使って良いと言うルールで。このルールでGoogleが様々な新規サービスを生み出すことが出来たと言われています。このルールを採用すれば、どんな企業でも、様々な新規サービスを生み出すことが出来るかというと。そう簡単な話では無いでしょう。しかし、どんな企業でも、...

「白金鉱業 Meetup Vol.7」でお話を聞いてきました

昨日(5/14)、「白金鉱業 Meetup Vol.7」と言うデータ分析・エンジニアリングの勉強会で、お話を聞いて来たので感想などをまとめておきます。白金鉱業 Meetup Vol.7https://brainpad-meetup.connpass.com/event/126945/このイベントは、Br...

macosのFinderのコンテキストメニューから、UTF-8のCSVをExcelで開けるようにする

UTF-8のCSVファイルをExcelで開くときに、「インポート」メニューからエンコード・区切りを指定して読み込むのが面倒だったので。Finderのコンテキストメニューに「ShiftJISに変換してCSVを開く」を追加して、これを選ぶとUTF-8のCSVファイルをExcelで開けるように設定してみたので、その手順のメモを残しておきます。利用イメージFinderでUTF-8のCSVファイルを選択して、コンテキ...

IT系技術同人誌執筆のために行ったMicrosoftWordの設定メモ

4/14(日)に開催された「技術書典6」で技術同人誌を頒布させて頂きましたが、その際のMicrosoft Wordの設定についてメモを残しておきます。技術書典6で頒布した書籍はこちらからお求め頂けます(宣伝https://takemikami.booth.pm/使用しているWordのVersionは、次の通りです。Microsoft Word f...

技術書典6でHadoop&Spark本を頒布させて頂きました

4/14(日)に池袋サンシャインシティで開かれた「技術書典6」にサークル参加して、次の2冊の本を頒布させて頂きました。Apache Hadoop & Spark ビッグデータプログラミング入門 ビッグデータの加工や機械学習のためのプログラミングガイドフリーランスの確定申告自動化ガイド 「マネーフォワード クラウド確定申告」の自動化ノウハウALIS IT PUBLISHING | 技術書典6...

git diffでdocx, pptx, xlsxのテキスト差分を確認できるようにする

2019/04/01 xlsxの差分表示も追記しましたgit diffで、Word, PowerPoint, Excelのテキスト差分を確認できるようにするための設定手順をまとめました。macos用の手順です。方法は以下のブログ記事で書かれている内容と同じですが、dotfilesで管理することを想定し、ユーザ単位に設定しています。MS Wordで書かれた原稿を...

Databricksにローカル環境で開発したpythonコードをimportするノウハウ

このエントリでは、Databricksで動かすコードを、PyCharmなどのIDEで書きたい場合のノウハウについて示す。Databricksへのソースコードimport/exportは、以下のエントリで記載したが、ローカル環境とDatabricks環境で同じコードが動く訳では無いので、以下の2つの観点で、対応する方法を考える。なるべくローカルでも動くように設定する環境に依存するコードを切り替える</...

Author
takemikami
データエンジニア
・データ分析基盤の開発運用
・マーケティングデータ分析
研究発表履歴
facebook
twitter
LinkedIn
github
slideshare
Hatena::Bookmark
takemikami's shop
Twitter
Recent Posts
[PR]
タグ
PlayStation
RSS

subscribe via RSS