データ・サイエンティストに学ぶ「分析力」 ビッグデータからビジネス・チャンスをつかむ

 仕事でデータ分析を担当しており関心を持って手に取ってみた。この本では、各種データをマーケティングに生かす分析を「誰に」「何を」「どこで」「いくら」という軸とその測定・実行のプロセスに沿って「考え方」を解説してる。この本の邦題は『データ・サイエンティストに学ぶ「分析力」』だが、原題の「SEXY LITTLE NUMBERS - How to Grow Your Business Using the Data You Already Have」の方が内容をイメージしやすい。カバーに「ビッグデータか...

PentahoとInfobrightを用いた多次元データ分析環境の構築手順(Community版)

BIツールのPentahoと、BIでの利用に適したカラム指向データベースInfobrightでBI環境を構築し、多次元データの分析を行ってみます。 Pentaho, Infobrightともに、CommunityEditionというオープンソース版が存在するので、ソフトウェアのライセンス費用をかけずに、試してみる事が出来ます。ここではCommunityEditionを使って環境構築・分析を行ってみます。 P...

AWSのAmazon Elastic MapReduce(EMR)でHiveを使う手順

自前でHadoopをインストールせずとも、AmazonWebService(AWS)で手軽にHadoopを利用する事ができるということで、Elastic MapReduce(EMR)環境でHiveを利用してみました。 ここでは、以下のような手順でHiveを利用する手順を示します。 S3にHive用のbucketを作成Amazon Elastic MapReduce Ruby Clientのセットア...

サーバコスト削減のためのEC2(AWS)インスタンスの自動起動停止方法

この記事では、AWSのAPIを使って、EC2インスタンスを自動起動・停止させる方法を説明します。 Amazon Elastic Compute Cloud(Amazon EC2)の料金は、利用した時間単位での従量課金となります。このため、24時間稼働させる必要が無いサーバの場合は、cron等の定時処理で自動的に起動・停止をさせる事でコストを削減できます。 コスト削減の例例えば、平日・日中時間帯の...

AWS(EC2&S3)上でのchef-soloを使ったサーバの自動構築

AWSのEC2でchef-soloを使ってサーバを自動構築してみます。 ここでは、chef-solo用AMIを準備し、インスタンスとして起動すれば自動的にサーバが構築できるようにしてみます。また、chefのcookbookはS3上に配置することにします。cookbookをgitサーバを立てて配置してもよいのですが、構築する環境によっては、gitサーバの冗長化なども考える必要があるので、S3に配置した方が構成がすっき...

igo-rubyで形態素解析して、twitterの口癖分析もどきしてみた

Rubyで日本語の形態素解析しようと思って調べてみると、MeCab互換のigo-rubyというものがあったので使ってみました。(java/commonlispで実装されたigoのrubyへの移植版とのことです) 形態素解析器IgoのRuby版を作った <a href="http://kyow.cocolog...

Androidの画面をPCに繋いでキャプチャ(Dalvik Debug Monitor使用)

スマートフォン向けのサイト制作などなどで、Android端末の画面キャプチャが必要になることがあります。 GalaxyS2などでは「ホーム」を押しながら「電源」ボタンで、画面キャプチャを撮ることが出来ますが、全てのAndroid端末にこのような方法が用意されている訳ではありません。 この記事では、USBケーブルでWindowsPCに繋いで、画面キャプチャを撮る方法を紹介します。 次の手順で画面キャ...

Google Chart Toolsでグラフを書いてみた(国勢調査のデータ使って)

Webアプリケーションで、度々、折れ線、円、棒グラフなどを描きたいということがあります。 昔はPHP+GDの構成で描いていた気がしますが、この記事では今風にHTML5/SVGでグラフを描く「Google Chart Tools」を使ってグラフを描いてみることにします。# HTML5で描けば、PHP+GD構成とは異なり、# サーバ側に負荷のかかるイメージ生成が不要になります。 Google Chart Too...

ruby, nokogiriを使ったgoogle検索結果のスクレイピング

この記事では、ruby, nokogiriを使ってgoogle検索結果をスクレイピングしてみます。googleの検索結果を定期的にバッチ処理などでチェックしておけば、WebサイトのSEO対策などにも使うことが出来ると思われます。 Nokogiri 鋸 http://nokogiri.org/ </...

Rails3+devise,nginx,fluent,S3構成でのアクセスログ収集と蓄積

ユーザ認証が存在するWebアプリのアクセスログを有効に分析するためには、・Webサーバからアクセスログを集める・Webアプリのユーザとアクセスログを紐付けるの2つを行う必要があります。 この記事では、・Webサーバ: nginx・開発フレームワーク: Ruby on Rails (認証プラグインとしてdevise)・ログ集約: fluentd・ログの格納先: Amazon S3という構成のWebア...

deviseによる認証を組み込んだRails3アプリの作成

Railsのgemライブラリの「devise」を使うと、簡単にRailsアプリにユーザ認証機能を組み込むことができます。deviseへの設定は特に加えずに、Railsアプリにのユーザ認証機能を組み込んでみました。 # 実際のアプリ開発では、# この基本的な流れにカスタマイズを加えることが多いですが、# 全部やってくれる分、カスタマイズにてこずることが多いようです。 rails/deviseのバージョンは以下...

capistranoでのRails3アプリ配備チュートリアル

rails3のアプリ作成しcapistranoを使って配備するまでのチュートリアルを示す。 railsアプリを作る$ rails new myappcreatecreate READMEcreate Rakefile=</spa...

Rails3チュートリアル (はじめてのRails3

はじめてRails3で開発をするエンジニア向けに作成したメモ#2です。 Ruby on Rails3をインストールして、generatorでモデルやビューを作ってみる。注: railsのバージョン3.1.3で記載しています(最新ではないです) Ruby on Railsをインストールする<...

Ruby on Railsを特徴付けるキーワード (はじめてのRails3

はじめてRails3で開発をするエンジニア向けに作成したメモ#1です。 Ruby on Railsは、Webアプリなどを開発するためのフレームワークですが、以下のキーワードで示すような特徴があります。 フルスタックフレームワーク目的・機能ごとにフレームワークを組み合わせるのではなく、アプリ開発に必要な機能を一通り内包したフレームワーク ※フルスタックでは無い例:Strus + Hibe...

Rubyでtweetを収集(Twitter Streaming API)、分析してみた

RubyでTwitterのtweetを収集して、簡単な分析をしてみます。 ここでは以下を点を分析することにします。・tweetでは、どれくらいの割合でHashタグが付けられているのか?・tweetでは、どれくらいの割合でリンクが付けられているのか?・tweetでは、どれくらいの割合でmentionが付けられているのか?・どのクライアントアプリでよく使われているのか? tweetの収集まずtwee...

Author
takemikami
データエンジニア
・データ分析基盤の開発運用
・マーケティングデータ分析
研究発表履歴
書籍執筆履歴
開発プロダクト
facebook
twitter
LinkedIn
Hatena::Bookmark
YouTube
github
slideshare
Books
takemikami's shop
Recent Posts
[PR]
タグ
AutoHotkey aglio airflow anaconda android angularjs apiblueprint appscript arduino asyncio aurora autohotkey automator autoscaling aws awsglue azure azureml bash bi bigquery bitbucket booth breeze capistrano cassandra celery centos changekey checkstyle chef chrome circleci cloud-init cloudformation cloudwatch clustering colab css csv cuda cui databricks designpattern devise devpi digdag direnv docker drakov dsl dynamodb ec ec2 eclipse elasticsearch embulk emr errbit excel findbugs flask fluent fluentd forgejo fortran fuseki gae gcp gdrive gensim ggplot2 ghostscript git gitbook giter8 github go googlecharttools gr-sakura gradle graphql groovy hadoop hbase heroku hibernate hive hivemall hiveqlunit hiveserver2 hubot hyperas hyperopt hyperv idolmaster igo infobright intellijidea iotlt iptables java javascript jdepend jdk jekyll jest jetty jline jmeter jquery js2py jthree jupyter kenlm keras keras-rl knitr langchain linter llm lxd mac macos mahout mako mathML maven mermaid milkcocoa minio mlflow mllib moneyforward monit moto msgraph msoffice msword msys2 multipass mysql natureremo nginx nodejs nokogiri onedriveforbusiness opencv opsgenie pandas pdf pentaho perl php pmd polycoder process-compose pusher pycharm pyenv pyspark pytest python pytorch r rails rails3 rails4 rbenv rdflint rds repl rnnlm rstudio rubocop ruby s3 sbt scala scikit-learn selenium servlet shippable slack sonarqube spark sparql spotbugs spree spring springboot sql sqoop sqs sublimetext subversion tensorflow terraform textlint threejs tortoisegit twitter vagrant visdom vmware vscode vuejs watchdog webrtc websocket wordpress wsl 形態素解析 秀丸エディタ 負荷テスト 開発管理
PlayStation
Steam
About