1.はじめに
皆さんこんにちは。
この連載では、Azure Databricks サンプルダッシュボードを使ったデータの可視化と基本的な操作方法とダッシュボードの作成方法について説明します。
今回は、「NYCタクシーデータセット」を使用してルート別運賃の分析の可視化の作成方法について詳細に説明していきます。
第1回:【Azure Databricks SQL ダッシュボード】サンプルダッシュボードのインポートと基本操作
第2回:【Azure Databricks SQL ダッシュボード】総走行数の可視化の作成
第3回:【Azure Databricks SQL ダッシュボード】曜日ごとの運賃と距離の可視化の作成
第4回:【Azure Databricks SQL ダッシュボード】乗車時間分布の可視化の作成
第5回:【Azure Databricks SQL ダッシュボード】ルート別運賃の分析の可視化の作成(今回)
第6回:【Azure Databricks SQL ダッシュボード】降車時間別の乗車回数の可視化の作成
2.ダッシュボードの作成
2-1.クエリを作成
まず、データ取得のためのクエリを作成する必要があります。
①サイドバーで「クエリー」をクリックして、「クエリーを作成」を選択すると、SQLエディタの画面が表示されます。
②以下のコードをエディタにコピーし、以下の2つテキストボックスでパラメーターを入力し、コマンドを実行します。
※動的に値を指定したい場合は列名を {{ パラメータ名 }} で囲います。
※日付の範囲指定を行う場合 {{ パラメータ名.start }}と{{ パラメータ名.end }} で指定します。
文法
USE CATALOG 「カタログ名」;
SELECT
「テーブル名」.「列名」 as 「別名」
,
「テーブル名」.「列名」 as 「別名」
,
「テーブル名」.「列名」 as 「別名」
FROM
(
SELECT
concat(「列名」, ‘-‘, 「列名」) AS 「別名」,
count(*) as 「別名」,
SUM(「列名」) as 「別名」
FROM
「カタログ名」.「スキーマ名」.「テーブル名」
WHERE
「列名」 BETWEEN TIMESTAMP ‘{{ 「パラメータ名」.start }}’
AND TIMESTAMP ‘{{ 「パラメータ名」.end }}’
AND 「列名」 IN ({{ 「パラメータ名」 }})
GROUP BY
1
) 「別名」
ORDER BY
1 ASC
LIMIT
「値」
例
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
USE CATALOG MyCatalog; SELECT T.route as `ルート`, T.frequency as `ルート頻度`, T.total_fare as `合計運賃` FROM ( SELECT concat(pickup_zip, '-', dropoff_zip) AS route, count(*) as frequency, SUM(fare_amount) as total_fare FROM `MyCatalog`.`MySchema`.`trips` WHERE tpep_pickup_datetime BETWEEN TIMESTAMP '{{ pickup_date.start }}' AND TIMESTAMP '{{ pickup_date.end }}' AND pickup_zip IN ({{ pickupzip }}) GROUP BY 1 ) T ORDER BY 1 ASC LIMIT 200 |
③総走行数の可視化と同じように「pickupzip」と「pickup_date」の2つテキストボックスを以下の2つテキストボックスに変更します。情報を入力して「変更を適用」をクリックすると、クエリの結果が表示されます。
④結果は以下の画像の通りです。「保存」をクリックしてクエリを保存します。
⑤クエリに「 ルート別運賃の分析 」等の名前を付けて「保存」をクリックします。
2-2.ルート別運賃の分析の可視化の作成
①サイドバーで「ダッシュボード」をクリックして、「NYCタクシーダッシュボード」を選択します。
②ダッシュボードで をクリックして、「編集」を選択します。
③「追加」をクリックし、「可視化」を選択してダッシュボードに可視化を追加します。
④ダイアログでクエリ「 ルート別運賃の分析」を選択します。
⑤「タイトル」項目で「ルート別運賃の分析」等の情報を入力して、「ダッシュボードに追加」をクリックします。
⑥結果は以下の通り取得できます。
⑦ビジュアライゼーション「ルート別運賃の分析」にマウスを移動して をクリックして、「ビジュアライゼーションを編集」を選択します。
⑧「Visualization type」項目で「Table」を選択します。
⑨「 合計運賃 」を選択して「Add condition」をクリックします。
「Font conditions」項目では、指定した例のフォントの色を変更できます。
⑩最初のドロップダウンリストで「合計運賃」を選択して、次のドロップダウンリストで「<」を選択します。
⑪テキストボックスで「51」等の値を入力します。
⑫色の項目で赤色等の対象の色を選択します。
⑬次に、希望の条件を追加します。「合計運賃」列が以下のように表示されます。「Grid」タブをクリックします。
⑭「Grid」タブで「Resizable columns」チェックボックスを無効にして「保存」ボタンをクリックします。
⑮ビジュアライゼーションが追加され、以下の通りダッシュボードに表示されます。
⑯ダッシュボードを改善するために、ビジュアライゼーションを調整します。
3.まとめ
本連載では、
「NYCタクシーデータセット」を使用してルート別運賃の分析の可視化の作成方法について詳細に説明していきます。
第1回:【Azure Databricks SQL ダッシュボード】サンプルダッシュボードのインポートと基本操作
第2回:【Azure Databricks SQL ダッシュボード】総走行数の可視化の作成
第3回:【Azure Databricks SQL ダッシュボード】曜日ごとの運賃と距離の可視化の作成
第4回:【Azure Databricks SQL ダッシュボード】乗車時間分布の可視化の作成
第5回:【Azure Databricks SQL ダッシュボード】ルート別運賃の分析の可視化の作成(今回)
第6回:【Azure Databricks SQL ダッシュボード】降車時間別の乗車回数の可視化の作成
今回の記事が少しでもDatabricksを知るきっかけや、業務のご参考になれば幸いです。
日商エレクトロニクスでは、Azure Databricksの環境構築パッケージを用意しています。
Azure DatabricksやAzure活用、マイクロソフト製品の活用についてご相談事がありましたらぜひお問い合わせください!
・Azure Databricks連載シリーズはこちら
この記事を読んだ方へのオススメコンテンツはこちら
この記事を書いた人
- quanna