【Azure Databricks SQL ダッシュボード】総走行数の可視化の作成

1.はじめに
2.データの準備
- 2-1.Unity カタログにデータの保存
3.ダッシュボードの作成
- 3-1.クエリを作成
- 3-2.総走行数の可視化の作成
4.まとめ
- この記事を読んだ方へのオススメコンテンツはこちら

1.はじめに

皆さんこんにちは。
この連載では、Azure Databricks サンプルダッシュボードを使ったデータの可視化と基本的な操作方法と

ダッシュボードの作成方法について説明します。

今回は、「NYCタクシーデータセット」を使用して総走行数の可視化の作成方法についての詳細を説明していきます。

第1回：【Azure Databricks SQL ダッシュボード】サンプルダッシュボードのインポートと基本操作

第2回：【Azure Databricks SQL ダッシュボード】総走行数の可視化の作成（今回）

第3回：【Azure Databricks SQL ダッシュボード】曜日ごとの運賃と距離の可視化の作成

第4回：【Azure Databricks SQL ダッシュボード】乗車時間分布の可視化の作成

第5回：【Azure Databricks SQL ダッシュボード】ルート別運賃の分析の可視化の作成

第6回：【Azure Databricks SQL ダッシュボード】降車時間別の乗車回数の可視化の作成

2.データの準備

2-1.Unity カタログにデータの保存

本書では、Databricks で NYC タクシーのデータセットを使用します。次は、ノートブックを使用してこのデータセットをUnity Catalogにコピーします。

①「MyCatalog」カタログ及び「MySchema」スキーマを作成するにノートブックを開き、以下のコードをコピーして実行します。

文法

%sql
CREATE CATALOG IF NOT EXISTS 「カタログ名」;
CREATE DATABASE IF NOT EXISTS 「カタログ名」.「スキーマ名」;

例

%sql
CREATE CATALOG IF NOT EXISTS MyCatalog;
CREATE DATABASE IF NOT EXISTS MyCatalog.MySchema;

%sql

CREATE CATALOG IF NOT EXISTS MyCatalog;

CREATE DATABASE IF NOT EXISTS MyCatalog.MySchema;

②以下のコードを実行し、Hiveメタストアでの「NYC タクシー」データセットをコピーして、作成したスキーマに保存します。

文法

%python
source_table = spark.table(“samples.nyctaxi.trips”)
source_table.createOrReplaceTempView(“「一時的テーブル名」”)
cloned_table = spark.sql(“SELECT * FROM 「一時的テーブル名」”)
cloned_table.write.format(“delta”).saveAsTable(“「カタログ名」.「カタログ名」.「テーブル名」”)

例

%python
source_table = spark.table("samples.nyctaxi.trips")
source_table.createOrReplaceTempView("temp_source_table")
cloned_table = spark.sql("SELECT * FROM temp_source_table")
cloned_table.write.format("delta").saveAsTable("MyCatalog.MySchema.trips")

%python

source_table = spark.table("samples.nyctaxi.trips")

source_table.createOrReplaceTempView("temp_source_table")

cloned_table = spark.sql("SELECT * FROM temp_source_table")

cloned_table.write.format("delta").saveAsTable("MyCatalog.MySchema.trips")

③以下の通りで実行し、Unity Catalogに保存されたデータを確認します。

※サイドバーで「データ」をクリックし、作成したカタログを確認します。

※「mycatalog」をクリックし、作成したスキーマを確認します。

※「myschema」をクリックし、作成したテーブル「trips」を確認します。

3.ダッシュボードの作成

3-1.クエリを作成

総走行数を可視化するには、クエリを作成し、総走行数を取得します。

①サイドバーで「クエリー」をクリックし、「クエリーを作成」ボタンをクリックします。「SQLエディタ」画面が表示されます。SQLエディタは、SQLクエリを実行するためのツールです。

②以下のコードをエディタにコピーし、指定時間内の総走行数を取得します。以下の2つテキストボックスでパラメーターを入力し、コマンドを実行します。

※動的に値を指定したい場合は列名を　{{ パラメータ名 }}　で囲います。

※日付の範囲指定を行う場合　{{ パラメータ名.start }}と{{ パラメータ名.end }}　で指定します。

文法

USE CATALOG 「カタログ名」;

SELECT
count(*) as 「別名」
FROM
「カタログ名」.「スキーマ名」.「テーブル名」
WHERE
「列名」 BETWEEN TIMESTAMP ‘{{ 「パラメータ名」.start }}’
AND TIMESTAMP ‘{{ 「パラメータ名」.end }}’
AND 「列名」 IN ({{ 「パラメータ名」 }})

例

USE CATALOG MyCatalog;
SELECT
   count(*) as total_trips
FROM
   `MyCatalog`.`MySchema`.`trips`
WHERE
   tpep_pickup_datetime BETWEEN TIMESTAMP '{{ pickup_date.start }}'
   AND TIMESTAMP'{{ pickup_date.end }}'
   AND pickup_zip IN ({{ pickupzip }})