1.はじめに

皆さんこんにちは。

今回は、CSVファイルを取込む方法について説明していきます。

2.前提要件

本書を実施する際の前提条件は

  • ストレージアカウントが作成済みであること
  • Access connectorが作成済みであること
  • ストレージアカウントのBLOB データ共同作成者ロールをAccess connectorに付与していること
  • Metastoreが作成済みであること
  • Unity CatalogのDatabricks ワークスペースを有効にしていること
  • ストレージの認証情報を作成済みであること
  • Unity Catalog 外部ロケーションを作成済みであること
  • 操作ユーザはUnity Catalogのテーブル更新権限があること
  • CSVファイルをこちらからダウンロードしてください

以上が作成済み、指定済みであることを前提としています。

3.CSVファイルをテーブルに格納する

3-1.ストレージアカウントへcustomer.csv ファイルをインポートする

ストレージア カウントの画面でコンテナーを作成し、CSVファイルを格納します。

サイドバーで「コンテナー」を選択し、「コンテナー」をクリックします。

コンテナーに「container-name」等の名前を付けます。

④「作成」ボタンをクリックします。

⑤ コンテナーの一覧が表示されます。

作成したコンテナーをクリックします。

⑥ 次に、フォルダーを作成し、CSVファイルを格納します。

⑦「ディレクトリーの追加」をクリックします。

⑧ フォルダーに「raw」等の名前を付けます。

⑨「保存」ボタンをクリックします。

⑩ フォルダーの一覧が表示されます。

作成したフォルダーをクリックします。

⑪ 作成したフォルダーにて 「アップロード」をクリックし、「ファイルを参照」をクリックします。

⑫ ダイアログでローカル コンピューターのファイルをアップロードできます。customer.csv ファイルを選択してください。

⑬ ファイルを選択して、「アップロード」ボタンをクリックします。

ストレージ アカウントの「raw」フォルダーにcustomer.csv ファイルがアップロードされました。

3-2.ノートブックを使用して、CSVファイルをテーブルに格納する

ワークスペースでノートブックを作成してCSVファイルを読み込みます。次に、 Unity Catalog でテーブルを作成して、CSVファイルをマージします。

① Databricksワークスペースをログインします。

② 左のメニューから「ワークスペース」をクリックします。

③ 画面右上の「作成」ボタンをクリックし、ドロップダウンリストから「ノートブック」を選択して新規のノートブックを作成します。

④ ノートブックの名前を設定します。例:convert-notebook

⑤ デフォルト言語としてPythonを選択します。

⑥ 既存クラスターを選択して使用します。

⑦ 次に、CSVファイルを読み込み、そのデータから「customer_view」という一時ビューを作成します。

以下のコードをノートブックにコピーし、「Shift + Enter」を押して実行します。

※ 注意: 

  • <your_storage_account_name>」を実際のAzureストレージアカウント名に置き換えること。例:myaccount
  • <your_storage_access_key>」を実際のAzureストレージアカウントのアクセスキーに置き換えること。
  • <your_storage_container-name>」を実際のAzureストレージ内のコンテナー名に置き換えること。例:mycontainer
  • <path_to_your_csv_file>」をコンテナー内のCSVファイルの実際のパスに置き換えること。例:data/customer.csv

⑧ データがビューに保存されたかどうかを確認するために、以下のコマンドをノートブックにコピーし、「Shift + Enter」を押して実行します。 

実行後、結果は下図のように表示されます。 

⑨ 次に、Unity Catalogにカタログ、スキーマ、テーブルを作成し、ビューからデータを保存する準備を行います。 

以下のコマンドをノートブックにコピーし、「Shift + Enter」を押して実行します。
実行後、「MyCatalog」のカタログ、「MySchema」のスキーマ、「MyTable」のテーブル が作成されします。 

⑩ テーブル作成後、以下のコマンドを実行して、「customer_view」からデータをテーブルにマージします。 

以下のコマンドをノートブックにコピーし、「Shift + Enter」を押して実行します。 

実行後、更新または挿入された行数が下図のように表示されます。 

⑪ データがテーブルにマージされたかどうかを確認するために、以下のコマンドをノートブックにコピーし、「Shift + Enter」を押して実行します。 

実行後、テーブル内のデータが下図のように表示されます。

4.まとめ

これでCSVファイルを取込む方法について説明しました。

今回の記事が少しでも皆さんの新しい知識や業務のご参考になれば幸いです。双日テックイノベーションでは、Azure Databricksの環境構築パッケージを用意しています。Azure DatabricksやAzure活用、マイクロソフト製品の活用についてご相談事がありましたら是非お問い合わせください!

・Azure Databricks連載シリーズはこちら

お問い合わせはこちら


この記事を読んだ方へのオススメコンテンツはこちら


 

この記事を書いた人

phongcq