1. はじめに

皆さんこんにちは。

今回はFivetran でAzure Databricksと外部のデータソースを接続する手順について説明していきます。

なお、手順の中ではSalesforce環境と接続しています。

この手順を実施するための前提条件は以下のとおりです。

  • DatabricksでUnity Catalogが有効化されており、SQLウェアハウスを利用できること
  • SalesforceおよびFivetranのアカウントが既に所有されていること

2.Fivetranとは?

Fivetranは、自動でパイプラインを構築するSaaS型のクラウドサービスです。

様々なデータソース(各種SaaSアプリやDBなど)をクラウドDWHに格納します。

スキーマは事前に定義されているのでコーディングが不要です。


【メリット】
・700以上のコネクタを提供し、データソースからデータウェアハウスやデータストアへのデータの取り込みを迅速に行えます。
・クエリスキーマにより、ER図の検索が容易です。
・メンテナンスや細かい設定をする手間が省けます。
・データの正確性と最新性が向上します。

 

3.Fivetranの利用料金

Fivetranの料金プランはデータソースの種類とデータ量によって異なります。

データソースは、Free、Standard、Premium、Enterprise、Business Criticalの5種類に分かれており、
それぞれ月額料金が設定されています。

データ量は、月間アクティブレコード(MAR)という単位で計算されます。
月間アクティブレコード(MAR)とはコネクタからデスティネーションに追加、更新、削除された行を指し、
行が更新されるたびにではなく、月に一度だけアクティブと認識します。

1ヶ月に何度も行を更新しても、追加で課金されることはありません。

また、新しいコネクターやテーブルの場合、最初の履歴同期を完全に無料で提供しています。
その後、MARに対してのみ課金されます。

また料金は対数スケールとなっており、データ量の増加に応じて自動的に割引が適用されます。
利用量、コストに関してはFivetranのUI、Account Usage&Billingダブで確認することができます。

4.FivetranでDatabricksと外部データソースを接続する手順

4-1.Databricksワークスペースにアクセスします。

こちらの手順をご覧ください。

4-2.Fivetranにアクセスします。

こちらのリンクでFivetranにログインします。

4-3. FivetranのDestinationをDatabricksに設定する

① Fivetranの画面から「Destinations」→「Add Destination」をクリックします。

② 「Databricks」を選択します。

③ 「Continue setup on Fivetran」を選択します。

④ Destinationの名前を付け、「Add」をクリックします。

⑤ 設定画面で、以下の値を入力してください。入力後、「Save & Test」をクリックします。

  • Select deployment model → 「SaaS Deployment」
  • Catalog (optional) → データを保存するDatabricks上のカタログ名を入力します。
  • Server Hostname → DatabricksのSQLウェアハウスのサーバーホスト名を入力します。
  • Port → 「443」と入力します。
  • HTTP Path → DatabricksのSQLウェアハウスのHTTPパスを入力します。
  • Authentication Type → ドロップダウンメニューから「PERSONAL ACCESS TOKEN」を選択します。
  • Personal Access Token → DatabricksのPersonal Access Tokenを入力します。
  • Data processing location → 「Japan」
  • Fivetran processing cloud provider → 「Azure」
  • Time zone → 「Japan Standard Time JST (UTC +09)」

⑥ 正常に接続できたことを確認します。それから「View Destination」をクリックします。これでDestinationの作成が完了します。

4-4. FivetranからSalesforceへのConnectionを設定する

① Fivetranの画面から「Connections」→「Add connection」をクリックします。

② それから、「Salesforce」を選択します。

③ 前のステップで作成したDatabricksのDestinationを選択します。

④ 以下の情報を入力してください。入力後、「Authorize」をクリックします。ログインする通知が表示されたら、Salesforceをログインします。

  • Destination schema → データを保存するスキーマ名を入力します。
  • Authentication → 「OAuth2.0」を選択します。

⑤ 正常にログインできたら、「Save & Test」をクリックします。

⑥ 「Continue」をクリックします。

⑦ 続けて、Databrick Unity Catalogに取り込むデータを選択します。選択後、「Save & Continue」をクリックします。

⑧ 「Continue」をクリックします。

⑨ 「I’ll do this later」を選択してから「Continue」をクリックします。

⑩ Connectionを正常に作成できました。「Start Initial Sync」をクリックしてデータの同期化を開始します。

⑪ 同時処理が完了すると、データがDatabricks上に同期されていることを確認できます。

5. まとめ

本記事ではFivetranでAzure Databricksと外部のデータソースを接続する手順について説明しました。

今回の記事が少しでも皆さんの新しい知識や業務のご参考になれば幸いです。

双日テックイノベーションでは、Azure Databricksの環境構築パッケージを用意しています。
Azure DatabricksやAzure活用、マイクロソフト製品の活用についてご相談事がありましたら
是非お問い合わせください!

Azure Databricks連載記事のまとめはこちら

お問い合わせはこちら


この記事を読んだ方へのオススメコンテンツはこちら


この記事を書いた人

力石 玲菜