1. はじめに
皆さんこんにちは。
今回はFivetran でAzure Databricksと外部のデータソースを接続する手順について説明していきます。
なお、手順の中ではSalesforceのサンドボックス環境と接続しています。
2.Fivetranとは?
Fivetranは、自動でパイプラインを構築するSaaS型のクラウドサービスです。
様々なデータソース(各種SaaSアプリやDBなど)をクラウドDWHに格納します。
スキーマは事前に定義されているのでコーディングが不要です。
【メリット】
・320以上のコネクタを提供し、データソースからデータウェアハウスやデータストアへのデータの取り込みを迅速に行えます。
・クエリスキーマにより、ER図の検索が容易です。
・メンテナンスや細かい設定をする手間が省けます。
・データの正確性と最新性が向上します。
3.Fivetranの利用料金
Fivetranの料金プランはデータソースの種類とデータ量によって異なります。
データソースは、Free、Standard、Premium、Enterprise、Business Criticalの5種類に分かれており、
それぞれ月額料金が設定されています。
データ量は、月間アクティブレコード(MAR)という単位で計算されます。
月間アクティブレコード(MAR)とはコネクタからデスティネーションに追加、更新、削除された行を指し、
行が更新されるたびにではなく、月に一度だけアクティブと認識します。
1ヶ月に何度も行を更新しても、追加で課金されることはありません。
また、新しいコネクターやテーブルの場合、最初の履歴同期を完全に無料で提供しています。
その後、MARに対してのみ課金されます。
また料金は対数スケールとなっており、データ量の増加に応じて自動的に割引が適用されます。
利用量、コストに関してはFivetranのUI、Account Usage&Billingダブで確認することができます。
4.FivetranでDatabricksと外部データソースを接続する手順
4-1.ワークスペースにアクセスします。
こちらの手順をご覧ください。
4-2. Data > +Add > Add data をクリックします。
4-3.データソースを選択します。
4-4.データを格納するcatalogを選択し、Next をクリックします。
4-5.新しく作成されるWarehouse名を入力し Next をクリックします。
4-6.メールアドレスを確認し、Connect to Fivetran をクリックします。
4-7.Fivetran の画面に切り替わります。
データソースを選択し、Contiue Setup をクリックします。
4-8.格納先Schema名を入力し、Authorize をクリックします。
4-9.認証に成功したら、Save&Test をクリックします。
4-10.接続に成功したら、Continue をクリックします。
4-11.同期するデータを選択し、Save&Continue をクリックします。
4-12.Continue をクリックします。
4-13.切り替わった画面で Start Initial Sync をクリックします。
4-14.同期が開始されます。
4-15.同期が完了します。
4-16.Azure Databricks ワークスペースに戻り、Data > 作成したcatalog > 作成したschema をクリックすると、
データが同期されたことが確認できます。
5. まとめ
本記事ではFivetranでAzure Databricksと外部のデータソースを接続する手順について説明しました。
今回の記事が少しでも皆さんの新しい知識や業務のご参考になれば幸いです。
日商エレクトロニクスでは、Azure Databricksの環境構築パッケージを用意しています。
Azure DatabricksやAzure活用、マイクロソフト製品の活用についてご相談事がありましたら
是非お問い合わせください!
Azure Databricks連載記事のまとめはこちら
この記事を読んだ方へのオススメコンテンツはこちら
この記事を書いた人
- 力石 玲菜