Azure Databricks

Azure Databricksは、Databricks社のレイクハウスプラットフォームをMicrosoft Azureクラウドサービス上で利用するサービスです。
Azure Databricksには、データ分析からAI活用まで必要なプロセスを簡素化・自動化する機能が備わっており、Azureサービスとの連携性も高いため、ビッグデータの分析基盤としてオススメできます。

Microsoftから提供される唯一のメガクラウド 1st Party製品

Databricksは複数のクラウドで利用可能ですが、クラウドごとのシェアでみるとAzure、AWS、GCPの順で利用がされています。
Azure DatabricksはMicrosoftがファーストパーティ製品として提供されています。

Microsoftの他のソリューションと容易に接続でき、例えばETLツールのAzure Datafactory、BIツールのPower BI、ID管理のMicrosoft Entraともシームレスに統合できます。

また、サポートもMicrosoftから一括して受けられるため、トラブル時や日々の運用も簡単です。請求もMicrosoft Azureに一本化でき、管理も容易です。

AzureとDatabricksを活用

Azure Databricksでは、クラウドプラットフォームであるAzureとDatabricksがそれぞれ機能を提供します。

システムを動作させるためのVMやデータを保持するためのストレージなどインフラ部分をAzureを利用し、データレイクハウスを構築できるDelta Lakeやデータガバナンスを実現するUnity Catalogなどソフトウェア部分をDatabricksで利用します。

Databricksが提供する主要な機能をご紹介します。

データ処理

Azure Databricksは、構造化データや非構造化データを含む多様なデータを使いやすい形式で保存できます。

また、Apache Sparkをベースにした分散処理によって高速なデータ加工が可能です。

データ分析

Azure Databricksには、SQLクエリの実行や対話型ワークスペースを使用して、ローコードでデータ分析が可能な機能が含まれています。ダッシュボード機能を利用すると、可視化も容易に行えます。

機械学習

Azure Databricksには、AzureとApache Sparkの基盤を活用して、機械学習に必要な大量のデータを高速に処理できる機能が含まれています。

また、機械学習モデルのライフサイクル管理や学習時のパラメーター管理なども可能です。

管理機能

データガバナンスを実現するデータカタログ機能「Unity Catalog」や、他のシステムとデータの共有に役立つ「Delta Sharing」、機械学習における特徴量管理を実現する「Feature Store」などが利用できます。

価格

Azure Databricksの利用料金もAzure部分とDatabricks部分で別れます。
まず、データの置き場所やDatabricksが稼働する環境のインフラ費用はAzure費用として支払います。具体的にはAzure Datalake Storage、Azure Virtual Network、Azure Virtual Machineなどがここに含まれます。
Databricks部分については、ソフトウェア利用料として、Azure環境上でデータ処理を行うDatabricksのクラスタの利用費用がかかります。

クラスターとは、分散コンピューティングを行うための仮想マシンの集合体で、大きくインタラクティブクラスターとジョブクラスターのふたつのタイプが存在します。

インタラクティブクラスターは、ノートブックやテーブルなどのデータ分析作業でユーザーが直接操作・利用するものです。ジョブクラスターは、ジョブや定期的なバッチ処理などを実行するために自動的に作成されるクラスターです。

クラスターの費用は、CPUやメモリの消費量を示すDBU(Databricks Unit)という単位で計算されます。両クラスターもDBUに基づいく課金となりますが、ジョブクラスターはジョブ終了後に自動的に削除される特性があります。

DBUに関する割引制度として、Databricks Commit Units (DBCU) とよばれる、まとまったDBUを1年や3年分前払いすることで、特別な価格が適用される制度も提供されて今s。具体的な詳細や価格情報は、Azureの公式ページをご確認ください。

Azure Databricks製品ページ

もっと詳しく、Azure Databricksを知りたい方は製品ページをご覧ください。

詳しくはこちら