5分で分かるAzure Databricksの特徴とは?

2023年12月30日編集
5分で分かるAzure Databricksの特徴とは

DXの実現においては、大量データを効率的に処理できるデータ分析プラットフォームが必要となります。そのような中で検討したいのが、企業のデータ分析ニーズに一元的に対応できるAzure Databricksです。
今回は、Azure Databricksでどのようなことが実現できるのか、特長や活用事例をご紹介していきます。

 

Azure Databricksとは?

レイクハウス「Databricks」をAzure上で利用できるサービス

Azure Databricksとは、Microsoft Azureクラウドサービス上で動作する、大量のデータを高速に分析できるサービスです。
Databricksは同名称のDatabricks社が提供するレイクハウスプラットフォームです。DatabricksをMicrosoft Azure上で簡単に利用できるようにしたのがAzure Databricksという位置づけです。
Azure Databrickでは高速な分散処理を実現するApache Sparkが採用されており、高速なデータ処理が可能です。構造データ/非構造データに対応するレイクハウスであり、データ集計・加工などを行った上でデータウェアハウスへの引き渡しも可能です。
Databricksにはデータ分析からAI活用まで必要なプロセスの簡素化や高度な自動化の機能が全て備わっています。複数の基盤を用意する必要はなく、Azure Databricksだけであらゆる目的を実現するデータ活用基盤を構築できます。また、Azure上で提供されるサービスであることから、他のAzureサービスとの連携性にも優れます。
このような理由から、企業のビッグデータの分析基盤としてオススメできるのがAzure Databricksです。

Databricksについて詳しくはこちら >

Azure Databricksの必要性

レイクハウスであるAzure Databricksの導入は、企業にとってどのようなメリットがあるのでしょうか。従来、データ活用基盤の構築においては構造化されたデータを扱うデータウェアハウス(DWH)と、非構造化データを安価に扱うデータレイクを採用することが一般的でした。一方で、目的別にデータ活用基盤が分かれることから、企業にとっては構築コストや運用作業、ガバナンスやセキュリティの担保などの面で負荷がかかるという課題が生じました。
そこで注目されているのが、DWHとデータレイクの良いとこ取りをしたレイクハウスという技術です。レイクハウスの最有力製品がDatabricksであり、多くの企業で採用されています。
さらに、DatabricksをAzure上で利用できるAzure Databricksであれば、多くの企業で利用されているAzure ADやMicrosoft 365などのサービス間連携が容易であるというメリットも享受できます。

レイクハウスの詳細については、こちらの記事もご覧ください。

関連記事:
レイクハウスとは?データウェアハウス、データレイクとの違いを解説

Azure Databricksの機能

Azure Databricksでは、クラウドプラットフォームであるAzureとDatabricksがそれぞれ機能を提供します。
大まかに、インフラ部分をAzureが、ソフトウェア部分をDatabricksが提供します。システムを動作させるためのVMやデータを保持するためのストレージについてはAzureが提供します。Databricksからは、レイクハウスを構築できるDelta Lakeやデータガバナンスを実現するUnity Catalogといった機能が提供されます。

以下では、Azure Databricksの主な機能についてご紹介します。
Azure databricks レイハウス・プラットフォーム

データ処理機能

Azure Databricksでは構造化データ・非構造化データ含め、様々なデータを使いやすい形式で保存することができます。Apache SparkベースであるAzure Databricksでは分散処理により高速にデータの加工が可能です。

データ分析機能

SQLクエリの実行や対話型のワークスペースにより、ローコードにてデータの分析が可能です。ダッシュボード機能を利用すれば可視化も容易に行えます。
また、タイムトラベル機能によって過去時点データに遡ることも容易にできます。これにより、データの破損などにも対応しやすいといえます。

機械学習機能

AzureとApache Sparkの基盤により、機械学習に必要な大量データを高速に処理することができます。機械学習モデルのライフサイクル管理や学習実施ごとのパラメーター管理なども可能です。

管理機能

データガバナンスの実現に有効なデータカタログ機能「Unity Catalog」や、他システムとのデータのやり取りに有効な「Delta Sharing」、機械学習における特徴量管理を実現する「Feature Store」など、様々な管理機能を利用することもできます。

Azure databricks 管理機能

Azure databricks 管理機能

Azure Databricks導入のメリット

Azure Databricksの導入メリットはどのような点にあるのでしょうか。以下では主なメリットを紹介します。

圧倒的な処理性能なのにコストを抑えられる

Azure Databricksは圧倒的な処理性能を誇ります。データベースの性能検証に用いられるTPC-DSベンチマークで世界新記録を樹立するなど、従来のDWHなどよりも高速で動作します。
にもかかわらず、比較的コストを抑えて利用することができる点が大きなメリットです。

Azure databricks 性能処理
出典:Databricks が DWH パフォーマンスの公式記録を更新

活用の幅広さ

Azure DatabricksではDWHもデータレイクも両方実現することができます。これにより、BIツールでの可視化やAIによる分析など、様々なニーズに対応することができます。

Azureサービスとの連携が容易で拡張性が高い

Azureのサービスとシームレスに統合することができ、データアクセスの高速化や管理の簡素化を実現します。たとえば、Azure Active Directory(Azure AD)を利用することでシングルサインオンや新規ユーザーの作成、適切なアクセス権限の付与なども可能です。

Azure Databricksのコスト算定について

Azure Databricksは従量課金になっており、大きく「①Azureリソース分のコスト」と「②Databricksソフトウェア利用料」から費用が構成されます。
Azure Databricksのランニングコストは、以下のサイトで簡単にシミュレーションすることができます。画面からワークロードの種類、サービスレベル、利用リージョン、通貨単位などを選択するだけで大まかな利用料金を把握できます。

Azure Databricks の価格シミュレーションはこちらから>

なお、また双日テックイノベーションでは、データ基盤の初期導入をご支援するサービスをご提供しています。条件により、本サービスの料金を無償にできる可能性もありますので、ご興味のある方はこちらをご覧ください。

データ基盤導入支援サービス詳細はこちら>

Azure databricks 構成

Azure Databricksを使ったマイグレーションの流れ

以下では、Azure Databricksを利用したデータ分析環境のマイグレーションフローについてご紹介します。

アセスメント

まずはアセスメントとして現環境の評価を行います。ワークロードの優先順位付けやビジネスロジック解析などを通して現状分析を行い、アーキテクチャの検討やキャパシティ計画を立案します。

検証

続いて、検証として特定のワークロードに絞った形で移行やデータ変換を実施します。これにより、マイグレーション実施にあたっての課題を精査することができます。

移行&変換

検証結果を踏まえ、移行およびデータ変換を進めていきます。この際、ビジネスロジックをAzure Databricksに最適化することで、Azure Databricksの導入効果を高めることができます。

本番稼動

移行完了後、本番稼動として利用する環境の切り替えを行います。必要に応じて、並列実行環境の実現を行うなど、更なる高速化を検討することもできます。

Azure databricks レイクハウス マイグレーション

Azure Databricksの利用例

最後に、Azure Databricksの利用事例についてご紹介します。

メルセデス・ベンツ・グループにおけるビッグデータ解析環境構築

世界最大級の自動車企業であるメルセデス・ベンツ・グループでは、Azure Databricksをビッグデータ解析プラットフォームとして活用しています。
同社の具体的な活用例として、機械学習による生産現場でのスポット溶接の異常検出や異常発生時の根本原因分析が挙げられます。Azure Databricksにより溶接機器のパラメーターを最適化することで、溶接品質の改善や溶接プロセスの効率改善を実施。Azure Databricksの導入以降、同社ではデータ分析の取り組みにおける90%以上にAzure Databricksを利用するなど、同製品を広く利用し改善を続けています。

Columbiaにおける消費者の需要予測

アウトドア用品の大手企業であるコロンビアスポートウェア社では、従来からデータを活用した経営を進めていましたが、従来の分析用インフラでは大規模なバッチやリアルタイム分析のサポートなどができていないという課題がありました。
そこで同社では、スケーラブルかつ柔軟性があるというメリットを得られるAzure Databricksへの移行を実施。結果として、データ連携にかかる処理を従来の4時間から5分に短縮するなど、大きな効果を得ることができました。

参考)データドリブンなリテールの新時代をクラウドで

まとめ

この記事では、5分でわかるAzure DatabricksというテーマでAzure Databricksの概要についてご紹介しました。Azure Databricksにより、可視化だけでなく高度な分析まで含めた自社のデータ分析環境を一元的に構築することができます。データ分析環境の構築を検討される際には、Azure Databricksという選択肢も考慮してみてはいかがでしょうか。

本ブログを読んでAzure Databricksを検討したい、あるいはもっと詳しい情報が欲しいとうお客様は、お気軽に弊社担当営業にご相談ください。

Microsoft Azureでは日々機能が更新され、サービスレベルが向上していますので、最新情報を入手されることをお勧めします。その際にも同様にご相談いただければと存じます。

 

Azure Databricks連載記事のまとめはこちら

 

Azure Databrikcsをもっと詳しく知りたい方は
資料もご参考ください

Azure Databrikcs概要資料 資料ダウンロードAzure Databrikcs概要資料
ダウンロードはこちら

この記事を書いた人

Azure導入支援デスク 編集部
Azure導入支援デスク 編集部
こんにちは!双日テックイノベーション(旧:日商エレクトロニクス)では、Microsoft Azure活用に関する有益な情報を皆様にお届けしていきます。Azure移行、データ活用、セキュリティなどに関するお困りごとや、Microsoft Azureに関する疑問点などお気軽にご相談ください。

ブログにしてほしいネタなどのリクエストもお待ちしております。