Microsoft Azureで作るデータ分析基盤の
PoC項目と基本設計を解説!
Microsoft Azureにはデータ分析基盤の構築に活用できる様々なサービスが存在しますが、
「各サービスをどのように組み合わせればよいか分からない」
「Azureで自社のやりたいことが実現できるか知りたい」
「PoCでは何を気にすれば良いの?」と悩まれている方もいらっしゃるのではないでしょうか。
本稿では、そのような方に向けてAzureでデータ分析基盤を構築する際のPoC項目やアーキテクチャについて解説します。
● こんな方におススメ
- データ分析基盤をAzureで作ることを検討している
- やりたいことはイメージできているが、どのような構成や技術を使って実現させればよいのかわからない
- 具体的に必要なアーキテクチャを勉強している
なお、関連してAzureにおけるデータ分析基盤構築の基本的な考え方を紹介する記事もございますので、併せてご覧ください。
【Azureでデータ分析】データ基盤導入のポイントと3ステップ >
目次
1. 基本的なデータ分析基盤に必要な要素とは?
一般的なデータ分析基盤は、「コールドパス」と「ホットパス」の2つの方法でデータを蓄積します。
コールドパスとは、データベースやファイルなどからバッチ処理でデータレイク・データストアへデータを蓄積する方法です。
例えば日次・週次での販売実績など即時性が必要ないデータについては、コールドパスで対応します。
一方で、ホットパスは即時性が求められるデータに対応するための方法です。
対象からリアルタイムにデータを取り込み、ダッシュボードなどで可視化します。例えば、IoTデバイスなどから収集した設備監視データなど、リアルタイム性が重要となるデータはホットパスで対応します。
なお、Azureでは後述の通りコールドパス・ホットパスのどちらも対応することができます。
2.データ分析基盤のPoC項目を整理
データ分析基盤を導入する際には、社内合意の獲得や自社で使えるものかを確認するために必ずPoCを行う必要があります。
適正なPoCは「プロジェクトの採算性の評価、リスク抑制、無駄な工数の削減」の実現とともに社内の円滑な意思決定を促しますので、設計を行う前にまずはPoC項目を整理することが大切です。
PoCで確認すべき4つのポイント
具体的に何を確認するか、4つのポイントでまとめてみました。
- 決定したクラウドアーキテクチャが自社の目的を達成することができそうであるか
- 環境構築において自社で実施可能な範囲はどこか
- プロジェクトの大まかなスケジュール、工数はどのようになるか
- プロジェクト費用及び維持費用はどの程度になるか
特に、1のクラウドアーキテクチャが目的を達成できそうであるか、は重要なポイントです。
次の章からAzureで実現する際の基本設計やンポーネントの解説を行いますので、自社が実現したいことは何か念頭に置いて読んでみてください。
3. Microsoft Azureサービスで作るデータ分析基盤の基本設計
Microsoft Azureには、社内のデータ分析・データ活用を進めるために必要なサービスが一通りそろっています。自社の要件に合わせてAzureの各サービスを組み合わせることで、様々な課題解決が可能です。
以下では、一般的なデータ分析基盤に必要な要素を、Microsoft Azureの各PaaSサービスに落とし込んだ場合の全体像を紹介します。
まず、基本の要素は下記です。
それを、Microsoftのサービスに落とし込むと下記のようになります。
コールドパスを実現する機能
データ分析基盤の構成要素 | 対応するAzureの提供機能 |
---|---|
オーケストレーション/ バッチデータ取り込み |
Azure Data Factory |
データレイク | Azure Data Lake Storage Gen2 / Blob ストレージ |
データ分散処理 | Azure Data Bricks |
データ分析ストア | Azure Synapse Analytics(専用SQLプール) / SQL Database |
レポーティング | Power BI |
機械学習/深層学習 | Azure Machine Learning |
データカタログ | Microsoft Purview |
ホットパスを実現する機能
データ分析基盤の構成要素 | 対応するAzureの提供機能 |
---|---|
リアルタイムデータ取り込み | Azure Event Hubs / Azure IoT Hub |
ストリーム処理 | Azure Stream Analytics |
リアルタイムダッシュボード | Power BI |
4. Microsoft Azureの各サービスの特徴を解説
以下では、上述したAzureの各PaaSサービスの特徴について解説します。ここでは概要のみを紹介しますので、詳細を知りたい場合は各サービスの製品資料や当社のセミナー動画も併せてご参照ください。
Azure Data Factory
Azure Data Factoryは、一般的にはETLと呼ばれるカテゴリの製品で、データの変換・取り込み・連携をクラウド上で実現します。
Azure Data Factoryの主な特徴は以下の通りです。
- 大規模なデータを高速に移動できる
- 90以上のコネクタがあり様々なデータソースから連携できる
- GUIを使ってノーコードで開発ができる
Azure Data Factory設定の流れ
様々なメリットがあるAzure Data Factoryですが、設定項目が複雑でデプロイの難易度が高いことに注意が必要です。
Azure Data Factoryでは、大きく「どこの」「どのデータを」「どのように」「どのような流れで」という4つの項目で設定をしていきます。
当社ではAzure Data Factoryについてデモ動画で解説するセミナーを実施しています。具体的な設定方法を知りたい方はぜひご覧ください。
Azureデータ基盤構築 デモセミナー >
データソースの種類を増やしたい場合
上述の通り、Azure Data Factoryには90以上のデータソースと連携できるコネクタが用意されていますが、CDataという製品により、さらに連携可能なデータソースを増やすことができます。
連携対象データがAzure Data Factoryのみで対応できるのか判断が難しい場合は、弊社にて調査可能ですのでぜひ相談ください。
CDataとは >
その他、Azure Data Factoryに関する詳細が知りたい場合は、以下の資料も併せてご参照ください。
Azure Data Factory概要資料 >
Azure Event HubsとAzure IoT Hub
Azure Event Hubs及びAzure IoT Hubは、リアルタイムのデータ取得に対応したAzureの機能です。
Azure Event Hubsがビッグデータのストリーミング用全般に設計されているのに対し、Azure IoT Hubはその名称の通りIoTデバイスからのデータ取得に向いたサービスです。
どちらのソリューションも大量のデータをリアルタイムに処理するために設計されており、数百万のデバイスから発生するデータも処理することができます。
Azure Stream Analytics
これらのサービスから取得したデータをリアルタイムに分析するために活用できるのが、Azure Stream Analyticsです。
Azure Stream Analyticsによって、複数のデータソースから収集した数百万のデータを高速に分析できます。
例えば、IoTデバイスから収集されたデータを分析し、リアルタイムでの不良品検査などに活用することも。また、分析したデータをPower BIなどのダッシュボードで可視化することも可能です。
Azure Data Lake Storage Gen2とBlob ストレージ
Azure Data Lake Storage Gen2は、ビッグデータ分析に最適化されたストレージです。また、Blobストレージは、小規模からビッグデータまで様々なシナリオに対応する汎用ストレージです。
どちらを選べばいいのか?特徴比較
両者を比較すると、下表の通りとなります。
Azure Data Lake Storage | Blob ストレージ | |
---|---|---|
構造 | 階層型名前空間 | フラット型名前空間 |
API |
|
Blob API |
セキュリティ | ◎ | 〇 |
パフォーマンス | ◎ | 〇 |
大きく、Azure Data Lake Storageでは通常のファイルストレージのようにディレクトリ構造でデータを管理する「階層型名前空間」を採用できるのに対し、Blobストレージではストレージ内のファイルを同じ階層でシンプルに保管する「フラット型名前空間」が採用されている点や、セキュリティ・パフォーマンスレベルの観点で両者には違いがあります。
Azure Data Lakeの詳細については、こちらの資料もご参照ください。
Azure Data Lake概要資料 >
Azure Databricks
Azure Databricksとは、大量のデータを高速で分析するためのサービスです。
最新バージョンの Apache Sparkが採用されており、以下のような特徴があります。
- 複雑な分析など様々なワークロードに対応
- スキルセットに合った言語で開発できる
Azure Data bricksの詳細については、こちらの資料もご参照ください。
Azure Databricksの概要資料 >
Azure Synapse Analytics専用SQLプールとSQL Database
Azure Synapse Analytics専用SQLプールは、SQL Serverエンジンをベースとした並列分散処理が可能なRDBです。
また、SQL Databaseは、SQL ServerをベースとしたRDBであり、SQL Serverのクラウド版という位置づけのサービスです。
どちらを選べばいいのか?特徴比較
両者は、以下のポイントで選定することができます。以下の条件に当てはまる場合は、「Azure Synapse Analytics専用SQLプール」の採用が適しています。
- 小さなSQL処理を頻繁に行う場合
- データ容量が100TBを超える場合
- 大量のデータロードがある場合
Azure Synapse Analyticsには様々な機能が含まれる
Azure Synapse Analyticsは、データ分析ストアにおける専用SQLとしての役割だけでなく、オーケストレーションやバッチデータ取り込み、データ分散処理の機能も兼ね備えています。
様々な機能を包括したAzure Synapse Analyticsを利用することでシンプルなデータ分析基盤の構成を実現できます。
Azure Synapse Analyticsの詳細については、こちらの資料もご参照ください。
Azure Synapse Analytics概要資料 >
Power BI
Power BI は、データをグラフなどの見やすい形に変換してダッシュボード上に表示できるBIツールです。
以下の各機能により、データの加工・可視化から作成したコンテンツの共有・閲覧までを実現することができます。
- Power BI Desktop:Excelに似た操作感で簡単データの加工・可視化を実現する
- Power BI サービス:作成したPower BIコンテンツを安全に共有・管理する
- Power BI ブラウザ/アプリ:作成したPower BIコンテンツを様々な方法で閲覧できる
当社ではPower BIを紹介するセミナーを実施しています。Power BIの詳細については、こちらのセミナー動画もご参照ください。
Power BIの組織への浸透~体験型セミナー >
Microsoft Purviewとは
Microsoft Purview はクラウド、オンプレ、SaaSなどに分散しているデータを統合して管理・保護できるデータガバナンスツールであり、以下のような特徴があります。
- 幅広いデータに対応できる
- データの検出・検索・管理・機密データ分析ができる
Microsoft Purviewの詳細については、こちらの資料もご参照ください。
Microsoft Purview概要資料 >
Azure Machine Learningとは
Azure Machine Learningは、機械学習、深層学習を実現するサービスです。
多数のテンプレートが用意されており、迅速かつ手軽にAIを活用することができ、以下のような特徴を備えます。
- GUIからドラッグ&ドロップで予測分析モデルを開発できる
- 開発から運用の一連の流れを幅広くカバーできる
5. Azureを使ったデータ分析基盤の構成例
最後に、Azureを利用したデータ分析基盤の主な構成例を紹介します。
パターン❶
構造化データの可視化や、将来的な分析ニーズに備え非構造化データの蓄積を実施したい場合
この場合、構造化データであるデータベースに加え、非構造化データであるファイルサーバ・画像ファイルなどを合わせてAzure Data FactoryからBlob ストレージなどのデータレイクに蓄積します。
さらに、DWHとしてSynapse Analyticsの専用SQLプールを活用し、Power BIで可視化する流れを作るのが効果的です。
パターン➋
機械学習を活用した分析や、構造・非構造化データの分析を行いたい場合
非構造化データであるファイルや画像データなどをBlob ストレージなどのデータレイクに蓄積しつつ、機械学習を適用することで構造化データに変換し、専用SQLプールに蓄積します。
これにより、より高度かつ反復可能な分析を実行できるようになります。
パターン❸
将来も見越して拡張性の高い環境を実現したい場合
データサイエンスやデータエンジニアリング向けに設計されているAzure Data Bricksを利用することで、可用性、耐障害性を担保しつつ、高速な分析を実現することができます。
各モデルの詳細については、以下のサイトもご参照下さい。
Azureデータ基盤の導入支援デスク>
6.まとめ
本稿では、Azureでデータ分析基盤を構築する際のアーキテクチャについて解説しました。
ある程度やりたいことが決まっているものの、どのようにAzureの各機能を組わせたらよいか分からない場合は、お気軽に弊社までご相談下さい。
また、上記で紹介したサービスを、自社で保有しているAzure環境に構築しテストを行うことも可能です。
弊社ではAzureで実現するPoC支援サービスがありますので、ご興味ある際はぜひお問合せください。
- クラウドの中でもAzureで実現したい
- 実現したいことは決まっているけれど、Azureでどう実現すればよいのか相談したい
という方にぴったりな内容です。
「まずは具体的な構築方法を勉強してから相談したい」という方へは、以下のセミナーもご用意しております。ぜひこちらも活用してみてください。
\ データ基盤のコンポーネントを理解できる /
実際にAzurePortalで操作するデモ動画をご覧いただけますので、さらに具体的にイメージを付けていただけるかと思います。
ご興味お持ちいただけましたら、ぜひお申し込みください!
この記事を書いた人
- Azure導入支援デスク 編集部
-
こんにちは!双日テックイノベーション(旧:日商エレクトロニクス)では、Microsoft Azure活用に関する有益な情報を皆様にお届けしていきます。Azure移行、データ活用、セキュリティなどに関するお困りごとや、Microsoft Azureに関する疑問点などお気軽にご相談ください。
ブログにしてほしいネタなどのリクエストもお待ちしております。
この投稿者の最新の記事
- 2024年9月12日ブログ2024年版 最新のデータ活用基盤とは?グローバル企業の事例も紹介!
- 2024年7月16日事例Azureデータ活用基盤導入事例:第一フロンティア生命保険株式会社
- 2024年3月27日ブログデータレイクとは? ~DWHとの違い、メリット、活用例などをわかりやすく解説~
- 2024年3月6日ブログデータカタログとは?~機能、導入のメリット、導入方法まで解説~