Databricksで実現できること
データサイロの解消
構造データ、非構造データを統合
現在、多くの企業や組織がAIを使ったデータ活用を強化しています。中でも、機械学習の技術は、顧客対応の最適化や売上の増加、需要の予測やサプライチェーンの効率化、そしてIoTのデータを利用した保全や異常検知など、多岐にわたる業務で効果を示しています。
ここで問題となるのがデータの保存方法です。従来の「データウェアハウス」では、すでに処理済みの構造データしか保存できないため、新しいAIの分析には適していません。
一方で、生のデータを保存する「データレイク」は、ファイルなど非構造データの管理となりデータガバナンスが聞かせづらい、利用するには専門知識や手間がかかるという問題が出ていました。
また、プラットフォームが分かれることで、二重もち、二重管理などサイロ化のデメリットがありました。
データレイクハウスは、データレイクの非構造データであっても、DWHの構造データと同様に管理し、ひとつのプラットフォームで両方の処理を実現します。
データの管理にはDelta Lakeと呼ばれる技術を利用し、あらゆるデータの一貫性やガバナンスを確保することができます。このことでプラットフォームの統合・サイロ化を防ぐことができます。
リアルタイム・定期処理を統合
Databricksはバッチとしての定期処理だけでなく、ストリーミングとしてのリアルタイム処理もこのシングルプラットフォーム上で行うことができます。ユーザーは複雑なデータ処理も非常にハイレベルで効率的に実行することが可能となっています。
異なるサービスをそれぞれ導入したり、管理する手間を別々にかけるという煩雑さを解消することになるため、システムの運用がよりシンプルで効率的になります。
BI &SQLアナリティクス
SQLの実行
DatabricksはPython、SQL、Scala、Rをサポートしており、SQLなどのスクリプトはApache Sparkで実行可能な形に変えられて結果を得ることができます。
これにより、既にSQLを使用していたデータベースエンジニアはそのスキルを継続して活かすことが可能となり、大きな変更を加えずにアプリケーションをSQLベースで運用することもできます。
全ての処理はApache Sparkを基盤として行われるため、大量のデータを効率的に分散処理することが可能です。
ダッシュボード作成と共有
Databricksは、「Redash」という名前のオープンソースBIツールを提供しています。ユーザーフレンドリーなGUIとともに、SQLやその他のクエリ言語を駆使してデータソースへ直接クエリを投げることができます。このツールにはダッシュボードの共有、アラートの設定、タスクの自動実行といった機能が備わっています。Databricksユーザーは他のBIツールを導入することなく分析や可視化が行えます。
またDatabricksには「Delta Sharing」というデータ共有技術も搭載されています。これはデータ共有のオープンプロトコルで、Delta Lake上のデータを他のユーザーと容易に共有することができます。共有を受けたユーザーは、データのコピーを作ることなくデータにアクセスしデータを利用することが可能となります。データへのアクセスログや監査履歴も取得可能で、データのセキュリティも確実に保護できます。
既存BIやアプリケーションとの連携
Databricksでは、PowerBIやTablauなどさまざまなBIツールとの間で標準の接続コネクタが用意されています。
あらたに開発をすることなく、ご利用中のBIツールからデータをご活用いただくことができます。
AI・機械学習
ML Flowの活用
DatabricksではML Flowと呼ばれる機械学習のプロセスを効率的に管理するオープンソースのプラットフォームを提供します。ML FLowでは機械学習の実験の追跡、モデルの一元管理、モデルの簡単なデプロイ、そしてプロジェクトの再利用・再現性を高めるためのパッケージ化の機能が提供されます。機械学習の過程を透明にし、チーム間の協力を促進することができます。
DatabricksではML Flowをサービスとして利用することができます。Databricksのワークスペースやノートブックとの深い統合、ジョブスケジューラーを利用した本番モデルの運用監視、そしてDelta LakeやSparkといったDatabricksのエコシステムとのシームレスな連携をすることができます。
このことで大量のデータや高度な分散処理といった要件にも対応することができます。
AI活用のライフサイクルをサポート
Databricksを使うと、データを効率的に整理・処理することができ、チームでの連携を強化することができます。
さらに、生成AIや大規模言語モデルなど、機械学習の初期段階から本番利用までをスムーズに進めることが可能です。Databricksが提供する主な機能やサービスは以下の通りです。
- ノートブック:Python、R、SQLなど様々な言語をサポートしており、データの視覚化や共有が簡単にできます。
- 機械学習のランタイム:PyTorchやTensorFlowなどのMLツールを使って、既に設定されているクラスタへ簡単にアクセスできます。
- 特徴量ストア:データのログを自動で保存し、後から簡単に探して再利用できるようになっています。さらに、簡単な手順でモデルを使うことができます。
- AutoML:初心者から専門家まで、機械学習のモデル作成をサポートします。使いやすいモデルや、カスタマイズ可能なコードも提供します。
- MLflow:信頼性やセキュリティを持ったオープンソースのプラットフォーム上で動作し、機械学習モデルの適用を迅速にサポートします。
- モデル監視:モデルの動作や、その影響をリアルタイムでチェックします。問題を早く察知して対応することができます。
- リポジトリ:Databricks内でのGitの使い方を効率的にし、コードの持ち運びや自動的なワークフローをサポートします。
- 大規模言語モデル:大きな言語モデルの利用やカスタマイズが簡単にでき、性能向上のサポートをします。
高速/分散処理
Databricksは、データレイク上で驚異的な高速分析を実現するレイクハウスプラットフォームです。
Apache Sparkをベースに、データの取り込みからETL、ストリーミング、データサイエンス、インタラクティブクエリといった多岐にわたるワークロードをサポートしています。
クラウドネイティブでスケーラブルなアーキテクチャにより、Databricksはコスト効率の良さと高いパフォーマンスを同時に提供しています。
Databricksの次世代エンジン「Photon」を提供します。
Photonはレイクハウスのために一から構築された最先端の技術です。C++で書かれたネイティブベクトル化エンジンとしての役割を果たし、ハードウェアの能力を最大限に引き出し、驚異的なクエリの高速化を実現します。
他のクラウドデータウェアハウスと比べてPhotonは最大12倍の価格性能を誇ります。そして、その高性能さを保ったままApache SparkのAPIとの完璧な互換性も持っているため、既存のコードをそのまま使用することが可能となります。
バッチ処理からストリーミング処理まで、Photonは多様なワークロードをサポートし、またSQLやPythonといった多くの言語ともシームレスに連携します。
将来にわたって使い続けられる基盤
ひとつのアーキテクチャで将来まで可能
Databricksは、データの全ての工程をサポートする統一されたワンプラットフォームを提供します。この統一プラットフォームの強みは、サイロ化されたデータの問題を解消し、長期的な視点でシステムのシンプルさと持続性を確保することです。
Databricksのアーキテクチャはクラウドネイティブかつスケーラブルですので、将来のデータ規模の増大や技術の変化にも柔軟に対応することが可能です。また、オープンソースベースであるため、テクノロジーの進化と共に成長し続けることが可能です。Databricksを採用すれば現時点の選択が将来の利用を制限することがありません。
ビジネスの成長や変化に対応しながら、将来にわたってデータとAIの活用を持続的に支えるプラットフォームとして最適です。