Databricksとは
レイクハウスの先駆者
レイクハウスは、さまざまな種類や形式のデータを統一的に管理することができる先進のプラットフォームです。
その名の通り、データレイクとデータウェアハウスの双方の特性を持つため、非構造化データから構造化データまで、多岐にわたるデータを統合します。
またデータの活用の場面においても、データ加工・BIでの可視化・AIの活用までワンプラットフォームで実現することができます。
このレイクハウス技術の開発において、Databricks社はその先駆者として知られています。
彼らは企業向けの先進的なソリューションを提供するだけでなく、その技術をオープンソースソフトウェアとしても市場に提供しています。
現在ではDatabricksの技術やアプローチはデータレイクハウスのデファクトスタンダード、つまり実質的な標準として多くのデータレイクハウス製品やプロジェクトに採用されています。
1 オープン
Databricksは、オープンスタンダードをベースにしており、他のツールと簡単に統合できるため、プラットフォーム依存性の少ないセキュアなデータ共有が可能です。
データは自社で契約するクラウドサービスのストレージに格納され、自由にアクセスできます。
また、OSSで提供されるデータ管理フォーマットを使用することで、自由度が高く柔軟なデータ管理が可能です。
さらに、他社とのデータ共有サービスも提供されています。一度利用を始めたら、他のサービスにロックインされる心配がありません。
2 ワンプラットフォーム
Databricksでは、ワンプラットフォームで構造化データと非構造化データの両方を取り扱うことができ、共通してセキュリティやガバナンスに関する設定をすることができます。
関連する複数の処理を一つとして管理するACIDトランザクションを実現し、複数人が同時にデータを変更しても一貫性を維持し、他の処理に影響を与えずデータを利用できます。
また、タイムトラベル機能を備えるため、必要な場合に過去のデータに戻すことも可能です。
シングルソースオブトゥルース(SSOT)を実現することができ、データ活用に必要な信頼性の高い基盤を提供します。
3 コストパフォーマンス
Databricksでは、クラウドサービスのストレージに置いたデータ活用してデータ分析・活用を行います。
Azure、AWS、GCPに対応しており、それぞれのストレージを使うことができるため、コストパフォーマンスが高く、データ容量の制限なく利用することが可能です。