Data+AI Summit 2024 キーノート2
昨日についづいてキーノート2日目の内容をご紹介します。
これまで詳しく話されたのはGenarative AI、データウェアハウス、Databricks AI/BIの領域。
本日はどういう発表がされるでしょうか。
目次
Deltalake4.0
Deltalakeはレイクハウスを作るうえでもっとも利用されているデータフォーマット。
2023年のData AI Sumiit2023でDaltalake3.0が発表されて以来、1年ぶりの大型アップデート発表されました。
今回のDeltalake4.0で、他のプラットフォームとの接続性、 相互運用性が向上しています。
主要アップデート
- Dalta Lake Uniform GA
これまでコンセプトは近くてもApache HudiやApache Icebergとはコンセプトは近くてもメタデータが異なっていため双方向で互換性がありませんでした。そのため、SnowflakeやBigQueryを使うシナリオとDatabricksを使うシナリオはわける必要がありましたが、同じParketフォーマットのもとそれぞれのメタデータをもつことで、統合して取り扱うことが可能になります。しかもDalta Lake Uniformを使っても、パフォーマンスにはほぼ影響がありません。レイクハウスがよりオープンな進化を遂げています。 - VARIANTデータ型のサポート
JSONなど半構造データを対象とするときの操作性が向上します。これまでは半構造データをテキストでもつ場合や表形式に変換する場合など、柔軟性、速度・オープン性のトレードオフがありましたが、今後はVARIANTの型でデータを持つことで悩みから解放されます。
Unity Catalogのアップデート情報
昨日に続きもっともすばらしい拍手・反応がありました。
もはやDatabricksはBI&AIといったデータ活用だけでなく、データのガバナンス・共有といったデータ管理全体も含めた領域に拡大していることを感じます。
Unity Catalogは既に10,000以上の顧客に利用されている。
Open Connectiity分野のアップデイト
- Lakehouse Federation GA
オンプレや他クラウドサービスなど、利用するDatabrick環境以外のデータを対象にデータ活用できる機能がGAとなりました。さらにApache HiveとGlueとも年内に対応予定
Unifiedガバナンス分野のアップデイト
- Lakehouseモニタリング GA
データの異常値やモデルの精度低下などを、モニタリング・監視・アラートが可能となる。そのためのダッシュボードの自動作成も行うため、運用・管理が大幅に簡素化される。 - Attribute-Based Access Controle(ABAC・プライベートプレビュー)
データにタグ付けできる機能。該当のタグに基づいてACCESSコントロールなどができる。
これまではスキーマやテーブル単位で管理が必要であったが、スキーマやテーブルを横断してタグをもとに対応が可能となる。
Open Access分野のアップデイト
多くのクラウドデータプラットフォームはオープンなアクセスができる設計になっていない。
(たとえば某雪印のクラウドDWHは自らのサービスにデータをロックインする)
それに対しDatabricksは、オープンにプラットフォームを横断しアクセスできるようにする。
- Unity Catalog OSS
オンプレやDatabricks以外のデータでも、Unity Catolgで管理が可能となる。デルタシェアリングなど、Unity Catalogの機能も利用でき、今後データ管理の基準として拡大することが期待される。セッションのなかで、リアルタイムにUnity Catalog OSSのバージョン1.0をリリーするパフォーマンスを実施し、観覧車から特別に大きな歓声が上がっていた。
今後のUnity Catalogの展開
- Unity Catalog Metrics
用語や年度始まりの時期など、自社専用の分類項目をメトリックテーブルとして自動保存してくれる
BI等で該当の項目を絞り込みやグルーピングの軸として利用可能 - 組織間のデータ共有
Databricksは将来のデータ管理・共有のオープンスタンダードになりたい。
現時点でできる方法は3つ- Delta Sharing
Delta形式のデータに対するアクセス権を、他社も含め必要な方に付与
Deltasharngaは2年前GAし既に16,000+以上が利用している、対前年4倍で成長しているという状態 - Sharing for Lakehouse Federation
Laehouse Federationで取得する、オンプレや他プラットフォームのデータもの他の組織に共有 - Databricks Marketplace
データプラットフォームがもつデータを他社に共有し、代わりに報酬を得るようなビジネス可能
- Delta Sharing
- Databricks Clean Room(プレビュー)
複数社がデータをもちより共同利用する方法
クロスクラウド、クロスプラットフォームできる
今年の夏後半にパブリックプレビューになる予定
Workflows / DLT領域
データ活用には”良いデータ”が必要。
そのための機能を持てるようDatabricksはLake Flowのサービスを立ち上げていく。
- Lake Flow
Ingest、Transform,Orchestrateのみっつのモジュールで提供する予定- Ingestのモジュール:Connect(プレビュー)
買収したAcionのテクノロジーを活用しエンタープライズアプリケーションのコネクタを開発中
現時点ではSalesforceなどいくつかのサービスに対応 - Transformのモジュール:Pipelines(構想段階)
Delta Live Tablesを拡張SQLやPythonでデータ変換できるサービスとして展開していく - Orchestrateのモジュール:Jobs(構想段階)
Workflowsを拡張、監視やモニタリングなどができるあらゆる管理できるようにする
- Ingestのモジュール:Connect(プレビュー)
- Serverless Computekn2
Databricks SQLに加え、Workflows、Notebooks、Delta Live TableがServerlessで利用可能になる
日本も含め7月より利用できるようになる見込み
まとめ
いかがでしたでしょうか。
今回のキーノートでは、Databricksがデータ活用の全領域をカバーする、それもAIを活用しより簡素化・高度にできるようににするというメッセージを強く感じました。
とはいえ一方でまだプレビュー中であったり、リリース時期が見えていない機能もありました。
Databricksの目指している世界は理解しつつ、現実的に自社で何をすべきか考える必要がありそうです。
このアップデイトを受け、日本でもData AI World Tourが2024年の11月に開催される予定となっています。今回の発表の実現状況、日本でのデータ活用の状況などより深い情報が知れると思いますので、是非ご予定ください。
今回はキーノートをまとめた記事となっていますが、番外編としてセッションやブース、Japan向けイベントの情報など追加で情報を提供したいと思います。是非次の記事もご期待ください。こちらからご覧ください。
この記事を書いた人
- Azure支援デスク 管理者
- 双日テックイノベーション(旧:日商エレクトロニクス)特設サイト「Azure導入支援デスク」サイトマスターです。
この投稿者の最新の記事
- 2024年6月14日ブログData+AI Summit 2024 追加情報
- 2024年6月14日ブログData+AI Summit 2024 キーノート2
- 2024年6月13日ブログData+AI Summit 2024 キーノート1
- 2024年2月19日ブログデータガバナンスとは?概要からデータマネジメントとの違い、取り組み方までを解説