Data+AI Summit 2024 キーノート2


昨日についづいてキーノート2日目の内容をご紹介します。
これまで詳しく話されたのはGenarative AI、データウェアハウス、Databricks AI/BIの領域。
本日はどういう発表がされるでしょうか。



Deltalake4.0

Deltalakeはレイクハウスを作るうえでもっとも利用されているデータフォーマット。
2023年のData AI Sumiit2023でDaltalake3.0が発表されて以来、1年ぶりの大型アップデート発表されました。
今回のDeltalake4.0で、他のプラットフォームとの接続性、 相互運用性が向上しています。

主要アップデート

  • Dalta Lake Uniform GA
    これまでコンセプトは近くてもApache HudiやApache Icebergとはコンセプトは近くてもメタデータが異なっていため双方向で互換性がありませんでした。そのため、SnowflakeやBigQueryを使うシナリオとDatabricksを使うシナリオはわける必要がありましたが、同じParketフォーマットのもとそれぞれのメタデータをもつことで、統合して取り扱うことが可能になります。しかもDalta Lake Uniformを使っても、パフォーマンスにはほぼ影響がありません。レイクハウスがよりオープンな進化を遂げています。
  • VARIANTデータ型のサポート
    JSONなど半構造データを対象とするときの操作性が向上します。これまでは半構造データをテキストでもつ場合や表形式に変換する場合など、柔軟性、速度・オープン性のトレードオフがありましたが、今後はVARIANTの型でデータを持つことで悩みから解放されます。

Unity Catalogのアップデート情報

昨日に続きもっともすばらしい拍手・反応がありました。
もはやDatabricksはBI&AIといったデータ活用だけでなく、データのガバナンス・共有といったデータ管理全体も含めた領域に拡大していることを感じます。

Unity Catalogは既に10,000以上の顧客に利用されている。

Open Connectiity分野のアップデイト

  • Lakehouse Federation GA
    オンプレや他クラウドサービスなど、利用するDatabrick環境以外のデータを対象にデータ活用できる機能がGAとなりました。さらにApache HiveとGlueとも年内に対応予定

Unifiedガバナンス分野のアップデイト

  • Lakehouseモニタリング GA
    データの異常値やモデルの精度低下などを、モニタリング・監視・アラートが可能となる。そのためのダッシュボードの自動作成も行うため、運用・管理が大幅に簡素化される。
  • Attribute-Based Access Controle(ABAC・プライベートプレビュー)
    データにタグ付けできる機能。該当のタグに基づいてACCESSコントロールなどができる。
    これまではスキーマやテーブル単位で管理が必要であったが、スキーマやテーブルを横断してタグをもとに対応が可能となる。

Open Access分野のアップデイト

多くのクラウドデータプラットフォームはオープンなアクセスができる設計になっていない。
(たとえば某雪印のクラウドDWHは自らのサービスにデータをロックインする)
それに対しDatabricksは、オープンにプラットフォームを横断しアクセスできるようにする。

  • Unity Catalog OSS
    オンプレやDatabricks以外のデータでも、Unity Catolgで管理が可能となる。デルタシェアリングなど、Unity Catalogの機能も利用でき、今後データ管理の基準として拡大することが期待される。セッションのなかで、リアルタイムにUnity Catalog OSSのバージョン1.0をリリーするパフォーマンスを実施し、観覧車から特別に大きな歓声が上がっていた。

今後のUnity Catalogの展開

  • Unity Catalog Metrics
    用語や年度始まりの時期など、自社専用の分類項目をメトリックテーブルとして自動保存してくれる
    BI等で該当の項目を絞り込みやグルーピングの軸として利用可能
  • 組織間のデータ共有
    Databricksは将来のデータ管理・共有のオープンスタンダードになりたい。
    現時点でできる方法は3つ

    • Delta Sharing
      Delta形式のデータに対するアクセス権を、他社も含め必要な方に付与
      Deltasharngaは2年前GAし既に16,000+以上が利用している、対前年4倍で成長しているという状態
    • Sharing for Lakehouse Federation
      Laehouse Federationで取得する、オンプレや他プラットフォームのデータもの他の組織に共有
    • Databricks Marketplace
      データプラットフォームがもつデータを他社に共有し、代わりに報酬を得るようなビジネス可能
  • Databricks Clean Room(プレビュー)
    複数社がデータをもちより共同利用する方法
    クロスクラウド、クロスプラットフォームできる
    今年の夏後半にパブリックプレビューになる予定

Workflows / DLT領域

データ活用には”良いデータ”が必要。
そのための機能を持てるようDatabricksはLake Flowのサービスを立ち上げていく。

  • Lake Flow
    Ingest、Transform,Orchestrateのみっつのモジュールで提供する予定

    • Ingestのモジュール:Connect(プレビュー)
      買収したAcionのテクノロジーを活用しエンタープライズアプリケーションのコネクタを開発中
      現時点ではSalesforceなどいくつかのサービスに対応
    • Transformのモジュール:Pipelines(構想段階)
      Delta Live Tablesを拡張SQLやPythonでデータ変換できるサービスとして展開していく
    • Orchestrateのモジュール:Jobs(構想段階)
      Workflowsを拡張、監視やモニタリングなどができるあらゆる管理できるようにする
  • Serverless Computekn2
    Databricks SQLに加え、Workflows、Notebooks、Delta Live TableがServerlessで利用可能になる
    日本も含め7月より利用できるようになる見込み

まとめ

いかがでしたでしょうか。
今回のキーノートでは、Databricksがデータ活用の全領域をカバーする、それもAIを活用しより簡素化・高度にできるようににするというメッセージを強く感じました。
とはいえ一方でまだプレビュー中であったり、リリース時期が見えていない機能もありました。
Databricksの目指している世界は理解しつつ、現実的に自社で何をすべきか考える必要がありそうです。

このアップデイトを受け、日本でもData AI World Tourが2024年の11月に開催される予定となっています。今回の発表の実現状況、日本でのデータ活用の状況などより深い情報が知れると思いますので、是非ご予定ください。

今回はキーノートをまとめた記事となっていますが、番外編としてセッションやブース、Japan向けイベントの情報など追加で情報を提供したいと思います。是非次の記事もご期待ください。こちらからご覧ください

この記事を書いた人

NE + Azure 編集部
NE + Azure 編集部
日商エレクトロニクス特設サイト「日商エレ+Azure」サイトマスターです。