Unity Catalogの新機能
powered by 日商エレクトロニクス
こんにちは、日商エレクトロニクスのデータサイエンティスト、トゥアンです。
本記事では、6月10日 ~ 13日に開催されたData + AI Summitの各セッションの前半部分を随時更新しながらまとめていきます。
Data+AI Summit 2024の公式サイトはコチラ >
Data+AI Summit 2024のDay1のまとめはコチラ >
Data+AI Summit 2024 キーノート1のまとめはコチラ >
●こんな方におススメ
- Data + AI SUMMIT 2024 基調講演の内容を日本語でサクッと把握したい方
- GenAIやLLMの最新技術をキャッチアップしたい方
目次
1. Hive Metastore Federation
Hive Metastore Federationは、複数のHive Metastoreに対して統一されたアクセスを提供するシステムであり、異なるHive Metastore間でのデータの読み書きが可能となり、データの統合管理やクエリの一元化を実現します。これにより、データソースをポリシーと共にUnity Catalogに接続するためのLakehouse Federationを含む強化されたフェデレーションと、内部または外部のHive MetastoreやAWS Glueの読み書きが可能なHive Metastore Federationが導入されています。
新しいHive Metastore Federationを使用すると、以下のことができるようになりました。
- Unity Catalog内のすべての資産に迅速にアクセスできます!
- 他のチームやシステムとの相互運用性を実現します。
2. 属性ベースのアクセス制御
ABACを使ってPII情報をより簡単に保護することができます。
ユーザーケース #1
PIIタグ付けされたすべての列に対して、わずか数行のコードですべてのテーブルにマスクを適用することができます。
現在
1 2 3 4 |
ALTER TABLE my_table1 SET MASK -- ALTER TABLE my_table2 SET MASK -- ALTER TABLE my_table3 SET MASK -- ... |
将来
1 2 3 4 5 6 |
SET RULE col_mask ON CATALOG turbine_prod COLUMN MASK masking_function TO 'account users' FOR tables WHEN COLUMN tagged('pii') |
ユーザーケース #2
Databricksリソースへのアクセスを、正確な時間に許可することができます。
現在
1 2 3 |
GRANT EXECUTE ON ml_schema -- sleep("90*24*60*60") REVOKE EXECUTE ON ml_schema -- |
将来
1 2 3 4 5 6 |
SET RULE grant_expire_3mo ON SCHEMA ml_schema GRANT EXECUTE TO `tiger_team` ON MODELS WHEN current_date() < '2024-09-13' |
ユーザーケース #3
すべてのグループに対してアクセス許可を簡単に与えるための新しいDENY機能が追加されました。特定の特別なグループを例外として除外することができます。
現在
1 2 |
CREATE SCHEMA sensitive_sandbox; -- |
将来
1 2 3 4 5 |
SET RULE restrict_manage_tables ON CATALOG sensitive DENY MANAGE_GRANTS TO ALL EXCEPT `group_1` FOR tables |
3. クラウドサービスの資格情報
Unity Catalogは、指定された特権を通じて任意のクラウドサービスへの制御されたアクセスを可能にします。例えば、AWSのSQSやSecrets Managerなどのサービスに対するアクセスを効率的かつ安全に管理することができます。この機能により、組織は重要なクラウドリソースへのアクセスを一元的に管理し、環境全体でセキュリティとコンプライアンスを確保することができます。
4. ディスカバリーの強化
Unity Catalogのディスカバリーページには新機能が導入されます。
- グローバルセマンティックサーチ:強化された意味理解を備えた新しい検索機能。
- お気に入り:ユーザーは今後、テーブルやクエリをお気に入りに登録して、簡単にアクセスできるようになります。
- AI生成コメント:システムがコードやクエリに自動的にコメントを生成する機能が追加されました。
- テーブルの健全性インジケーター:テーブルの全体的な健全性や品質を示す新しいインジケーターです。
5. Metrics
Unity Catalog Metricsの導入により、データチームはレイクハウスで定義された認定メトリクスを使用して、より良いビジネスの意思決定を行うことができます。これらのメトリクスはDatabricksを通じてアクセス可能であり(例:SQL、ノートブック、AI/BIダッシュボードおよびAI/BI Genieスペース)、第三者のBIツール(例:Tableau、Power BI)でも利用できます。
6. レイクハウスの依存関係
モデルのトラッキングとサービングエンドポイントは、「依存関係」タブに表示されます。
この記事を書いた人
- ファン コック トゥアン
この投稿者の最新の記事
- 2024年6月17日ブログData+AI Summit 2024 Unity Catalogの新機能
- 2024年6月13日ブログData+AI Summit 2024 Day2 (6/12)
- 2024年6月13日ブログData+AI Summit 2024 Day1 (6/11)
- 2023年10月24日ブログ【Azure Databricks】Unity Catalog Volumeを利用して非構造化データを読み込み、表示してみる