Data+AI World Tour Tokyo 2023 基調講演

 

 

1. Data+AI World Tourとは

Data + AI World Tourとは、Databricks社が主催している「データ+AI」をテーマとしたグローバルイベントです。AI がもたらす変革の可能性を探るという観点から、データと AI に関する最新の動向、成功事例、ベストプラクティスを届ける場として、世界各地で開催されています。

 

2. 基調講演のまとめ

今回の基調講演のテーマは3点です。

〇データの民主化

〇AIの民主化

〇データ+AI人材の育成

このテーマの根底にあるのは、第4次産業革命を迎えている中で、取り残されない企業になるためにはどうすべきか。「自社/外部データを最大限利活用できるデータ基盤を持ち、適切にデータフォワード/推進していける企業が勝者となる」、は本講演における最重要メッセージだと感じました。

 

データの民主化 – Lakehouseフェデレーション

適切にデータ+AIを利活用するために必要となる考えがSSoT(シングルソースオブトゥルース) であり、 SSoD (シングルソースオブデータ)です。

効果的、かつ効率的にデータの分析+AIを活用するにはデータの品質や、リアルタイム性などが重要です。また、扱えるデータも多様化していることから、従来のデータレイク、データウェアハウスでの運用は難易度が高く、コストがかかってしまい、環境が複雑化してしまいます。

従来のデータ基盤環境の課題を解消するために生まれた新たなアーキテクチャが、データウェアハウスの分析力とデータレイクの拡張性など、両方の優れた要素を取り入れた「データレイクハウス」です。

データレイクハウスが、データの作成・編集・保存・分析の一番街となるため、複数のシステム間でのデータコピーや同期をする必要がなくなり、「信頼できる唯一のデータの情報源(SSoT)」として機能します。

「信頼できる唯一のデータの情報源 (SSoT)」の環境をより容易に構築できるよう、Databricks社が新しくリリースした機能が、「Lakehouse フェデレーション機能」です。

Lakehouse フェデレーション機能

「Lakehouseフェデレーション機能」とは、MySQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、GoogleのBigQueryなどの別々のデータプラットフォームにあるデータを、Databricks内でデータを一元管理(SSoD)します。

この機能により、社内で散らばってしまっているデータ/情報源を一つにさせることで、データの正確性、一貫性を確保できます。加えて、別々のデータプラットフォームにあるデータとの関連性は、「データリネージュ」という機能で可視化できるようになっており、画面上から確認することが可能になります。

 

AIの民主化 – Lakehouse AI / Lakehouse IQ

ChatGPTの登場で、生成型AIが爆発的に広がり、ITコミュニティ内だけでなく、学生までにも影響を見せています。ことAIモデルの(Machine Learning / LLM)開発は、最盛期を迎えようとしています。誰しもが自社に合った機械学習モデル、大規模言語モデル+アプリがあれば!と考えていますが、取り掛かるには大きな課題があります。

最大の課題が、従来の開発手法を流用できない点です。具体的に、これまではコーディングが開発の主でしたが、AI開発には、コーディングだけでなく、AI(モデル)が使うデータ領域の整備も必要です。この課題を解決するために生まれた考え方が、機械学習モデルの開発においては「MLOps」であり、大規模言語モデルの開発では「LLMOps」です。

MLOps

MLOpsとは、3つの開発手法は組わせて、機械学習システムの開発・運用特有の課題を解決するために生まれました。

MLOps =「DevOps」+ 「DataOps」+「ModelOps」

DevOps:

DevOpsとは、これまで分けていた開発と運用面を統合する考え方です。開発チームと運用チームが1つになることで、スピード感を持って、かつすぐに話し合えるため、柔軟に対応できるようになります。

DataOps:

DataOpsとは、データ管理の考え方です。データ管理側・データ利用側のコミュニケーションの円滑化、自動化、統合することで、各々が使いたいタイミングで、迅速にデータを利用できる状態を目指します。データパイプライン(=どのような流れでデータを使いたいか)が整備されるため、データ分析結果の品質向上が期待できます。

ModelOps:

ModelOpsとは、AIや機械学習のモデルのライフサイクルを適切に管理するための考え方です。AIモデルを本番環境で利用できる状態にし、リリース後も適切に管理・最適化することで、効果的・効率的に業務内容などの変更点をモデルに反映させることができます。

 

MLOpsは一つのサイクルです。DevOps、DataOps、ModelOpsを効果的に、かつ、組織として運用していくには、適切なツールを選択することはもちろん、Machine Learning(機械学習)のようなAIモデルの開発には「変革が必要」、と強いマインドセットを持つことが非常に重要です。

LLMOps

LLMOpsとは、LLMの規模や複雑さで生まれる、開発・運用の課題を解消するために生また考え方です。MLOpsの原則を基にしています。

LLMOps =「DevOps」+「DataOps」+「ModelOps」+「Apps (例: ChatBot)」

大規模言語モデルを開発する場合、解消しなければいけない課題として下記のようなものが挙げられます。

〇データ統合、データ加工、プロンプトエンジニアリング、モデルの最適化(ファインチューニング)、モデルのリリース・定期監視の必要性

〇必要とするIT人材が多様 (データエンジニア(データ加工担当) + データサイエンティスト(データ分析担当) + 機械学習エンジニア)

〇コンピューターリソースの増大

機械学習モデルの開発で抱える課題、大規模言語モデルの開発で抱える課題を解消し、より容易に自社専用AIを開発するためのプラットフォームとして発表されたのが「Lakehouse AI」です。

Lakehouse AI

Lakehouse AIとは、大規模言語モデルを含む、生成型AIをDatabricks内で開発・管理・展開・監視できる統合プラットフォームです。Lakehouse AIには、LLMOpsを実現するために必要な機能を備えています。

DataOps:Vektor Search / Fearture Serving

ModelOps : Curated AI Models / LLMトレーニング向けAutoML / MLflow Evaluation

Apps:ML flow AI Gateway / LLM最適化モデルサービング / レイクハウスモニタリング

参考URL:Lakehouse AI: Generative AIアプリケーション構築のためのデータ中心アプローチ | Databricks Blog

ここでピックアップしたい機能が「MLflow Evaluation」 です。MLflow Evaluationとは、MLflowの機能であり、開発したそれぞれのAIモデルを比較することができます。実際に檀上でデモがあり、同じ質問を投げかけた際のモデル毎の回答を確認することができました。また、AIモデルの関連性に関しても、Lakehouseフェデレーションと同様、データリネージュ機能によって画面上から確認することができます。

そして、Lakehouse AIと合わせて発表されたのが、Lakehouse AIの検索(ナレッジ)エンジンである「Lakehouse IQ」です。

Lakehouse IQ

LakehouseIQは、組織内のIT担当者でなくとも、一般社員が自然言語でデータを検索、理解、照会することができます。Lakehouse IQが自然言語を解釈し、自動でクエリを作成します。さらに、自社内のデータ、使用パターン、組織図に関する情報をもとに、専門用語や独自のデータ環境を理解し、回答することも可能です。

Databricks社は、独自の大規模言語モデルを開発しているスタートアップ企業のMosaicML社を買収しました。Lakehouse AIやLakehouse IQのさらなる技術進化が見込まれます。

 

データ+AI人材の育成

果たして、データの民主化とAIの民主化のみでデータフォワード企業になれるのか。データ+AIを理解している先端型人材の育成なくして、データフォワード企業にはなりえません。

これまでの従来型のIT人材と比較し、先端型のIT人材は求められている役割は異なります。例えば、従来型のIT人材は、ビジネス企画/事業担当、事業部内データ分析担当、IT部システム管理のような役職であったのが、先端型IT人材と呼ばれるのは、トランスレーター、データアナリスト/サイエンティスト、データエンジニア / MLエンジニア、クラウドアーキテクトです。

一朝一夕に先端技術を扱えるIT人材を育成することはできません。経営層から現場まで、ゴールが一本化されていることが非常に重要です。また、ゴールに向けて、組織横断の連携体制、どのようなIT人材を求めているかのラーニングパスの確立など、組織の文化として根付かせ、サイクルとして回せるようになるのが理想です。

 

この記事を書いた人

森 信之介
テクニカルマーケターとして、ブログ執筆、セミナー講師を行っております!