2024年版 最新のデータ活用基盤とは?グローバル企業の事例も紹介!
自社の競争力を高めるためにデータやAIをビジネスに活かしていきたいと考えている企業は多いですが、実際にAIの活用まで至っている企業はまだまだ少ないのが実情のようです。
本ブログを読んでいただいている方の中にも、どのようにデータ活用基盤を検討していけば良いのか分からず困っている方がいらっしゃるかもしれません。
そこで今回は、データ活用基盤を導入する際の障壁を乗り越えるためのヒントとなる2024年のデータ活用基盤トレンドや、実際にデータ活用基盤を構築して成功した企業の事例をご紹介します!
目次
1.データ活用基盤とは?
データ活用基盤(データプラットフォーム)とは、データを収集→統合/管理→加工→可視化→分析→活用するための統合されたシステムや技術のセットを指します。この基盤は、企業や組織がデータを効率的に利用し、意思決定をサポートするために不可欠なものです。
しかし昨今では、ニュースでもよく取り上げられていますが、個人情報や機密情報が意図せず漏えいし、不正利用されるリスクも増えています。企業にて正しくデータを活用するためには必ず、適切なガバナンスとセキュリティもセットで考えましょう。
では、データ活用基盤を自社に取り入れたい場合、どのような構成が必要なのでしょうか?
データ活用基盤の構成要素
データレイク(様々なデータを一元的に保存できる格納庫)を中心に必要となる機能別のアプリをAPIなどで連携し、包括的なデータ活用基盤を作っていく方法を「モダンスタック」と言います。(データ活用関連のエコシステムのことです。)
「モダンスタック」以外にも、「ワンプラットフォーム」でデータ活用基盤を作れる方法がありますが、こちらはモダンスタックの弱点をカバーすることができます。これは後ほど解説しますね!
ここではまず、モダンスタックを例にデータ活用基盤を構築する際に必要となってくる構成要素について解説します。
ELT/ETL
データを取り込むときのExtract(抽出)、Transform(変換)、Load(読み込み)のプロセスを指します。変換とは不要な情報を削除、欠損値を補完する作業のことです。ELTはその順序が変わったものです。ストレージ費用が安価になってきていることから一度ストレージにLoad(読み込み)をしてから、Transform(変換)を行う企業もいます。POSやCRMなどさまざまなシステムから効率的にデータを取り出すアプリ間のコネクタのようなイメージです。
イベント収集
例えば、自社のEコマースサイトにプログラムを埋め込んで、訪問者の行動データなどを集めて分析するようなツールのことを指します。
データプロセッシング
ETLツールでストレージに格納されたデータを簡単に変換するためのツールです。
リバースETL
先ほどのETLと逆の動きをします。データレイクからデータを抽出し、適切な情報をアプリに配信します。例えば、営業担当者が訪問先の情報をSlackなどで訪問前に通知を受けるようなことを行う場合、こうしたツールを利用します。
オーケストレーション
これまで出てきたELT/ETLツールやリバースETLなどの複数の製品を組み合わせる場合、ジョブの順序の制御やスケジュール設定を一元的に行えるツールです。
ダッシュボード
BIツールで分析がしやすいようなグラフ化を行います。最近ではAIを用いたものが主流で自然言語を用いてチャートを作成、管理する機能も実装されてきています。TabrauやThoutspotが有名です。
機械学習
格納されたデータから自動的に学習させることで、データの背景にあるルールやパターンを発見できます。明示的な指示を与えなくても、データにアクセスするほど精度が高まり、業務の生産性も向上できます。
メタデータ管理・データカタログ
データがどこにあるのかを整理し簡単にデータにたどり着けるようにデータをカタログ化して検索性を向上させます。
マスターデータ管理
複数のシステムに保管されたデータを統合し、神様データを作成します。
データ品質の監視
データの流れを監視し、異常があった場合に素早くその原因を調査することができます。
セキュリティガバナンス
ビジネス上の機密情報や、顧客の個人情報の取り扱いについて最新の法規制に対応しているかチェックできるようにします。
データ活用基盤の2024年トレンドはAI
データを使ってAIの民主化(技術的な知識がなくてもAI技術を簡単に作成・利用できるようにすること)を実現する潮流は2023年から出てきており、データ活用基盤においてAI(人工知能)と機械学習の統合が進んでいます。そのことを反映してAI開発プラットフォームへの投資が徐々に増えてきている状況です。
2024年のデータ+AIトレンドとして以下が挙げられます:
データモデルの作成が自動化
かつて職人技だったデータモデルの作成はツールが大部分を代替できるようになっており、AIがデータの分析を自動化、パターンの発見や予測をリアルタイムで行います。既存のデータやモデル全体の再利用が従来よりも簡単になり、企業は迅速かつ深い洞察を得ることができます。
優れたユーザーエクスペリエンス(UX)
生成型AIのUXは優れており、運用データとの統合を実装することで、リアルタイムかつ高度にパーソナライズされた顧客体験を提供できるようになりました。
オープンソースの利用
ライセンス契約の制限は時代遅れだとし、オープンソースを利用する方向にシフトしつつあります。
データ+AIの導入が進まない3つの要因
しかしどうでしょう。
AIの技術的な期待は高いのはものの、実際の価値提供はまだほとんどされていないのが実情です。生成型AIに関しては、本番環境に導入している企業はわずか5~6%にとどまっています。
データ+AIの導入が進まない要因として、以下が挙げられます。
複雑化するデータ活用基盤
データとAIを活用するためのプラットフォームがどんどん複雑化しています。「モダンデータスタック」では、適材適所で必要なソリューションを選定し、組み合わせていくのが非常に大変です。また、これに伴いコストも増大してしまいます。
セキュリティとガバナンスのプレッシャーが大きい
成果の出せるAIの実装にはセキュリティとデータガバナンスが特に重要とされています。
適切なガバナンスがないと、異なる結果や誤った結論が導き出され、重複データや冗長データの保管コスト、データを探し出すコストがかかります。また、個人情報や機密情報が漏えいし不正利用されるリスクや、著作権などコンプライアンス違反を犯すリスクもあります。
自社データをビジネスで使えていない
Chat-GPTのようなAIは、既存の大量のデータをもとに学習し、常識を返す「General Intelligence」です。しかしAIで未来予測、BIで過去データを分析しビジネスの競争力を高めるには、自社データをビジネスで活用できる「Data Intelligence」が必要です。
自社データは、ChatGPTのような一般的なAIと比べて、学習データ量が少なく、自社独自の定義や意味を理解する必要があります。さらに、データの高い精度を維持し続ける必要があり、有害なレスポンスが返らないように制御する必要もあります。
BIの分析においても、誰でも使える状態を提供しつつ、高いパフォーマンスが求められるため、ハードルが高くなってしまっています。
データ活用基盤はワンプラットフォームでの導入が◎
上記の要因を解決しながら、「モダンスタック」でデータ活用基盤を導入しようとすると適材適所で必要なソリューションを選定、組み合わせる必要があり構築も運用も複雑さが増していきます。しかし、「ワンプラットフォーム」ならばデータ活用に必要な要素を1つのプラットフォームでまとめて利用することが可能です。
そこで、ワンプラットフォームで導入できる製品の1つが、Databricksです。
Databricks、Microsoft Azure、AWS、Google Cloud上のデータを複製や二重保管することなく、唯一のソースとして利用できます。対応するフォーマットは、データベースなどの構造データはもちろん、ログ、テキスト、音声、動画、画像などの非構造データも含め、
あらゆる形式をカバーし、すべてを統合して利用することができるのです。
2.最新のデータ活用基盤で成功したグローバル企業の事例
以下では、実際にDatabricksを利用してワンプラットフォームにてデータ活用基盤を導入、データ活用に成功しているグローバル企業の事例をご紹介します。
テキサスレンジャーズ データ活用でチャンピオンに
MLBのテキサスレンジャーズは昨シーズン63年の歴史の中で初めてワールドシリーズを制覇しチャンピオンになりましたが、データ活用の勝利でもあったとも言われています。
以前からも同球団はデータ活用をしていましたが、主に過去のパフォーマンス評価を記述するための用途でした。今では、将来の選手のパフォーマンスを理解するための予測的なものに変わってきています。
・選手の練習改善
選手がバットを振るときの動きをより深く理解しレコメンデーションを提供、選手の動作をトラッキング、怪我やトレーニングワークロードの管理についてインサイトを提供します。また、選手が守備時に捕球しようとするときの動きを理解して、守備能力を測定します。
・スカウティング戦略
例えば、ジャイアンツの選手一覧(MLBの公開データを使用)から条件をChat-GPTライクなUIから入力しトレード候補を探しだします。
・試合データをリアル解析
打者が打ったボールの打ち出し角度や速度、ボールの回転数など、選手の動きや会場の風の強さなどのデータなどを収集・解析して試合の戦略に活かしています。
これらはDatabricksでワンプラットフォームのデータ活用基盤で実現しています。従来と比較し、データ量が4倍になりましたが、データのサイロ化が解消され、試合後の選手へのインサイト提供が10倍速くなりました。
テキサスレンジャーズのデータ活用において困難であったのは、ガバナンスと権限の管理です。各種データには、選手の機密情報(契約情報、医療記録など)がたくさん含まれます。
現在、テキサスレンジャーズは、Databricksの「ユニティカタログ」という機能で、包括的なガバナンスおよびアクセス管理を運用しています。
データはDatabricks内の1か所に集約され、
オープンソースのソフトウェアで構成されたエコシステムで処理されています。
GM 9ヵ月でAIシステムを立ち上げ
GMは自社の調査で毎年200人分の時間をデータ収集と分析に費やしていることが発覚しました。また、以前はオンプレでデータ収集をしていましたが、サイロ化されており、AIや機械学習の活用できていませんでした。
そこで、GMはデータインフラのクラウド化に着手。ほとんど何もないところから、Databricksを利用し、9カ月ほどでAIシステムを完成。それを「Data Insight Factory」と名付けています。
Data Insight Factoryでは、顧客体験を高めるためのデータだけではなく、自動車の予知保全、安全性評価につながるデータが蓄積されています。短期間でAIシステムを構築できた理由は、Databricksのデータアクセスを管理および監査する機能「Unityカタログ」が即時適用できたことが大きいと言及しています。来年には、生成系AIの導入を予定し、将来的には自社の目標である事故ゼロに必要なデータをためていくとのことです。
JPモルガン毎日1,568兆円の取引を支えるデータ活用基盤
JPモルガンは、世界最大の取引量(9.8Tドル(1568兆円))を処理する金融機関です。160か国、120以上の通貨、3ペタバイトのデータ処理を行っています。業界の性質上、そのすべてが正確であることが求められます。
大規模なデータ活用基盤の構築の際、JPモルガンでは、データを用いたサービスの収益化までの時間短縮、閉鎖的であったシステムをデータエンジニアやアナリスト、さらには非技術社員がオープンに利用できることを効果として掲げました。
しかし、オープンな設計は特に頭を悩ませる結果となります。古いシステムの移行や各システムからのデータの取り込ませ方の違いへの対応、利用者のレベルに合わせたフロントエンドの作りこみなど、さまざまな問題があり、ひとつひとつをプロジェクトチームで対話をしながら実装を進めていきました。こうした苦労のかいもあり、環境の移行は完了したのですが、副次的な効果として、プラットフォームを通じたコミュニケーションが活性化されたり、一元的な可視性が高まったりしました。この効果は予想以上に大きく、イノベーションを起こしやすくなったといいます。
3. 世界のデータ活用基盤を支えるDatabricks
上記の事例でご紹介した企業は、いずれもDatabricksでデータ活用基盤を導入しています。
Databricksには、自社データをAIで活用するための便利な機能が揃っているため短期間で導入でき、導入後の運用もモダンスタックと比べてシンプルです。
また、類似製品であるSnowflakeとのパフォーマンス比較検証にて同じデータ、同じ条件、同じクエリを用いても、Databricksの方が優れたパフォーマンスを発揮し、コストも低く抑えられる結果となりました。
つまり最新のデータ活用基盤でビジネスに活かしたい場合、Databricksを選ぶことで費用対効果も高くなるため、プロジェクトを成功しやすくなるとお考えいただけばと思います!
データ+AIの活用に欠かせない存在となってきているDatabricksについて詳細を知りたい方はオンラインミーティングにてご説明することも可能です。
課題などをお聞かせいただければ、データ活用のスペシャリストより最適なご提案もいたします。弊社はクラウドベースをMicrosoft AzureとしたDatabricksの提案を得意としています。ご興味がありましたらぜひ、下記よりお気軽にお問合せください。
この記事を書いた人
- Azure導入支援デスク 編集部
-
こんにちは!双日テックイノベーション(旧:日商エレクトロニクス)では、Microsoft Azure活用に関する有益な情報を皆様にお届けしていきます。Azure移行、データ活用、セキュリティなどに関するお困りごとや、Microsoft Azureに関する疑問点などお気軽にご相談ください。
ブログにしてほしいネタなどのリクエストもお待ちしております。
この投稿者の最新の記事
- 2024年9月12日ブログ2024年版 最新のデータ活用基盤とは?グローバル企業の事例も紹介!
- 2024年7月16日事例Azureデータ活用基盤導入事例:第一フロンティア生命保険株式会社
- 2024年3月27日ブログデータレイクとは? ~DWHとの違い、メリット、活用例などをわかりやすく解説~
- 2024年3月6日ブログデータカタログとは?~機能、導入のメリット、導入方法まで解説~