Deutsche Bank による Google Cloud を活用した新しいリテールデータ プラットフォームの構築事例
Vladimir Elvov
Lead Customer Engineer, Data & Analytics
Lars Fockele
Lead Data Engineer, Deutsche Bank AG
※この投稿は米国時間 2024 年 11 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。
顧客の嗜好やニーズを把握することは、現代のあらゆるビジネスにとって極めて重要です。とりわけリテールバンクにおいては、その重要性が一層際立っています。顧客データの分析により得られる知見を活用することで、プロダクトのパーソナライズ化、サービスの質的向上、高度な自動化が可能となり、結果として顧客体験を大きく改善できます。しかし、このような顧客に関する有益な知見を得るためには、すべての入力データを一元的なデータ プラットフォームに集約する必要があります。同時に、データ量は増加し続けており、新たなリアルタイムの入力ソースが次々と出現しています。これらのニーズに対応するためには、どのようなソリューションを選択する場合でも、優れたスケーラビリティを備えていなければなりません。
2,000 万を超える個人、法人、企業のパートナーや顧客のデータを扱う Deutsche Bank は、Google Cloud 上にプライベート バンク データ プラットフォーム(PBDP)と呼ばれるデータ プラットフォームを構築することを決定しました。これは Deutsche Bank の IT 能力を変革する画期的な取り組みとなります。
「Google との協働により、私たち Deutsche Bank は柔軟なデータ モデリング オプション、データ探索、プロトタイピング、分析を行うためのワークスペース、リアルタイム イベントと日次バッチ処理を活用した Google Cloud への効率的なデータ取り込み機能を備えた中央集約型で包括的なデータ プラットフォームを構築しました。この新しいデータプラットフォームは、最新のクラウドベースの技術スタックを活用してデータを統合するという当行の戦略的アプローチの礎石となっており、銀行内のさまざまなイニシアチブを実現する基盤となっています。データ利用者が必要とするあらゆる関連データを一元的に集約することで、将来的に多様なデータドリブン型の業務運用や分析のユースケースが可能になります。」 - Deutsche Bank、プライベート バンク データ プラットフォーム領域統括ディレクター Jan Struewing 氏
Google Cloud 上でのデータ プラットフォーム構築を目指す組織への指針として、このブログ記事では Deutsche Bank の PBDP について、その要件、アーキテクチャ、提供サービス、そして管理および運用に対する Deutsche Bank のアプローチを詳しく見ていきます。
最新のデータ プラットフォームの機能
Deutsche Bank の PBDP の基盤は、適切に管理され、容易に利用できる形でデータを一元的かつ継続的に提供するレイヤです。PBDP のこの部分は、Data Core とも呼ばれています。データはさまざまなシステムから異なる速度で送信されてくるため、PBDP はデータ生成元からファイルとイベントの両方を取り込める必要があります。これを実現するため、バッチ処理とリアルタイム取り込みの仕組みを通じて、最終的にデータを BigQuery に格納します。また、イベントデータの場合は、リアルタイム処理用に Pub/Sub に格納します。データアクセスについては、利用者の権限と許可に基づく管理を行うとともに、CDO レジデンシー / アクセス チームによる審査を通じて、関連規制やポリシーを遵守しています。さらに重要な点として、PBDP は入力データに関するメタデータを提供することで、利用者によるデータの検索とアクセスを容易にしています。
Data Core は、データの一元的かつ容易な取得を実現する基盤として、PBDP の中核を担っています。これは、データ利用者が同じデータを複数の並列パイプラインで重複して取得する必要がなく、中央集約されたデータストアから効率的に取得できることを意味します。これにより、データ品質と信頼性が向上し、データ提供者と利用者間の個別接続(ポイントツーポイント)のソリューションと比べて、データ共有がより費用対効果の高いものとなります。さらに、データ利用者のオンボーディング プロセスが個別対応や個別統合ではなく、一元化および標準化されているため、組織的な観点からもデータアクセス権限の付与がより迅速に行えるようになります。
PBDP のデータは、BigQuery から 2 つの方法で利用できます。ソースシステムから直接取得した「元」データの形式か、あるいはデータモデルを通じた形式です。このデータモデルは、Data Vault 2.0 のパラダイムを採用しており、Business Vault 層では元のソースシステムのデータモデルに依存せず、統一されたデータモデルが使用されています。
PBDP には 2 種類の利用形態があります。データドリブン型のプロダクトやサービスでの利用と分析環境としての利用です。
-
データドリブン型プロダクトとは、基本的に、処理対象のデータから特定のインサイトを導き出し、ユーザーに提供するためのビジネス ロジックを備えたアプリケーションです。銀行内の特定チームが所有し、PBDP の Data Core から入力データを取得しながら、必要なデータ変換は独自に行います。入力データは、BigQuery から取得するか、あるいはリアルタイム データ処理の場合は Pub/Sub から直接取得できます。データドリブン型のプロダクトでは、これらのデータ変換処理の実装に、PBDP が提供する既製のツールやテンプレートをそのまま活用できます。
-
分析環境では、PBDP Data Core のデータをインタラクティブに探索、分析することができ、それにより新たなインサイトの発見や新しいアルゴリズムの開発が可能になります。この分析環境は、主にデータ サイエンティストやアナリストが利用し、Vertex AI ノートブックなどの PBDP が提供する標準化されたソリューションを活用できます。分析環境での作業から生まれたアーティファクトは、最終的に新たなデータドリブン型プロダクトとして実運用化することが可能です。
PBDP のアーキテクチャ概要
以下の図は、Deutsche Bank の PBDP のアーキテクチャを概略的に示したものです。この図は、Deutsche Bank のネットワーク内部に設置されたオンプレミス環境と、Google Cloud 上で運用されている PBDP との接続インターフェースを中心に示しています。このアーキテクチャにより、Deutsche Bank は Postbank と Deutsche Bank の統合時に��十億件のレコードを初期ロードし、また利用者向けに日々数百万件のレコードを処理することが可能となりました。
プライベート バンク部門における中央データハブ
PBDP の入力データソースは非常に広範で、Google Cloud 上のクラウドネイティブ サービスを使用して構築された新しいオンライン バンキング プラットフォームのようなデータドリブン型プロダクトに必要な主要情報が含まれています。オンライン バンキング プラットフォームが扱うデータには、基本的な顧客情報、当座預金口座のデータ、クレジット カード データ、普通預金口座データ、パートナー データ、ローン関連データ、証券取引口座データが含まれます。これらのデータは、SAP、メインフレーム、リレーショナル データベース、およびその他の基幹システムから取得されています。
プライベート バンク部門の中央データ プラットフォームとしての役割に加えて、PBDP は銀行の基幹業務を担うオンプレミス システムと新しいオンライン バンキング プラットフォームを接続する重要な統合レイヤとしても機能しています。オンプレミス環境からクラウドへの移行では、すべてのアプリケーションを一度に移行することはできないため、これは重要なポイントとなります。オンプレミス システムとクラウドベース システムを連携させる統合レイヤやミドルウェア機能は、極めて重要な役割を果たします。段階的な移行を可能にし、オンプレミス システムとクラウドベース システムをスケーラブルな形で統合することで、移行に伴うリスクを低減します。
オンライン バンキング プラットフォームに加えて、PBDP の利用用途には、口座レポーティング、顧客営業情報のデータ ウェアハウス、財務報告、ドイツの法人顧客向け分析ツールなどがあり、新たな利用用途も続々と追加されています。
主要な展開計画
プライベート バンク データ プラットフォームには、ステージング領域 / レベルの導入など、いくつかの改善余地があります。これにより、追加的なデータ整備や管理作業が実施可能になります。別の改善例としては、データを最終テーブルに格納し利用者に提供する前の段階で、データの各行に行レベルのセキュリティ用タグを付与することが挙げられます。さらに、チームはエンタープライズ アーキテクチャのデータ原則とデータ標準に関連した詳細な実装パターンの策定に取り組んでおり、さらにエンタープライズ データ機能の利用拡大と Deutsche Bank グループ全体のデータ戦略との整合性確保も進めています。これには、以下のような作業パッケージに関するさらなる整合化が含まれます。
-
グループ全体で単一のデータ レジストリの使用
-
データ インターフェース(連携経路)に関する統一されたデータ標準、共通のデータ モデリング手法、およびデータの整合化
-
データ プロダクトとデータメッシュの考え方に基づいた整合性を高め、データ利用をさらに効率化
DevOps による開発および運用スタイルの採用
最新のデータ プラットフォームを構築するには、開発および運用面でも現代的な手法を取り入れる必要があります。データ プラットフォームに DevOps の原則を取り入れるとともに、開発チームはインフラストラクチャのプロビジョニングと CI / CD プロセスの効率化に向けた自動化も積極的に進めています。
チームは、開発からテスト、本番環境に至るまでの全環境において、Google Cloud インフラストラクチャを Terraform で管理しています。これによりインフラストラクチャをコードとして定義でき、一貫性の確保と手作業によるエラーのリスク軽減を実現しています。一方、開発者は、仮想マシン、ネットワーク構成、ストレージ リソース、セキュリティ構成など、データ プラットフォーム インフラストラクチャのプロビジョニングと管理を自動化しています。
チームは Terraform スクリプトを GitHub に保存しており、これによりインフラストラクチャのバージョン管理と変更履歴の追跡を容易に行えます。これにより、必要に応じて変更を元に戻すことができ、異なる環境間での整合性も確保できます。同時に、一連の GitHub Actions のワークフローによって標準的な CI / CD プロセスが実行されます。インフラストラクチャのプロビジョニングと CI / CD プロセスの自動化により、手作業の削減、一貫性の向上、提供までの時間短縮、信頼性の強化など、チームに多くの利点がもたらされています。
最後に、Deutsche Bank はデータ プラットフォーム上のすべての重要なオペレーションについて、Google Cloud Monitoring サービスを用いてモニタリングを行っています。システムの不具合が発生すると、サポート メールボックスと専用のチームチャットに自動的にアラートが送信されます。これらの仕組みを活用することで、開発者は単一の DevOps チームとして PBDP の構築からデプロイ、運用まですべてを一貫して担当できます。
これらの機能とアーキテクチャ パターン��より、Deutsche Bank の PBDP はさらなるスケーリングと新たな分析ユースケースのシームレスな導入が可能となっています。これは、他の多くの組織でも活用できる可能性があります。より詳しい情報や導入方法については、Google Cloud チームにお問い合わせください。
ー データ分析担当リード カスタマー エンジニア Vladimir Elvov
ー Deutsche Bank AG、リード データ エンジニア Lars Fockele 氏