データレイクとは?
構造化・非構造化データを問わず、あらゆる生データを変換せずに大量に蓄積するストレージ基盤。後で分析目的に応じて加工・利用する
詳細解説
データレイク(Data Lake)は、構造化データ(RDBMSの表形式)・半構造化データ(JSON・XML・CSV)・非構造化データ(画像・動画・ログファイル・テキスト)など種類を問わず、あらゆる生データをそのままの形(原形)で大量に蓄積するストレージ基盤です。データウェアハウスが事前にデータを整形・統合してから格納するのに対し、データレイクは「まずすべてを溜め込んで後で使う」というアプローチを取ります。データレイクとデータウェアハウスの比較は次の通りです。データウェアハウス(DWH):スキーマを事前定義(Schema on Write)・整形済みデータ・高速な分析クエリ向け・BIツールと連携・コストが高い。データレイク:スキーマ定義不要(Schema on Read:読み取り時に解釈)・生データ・AI/ML学習・探索的データ分析向け・安価なオブジェクトストレージで大量データ保存可能。データレイクの代表的な実装はAWS S3(Amazon Simple Storage Service)+ AWS Glue(ETL)+ Amazon Athena(クエリ)・Azure Data Lake Storage・Google Cloud Storage + BigQuery・Apache Hadoop/HDFS(オンプレミス)です。データレイクの課題はデータガバナンス(データ品質・メタデータ管理の欠如で使えないデータが蓄積する「データスワンプ(沼)」問題)・セキュリティ(大量データへのアクセス制御)・メタデータカタログ(どんなデータがあるか把握する仕組み)の整備が必要です。Delta Lake・Apache Iceberg・Apache Hudiはデータレイクにトランザクション・スキーマ進化を追加した「Lakehouse」アーキテクチャの基盤です。ITパスポートでは「データレイクの定義」「データウェアハウスとの違い」「Schema on Read」「AIとの関係」が出題されます。
ITパスポートでの出題ポイント
- 1あらゆる生データを変換せずに大量蓄積するストレージ基盤(Schema on Read)
- 2データウェアハウス(整形済み・高速クエリ)との違い:生データを後から活用
- 3AI/ML学習・探索的データ分析・ログ分析の基盤として活用
- 4データスワンプ(沼):管理不備で使えないデータが蓄積するリスク