テクノロジ系データベース

データレイクとは？

読み方: でーたれいく

1行定義

構造化・非構造化データを問わず、あらゆる生データを変換せずに大量に蓄積するストレージ基盤。後で分析目的に応じて加工・利用する

詳細解説

データレイク（Data Lake）は、構造化データ（RDBMSの表形式）・半構造化データ（JSON・XML・CSV）・非構造化データ（画像・動画・ログファイル・テキスト）など種類を問わず、あらゆる生データをそのままの形（原形）で大量に蓄積するストレージ基盤です。データウェアハウスが事前にデータを整形・統合してから格納するのに対し、データレイクは「まずすべてを溜め込んで後で使う」というアプローチを取ります。データレイクとデータウェアハウスの比較は次の通りです。データウェアハウス（DWH）：スキーマを事前定義（Schema on Write）・整形済みデータ・高速な分析クエリ向け・BIツールと連携・コストが高い。データレイク：スキーマ定義不要（Schema on Read：読み取り時に解釈）・生データ・AI/ML学習・探索的データ分析向け・安価なオブジェクトストレージで大量データ保存可能。データレイクの代表的な実装はAWS S3（Amazon Simple Storage Service）+ AWS Glue（ETL）+ Amazon Athena（クエリ）・Azure Data Lake Storage・Google Cloud Storage + BigQuery・Apache Hadoop/HDFS（オンプレミス）です。データレイクの課題はデータガバナンス（データ品質・メタデータ管理の欠如で使えないデータが蓄積する「データスワンプ（沼）」問題）・セキュリティ（大量データへのアクセス制御）・メタデータカタログ（どんなデータがあるか把握する仕組み）の整備が必要です。Delta Lake・Apache Iceberg・Apache Hudiはデータレイクにトランザクション・スキーマ進化を追加した「Lakehouse」アーキテクチャの基盤です。ITパスポートでは「データレイクの定義」「データウェアハウスとの違い」「Schema on Read」「AIとの関係」が出題されます。

ITパスポートでの出題ポイント

1あらゆる生データを変換せずに大量蓄積するストレージ基盤（Schema on Read）
2データウェアハウス（整形済み・高速クエリ）との違い：生データを後から活用
3AI/ML学習・探索的データ分析・ログ分析の基盤として活用
4データスワンプ（沼）：管理不備で使えないデータが蓄積するリスク

データレイクとは？

詳細解説

ITパスポートでの出題ポイント

関連用語

「データレイク」の過去問を解いて理解を定着