2022 サンプル問題問23テクノロジ系

基本情報 2022 サンプル問題問23：テクノロジ系に関する問題

ビッグデータのデータ貯蔵場所であるデータレイクの特徴として，適切なものはどれか。

aあらゆるデータをそのままの形式や構造で格納しておく。正答
bデータ量を抑えるために，データの記述情報であるメタデータは格納しない。
cデータを格納する前にデータ利用方法を設計し，それに沿ってスキーマをあらかじめ定義しておく。
dテキストファイルやバイナリデータなど，格納するデータの形式に応じてリポジトリを使い分ける。

正答：Aあらゆるデータをそのままの形式や構造で格納しておく。

AI解説（初心者・標準・上級）

理解度に合わせて3レベルの解説を無料で読めます。

初心者向けまずはここから。やさしく要点を解説

答えは a「あらゆるデータをそのままの形式や構造で格納しておく」 です。

データレイクは名前のとおり「データの湖」。川から流れてくる水（=いろんなデータ）を、整理せずにそのままドボンと貯める巨大な池みたいなものです。

写真・動画・テキスト・センサー値…形がバラバラのままOKで、後から「やっぱりこの分析に使おう」と思ったときに取り出して整える、という使い方をします。

似てる言葉に「データウェアハウス」がありますが、こっちはきれいに整理して棚に並べた倉庫。先に形を決めて入れます。

👉 覚え方：レイク＝生のまま貯める湖／ウェアハウス＝整理した倉庫。

ほかの選択肢：b メタデータ（データの説明書）は普通に格納する／c 形を先に決めて入れるのはウェアハウス／d 形ごとに分けるのもデータレイクの特徴ではない。

標準試験対策の基準レベル

なぜこれが正解か

正解は a。データレイク（data lake）は構造化・半構造化・非構造化を問わず、あらゆる形式の生データをそのまま格納できる大規模リポジトリ。スキーマを事前定義せず、利用時に必要な形に整形する「スキーマオンリード」方式が特徴。

各選択肢の解説

b：メタデータ（データの記述情報）はデータレイク運用に不可欠で、通常はカタログ化して格納する。むしろメタデータ管理がないと「データスワンプ（沼）」化する。
c：格納前にスキーマを定義するのはデータウェアハウス（スキーマオンライト）の特徴。
d：データレイクは形式に関わらず一元的に格納するのが特徴。形式別リポジトリ分割は逆。

覚え方・ひっかけ注意

3つを区別：

データレイク：生データを一元集約、スキーマオンリード
データウェアハウス（DWH）：構造化済み、分析最適化、スキーマオンライト
データマート：DWH の部門別サブセット

近年は両者の良いとこ取りの「データレイクハウス」（Databricks 等）も出題に登場し始めている。「データレイク＝生のまま」「DWH＝整形後」と対比で覚える。

上級誤答論破・背景理論まで深掘り

理論的背景

データレイクは James Dixon（Pentaho CTO）が2010年に提唱した概念。背景には、従来のデータウェアハウス（DWH）がETL（Extract-Transform-Load）の事前変換コストとスキーマ固定の柔軟性不足で、急増するビッグデータ（特に非構造化データ）に対応しきれなくなった事情がある。データレイクは ELT（Extract-Load-Transform） モデルで、まず生データを格納し、分析時に変換する。

実務での使われ方

クラウドサービス：AWS S3 + Glue + Athena、Azure Data Lake Storage Gen2、Google Cloud Storage + BigQuery（外部テーブル）が定番構成。
オープンテーブル形式：Apache Iceberg、Delta Lake、Apache Hudi が ACID トランザクション・タイムトラベル・スキーマ進化を実現し、データレイクと DWH の融合（レイクハウス）を推進。
データカタログ：AWS Glue Data Catalog、Apache Atlas、DataHub 等でメタデータ管理。これが無いとデータスワンプ化する。
ガバナンス：個人情報を含む生データを扱うため、アクセス制御（Lake Formation 等）、データ系統（lineage）追跡、GDPR/個人情報保護法対応が論点。

試験での位置づけ

基本情報・応用情報のシステム戦略・データベース・ビッグデータ分野で頻出。OLTP（オンライントランザクション処理）vs OLAP（オンライン分析処理）、ETL vs ELT、Hadoop エコシステム（HDFS・MapReduce・Spark）との関連で出題される。データサイエンティスト・データエンジニア志向の問題が近年増加。