平成29年度秋期問29テクノロジ系

基本情報平成29年度秋期問29：テクノロジ系に関する問題

ビッグデータの活用例として, 大量のデータから統計学的手法ながどを用いて新たな知識 (傾向やパターン) を見つけ出すプロセスはどれか。

aデータウェアハウス
bデータディクショナリ
cデータマイニング正答
dメタデータ

正答：Cデータマイニング

AI解説（初心者・標準・上級）

理解度に合わせて3レベルの解説を無料で読めます。

初心者向けまずはここから。やさしく要点を解説

答えは c「データマイニング」 です。

ビッグデータから「こんな傾向があるよ！」を統計や機械学習で掘り出す作業がデータマイニング。

例：「おむつとビールがよく一緒に買われる」「雨の日は午後3時にカフェの来店が増える」みたいなパターン発見です。

👉 覚え方：マイニング＝採掘。データの山から宝（パターン）を掘り出す！

ほかの選択肢：a データウェアハウス＝大量データを保管する倉庫／b データディクショナリ＝データの説明書／d メタデータ＝データのデータ（属性情報）。

標準試験対策の基準レベル

なぜこれが正解か

正解は c。データマイニング（data mining）は大量データから統計学・機械学習等の手法を用いて、従来知られていなかった有用な傾向・パターン・規則性を発見するプロセス。代表的タスクに分類、回帰、クラスタリング、アソシエーション分析（バスケット解析）、異常検知がある。

各選択肢の解説

a データウェアハウス（DWH）：意思決定支援のために複数システムから統合・蓄積したデータベース。マイニングの入力データ源だが、それ自体は知識発見プロセスではない。
b データディクショナリ：データベース内のテーブル・列・型などのメタ情報を体系化した辞書。
c データマイニング：パターン発見プロセス → 正解。
d メタデータ：「データに関するデータ」。属性、形式、由来、品質などを記述。

覚え方・ひっかけ注意

DWH＝蓄える、マイニング＝掘り出すの役割対比。ETL（Extract-Transform-Load）→ DWH → OLAP / マイニング → BI という分析パイプライン全体像で位置づけて覚える。マイニング技法には決定木、k-means、Apriori、ニューラルネット等。

上級誤答論破・背景理論まで深掘り

理論的背景

データマイニングはKDD（Knowledge Discovery in Databases）プロセスの中核段階。CRISP-DMフレームワークでは (1)Business Understanding (2)Data Understanding (3)Data Preparation (4)Modeling (5)Evaluation (6)Deployment の6段階を反復。

主要技法

教師あり学習：分類（決定木、ロジスティック回帰、SVM、ランダムフォレスト、XGBoost、ニューラルネット）、回帰。
教師なし学習：クラスタリング（k-means、DBSCAN、階層クラスタ）、次元削減（PCA、t-SNE、UMAP）。
アソシエーション分析：Apriori、FP-Growth。支持度（support）、確信度（confidence）、リフト値（lift）で評価。「おむつとビール」が古典例。
異常検知：Isolation Forest、One-class SVM、AutoEncoder。
時系列分析：ARIMA、Prophet、LSTM。

実務での適用

小売：バスケット分析、レコメンデーション、需要予測。
金融：信用スコアリング、不正検知、ポートフォリオ最適化。
医療：診断支援、創薬、患者リスク層別化。
製造：予知保全、品質管理、歩留まり改善。
マーケティング：顧客セグメンテーション、チャーン予測、LTV予測。

ビッグデータ基盤との関係

大量データ処理基盤として Hadoop（HDFS+MapReduce）、Spark、データレイク（S3+Athena/Glue, Snowflake, Databricks） が普及。Lambda/Kappaアーキテクチャでバッチ+ストリーム処理を統合。MLOps（Kubeflow, MLflow, SageMaker）で運用化。

試験での位置づけ

FE「ストラテジ／データ活用」分野で頻出。3V（Volume, Velocity, Variety）+ 拡張版 5V（+Veracity, Value）、機械学習の3類型、CRISP-DM、典型用語（DWH/データレイク/マート、ETL/ELT、BI）はセットで習得。応用情報・データサイエンティスト試験では具体的アルゴリズムまで踏み込む。

選択肢の発展補足

メタデータ（d）はマイニング時に重要：データ系統（lineage）追跡、データガバナンス、GDPR対応で必須。Apache Atlas、Collibra等のデータカタログ製品が企業で導入される。データレイクハウス（DWH＋データレイク融合、Delta Lake等）は近年のトレンドで、マイニング基盤としての主流アーキテクチャ。

出典・引用について

出典：IPA（情報処理推進機構）公式基本情報技術者試験平成29年度秋期問29／公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。