基本情報 平成29年度 秋期 問29:テクノロジ系に関する問題
ビッグデータの活用例として, 大量のデータから統計学的手法ながどを用いて新た な知識 (傾向やパターン) を見つけ出すプロセスはどれか。
- aデータウェアハウス
- bデータディクショナリ
- cデータマイニング正答
- dメタデータ
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは c「データマイニング」 です。
ビッグデータから「こんな傾向があるよ!」を統計や機械学習で掘り出す作業がデータマイニング。
例:「おむつとビールがよく一緒に買われる」「雨の日は午後3時にカフェの来店が増える」みたいなパターン発見です。
👉 覚え方:マイニング=採掘。データの山から宝(パターン)を掘り出す!
ほかの選択肢:a データウェアハウス=大量データを保管する倉庫/b データディクショナリ=データの説明書/d メタデータ=データのデータ(属性情報)。
なぜこれが正解か
正解は c。データマイニング(data mining)は大量データから統計学・機械学習等の手法を用いて、従来知られていなかった有用な傾向・パターン・規則性を発見するプロセス。代表的タスクに分類、回帰、クラスタリング、アソシエーション分析(バスケット解析)、異常検知がある。
各選択肢の解説
- a データウェアハウス(DWH):意思決定支援のために複数システムから統合・蓄積したデータベース。マイニングの入力データ源だが、それ自体は知識発見プロセスではない。
- b データディクショナリ:データベース内のテーブル・列・型などのメタ情報を体系化した辞書。
- c データマイニング:パターン発見プロセス → 正解。
- d メタデータ:「データに関するデータ」。属性、形式、由来、品質などを記述。
覚え方・ひっかけ注意
DWH=蓄える、マイニング=掘り出すの役割対比。ETL(Extract-Transform-Load)→ DWH → OLAP / マイニング → BI という分析パイプライン全体像で位置づけて覚える。マイニング技法には決定木、k-means、Apriori、ニューラルネット等。
理論的背景
データマイニングはKDD(Knowledge Discovery in Databases)プロセスの中核段階。CRISP-DMフレームワークでは (1)Business Understanding (2)Data Understanding (3)Data Preparation (4)Modeling (5)Evaluation (6)Deployment の6段階を反復。
主要技法
- 教師あり学習:分類(決定木、ロジスティック回帰、SVM、ランダムフォレスト、XGBoost、ニューラルネット)、回帰。
- 教師なし学習:クラスタリング(k-means、DBSCAN、階層クラスタ)、次元削減(PCA、t-SNE、UMAP)。
- アソシエーション分析:Apriori、FP-Growth。支持度(support)、確信度(confidence)、リフト値(lift)で評価。「おむつとビール」が古典例。
- 異常検知:Isolation Forest、One-class SVM、AutoEncoder。
- 時系列分析:ARIMA、Prophet、LSTM。
実務での適用
- 小売:バスケット分析、レコメンデーション、需要予測。
- 金融:信用スコアリング、不正検知、ポートフォリオ最適化。
- 医療:診断支援、創薬、患者リスク層別化。
- 製造:予知保全、品質管理、歩留まり改善。
- マーケティング:顧客セグメンテーション、チャーン予測、LTV予測。
ビッグデータ基盤との関係
大量データ処理基盤として Hadoop(HDFS+MapReduce)、Spark、データレイク(S3+Athena/Glue, Snowflake, Databricks) が普及。Lambda/Kappaアーキテクチャでバッチ+ストリーム処理を統合。MLOps(Kubeflow, MLflow, SageMaker)で運用化。
試験での位置づけ
FE「ストラテジ/データ活用」分野で頻出。3V(Volume, Velocity, Variety)+ 拡張版 5V(+Veracity, Value)、機械学習の3類型、CRISP-DM、典型用語(DWH/データレイク/マート、ETL/ELT、BI)はセットで習得。応用情報・データサイエンティスト試験では具体的アルゴリズムまで踏み込む。
選択肢の発展補足
メタデータ(d)はマイニング時に重要:データ系統(lineage)追跡、データガバナンス、GDPR対応で必須。Apache Atlas、Collibra等のデータカタログ製品が企業で導入される。データレイクハウス(DWH+データレイク融合、Delta Lake等)は近年のトレンドで、マイニング基盤としての主流アーキテクチャ。
出典:IPA(情報処理推進機構)公式 基本情報技術者試験 平成29年度 秋期 問29/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。