ITパスポート 令和5年度 問6:business_strategyに関する問題
A社では,顧客の行動や天候,販売店のロケーションなどの多くの項目から成るデータを取得している。これらのデータを分析することによって販売数量の変化を説明することを考える。その際,説明に使用するパラメータをできるだけ少数に絞りたい。このときに用いる分析法として,最も適切なものはどれか。
- aABC分析
- bクラスター分析
- c主成分分析正答
- d相関分析
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは c「主成分分析」 です。
たくさんの項目(天気・場所・お客さんの動き…)があると、ごちゃごちゃで説明しづらいですよね。主成分分析は、似たような項目をうまくまとめて、少ない数の“代表の物差し”に縮めるやり方です。たくさんの食材を「甘い・しょっぱい」の2軸で整理するイメージ。
👉 覚え方:主成分分析=たくさんの項目を“少数にギュッと”まとめる。
ほかの選択肢:a ABC分析=売れ筋を上位から順に重点管理/b クラスター分析=似たもの同士をグループ分け/d 相関分析=2つの数の“関係の強さ”を調べる。
なぜこれが正解か
正解は c 主成分分析。多数の項目(変数)から成るデータを、情報の損失を抑えつつ少数の合成変数(主成分)に集約する手法。問題文の「説明に使うパラメータをできるだけ少数に絞りたい」=次元削減のニーズにそのまま合致する。
各選択肢の解説
- a ABC分析:在庫や売上を重要度順にA・B・Cにランク分けして重点管理する手法(パレートの法則)。次元削減ではない。
- b クラスター分析:データを似た特徴ごとにグループ(クラスター)へ分類する手法。対象の分類が目的。
- c 主成分分析:多変数を少数の主成分へ要約。次元削減の代表手法で正解。
- d 相関分析:2変数間の関係の強さ(相関係数)を調べる手法。変数を減らすものではない。
覚え方・ひっかけ注意
キーワード「項目(変数)を少数に絞る=次元削減=主成分分析」。クラスター分析(b)は“データを分類する”、主成分分析は“変数をまとめる”——何を減らすか(行=対象 か 列=変数 か)で区別する。相関分析は2変数の関係を見るだけで集約はしない点に注意。
理論的背景
主成分分析(PCA:Principal Component Analysis)は、1901年にカール・ピアソン(Karl Pearson)が考案した多変量解析の中核技法の一つだ。相関のある多数の変数(本問では「顧客の行動・天候・販売店ロケーション等」)を、互いに無相関な少数の合成変数(主成分)に線形変換することで、情報の損失を最小化しつつ次元を削減する。数学的には分散共分散行列(または標準化された相関行列)の固有値分解として定式化される。データの分散が最大になる方向(データのばらつきを最もよく説明する軸)を第1主成分として抽出し、それと直交しつつ分散が次に大きい方向を第2主成分…と順に取る。累積寄与率(第k主成分までで説明できる分散の割合)を基準に採用する主成分数を決め、一般的に80%を目安として設定する。
実務での使われ方
機械学習の前処理としてのPCAは特に重要で、「次元の呪い」(特徴量が増えると必要サンプル数が指数的に増加し、モデルが過学習しやすくなる問題)への対処として使われる。本問のような「多数のパラメータで販売数量を説明する回帰分析」では、説明変数間の多重共線性(互いに相関する変数が回帰係数の推定を不安定にする問題)を解消するために、主成分得点を回帰変数として使う「主成分回帰」が有効だ。マーケティング分析では「顧客を特徴づける20の変数を3〜4の主成分に要約し、顧客セグメントを可視化する」用途、品質管理では「30の測定項目を5の主成分にまとめて工程の変動要因を特定する」用途が代表的だ。
試験での位置づけ
ITパスポートのストラテジ系(データ分析・AI活用)で、各種分析手法の役割識別は近年出題が増えている重要テーマだ。「パラメータを少数に絞りたい」=次元削減=主成分分析という対応を確実に覚え、類似問題に備えて他手法との区別を整理しておく必要がある。基本情報技術者・応用情報技術者ではAI・機械学習の文脈でPCAが教師なし学習の前処理技術として出題されることがある。統計分析の各手法を「何の数を減らすか」「教師あり/なし」「目的」で整理する習慣が得点安定につながる。
選択肢の発展補足
選択肢a(ABC分析):在庫管理・売上分析等でパレートの法則(80:20の法則)を適用し、対象をA(重要上位20%・売上の80%)・B(中位)・C(下位)に分類して重点管理する手法。変数(列)を減らすのではなく、対象(行)を重要度で分類する用途だ。本問とは目的が全く異なる。選択肢b(クラスター分析):データをその類似度・距離に基づいて複数のグループ(クラスター)に分類する教師なし学習の手法。対象(行:観測値)のグループ分けが目的で、変数の次元削減が目的の主成分分析とは「何を集約するか」が異なる。k-means法・階層的クラスタリングが代表的なアルゴリズムで、顧客セグメンテーション・文書分類・生物の系統分類に使われる。選択肢d(相関分析):2つの変数の間の関係の強さと方向を相関係数(−1〜+1)で数量化する手法。変数の数を減らすのではなく、変数間の関係を把握することが目的だ。相関係数が高い変数ペアを見つけることで「冗長な変数」の候補を特定する前段階としては使えるが、実際に次元を削減するのは主成分分析や因子分析の役割だ。
出典:IPA(情報処理推進機構)公式 ITパスポート試験 令和5年度 問6/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。