ITパスポート 令和8年度 問16:system_strategyに関する問題
教師あり学習において、正解となる情報を付与する作業を表す用語として、最も適切なものはどれか。
- aアノテーション正答
- bエンコード
- cデータクレンジング
- dフィルタリング
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは a「アノテーション」 です。
AIに「これは猫」「これは犬」と覚えさせるには、まず人間が大量の写真に「これは猫だよ」と正解の付せんを貼る作業が必要です。教科書の答え合わせのために、データ一つひとつに正解ラベルを付けてあげる——この作業がアノテーション(注釈つけ)です。AIはこの“正解付き教材”を見て学びます。
👉 覚え方:アノテーション=データに「これが正解だよ」のラベル貼り。
ほかの選択肢:b エンコード=データを別の形式に変換すること/c データクレンジング=データの間違いや重複をきれいに掃除すること/d フィルタリング=条件に合うものだけをふるい分けること。
なぜこれが正解か
正解は a。アノテーションとは、機械学習の教師あり学習で使う訓練データに対し、正解となる情報(ラベル・タグ)を付与する作業。たとえば画像に「猫」「犬」のラベルを付けたり、文章に意味の分類を付けたりする。AIはこの正解付きデータから規則性を学習する。
各選択肢の解説
- b エンコード:データを一定の規則で別の形式(符号)に変換すること。文字コード変換や暗号化などが例。
- c データクレンジング:データの誤り・重複・表記ゆれを修正し、品質を整える前処理。
- d フィルタリング:条件に合致するデータだけを抽出・選別すること。
覚え方・ひっかけ注意
教師あり学習の「正解を教える=正解ラベルを付ける=アノテーション」と直結。データクレンジングも“データの前処理”で紛らわしいが、こちらは“正解付け”ではなく“掃除(品質向上)”。正解を付けるのか、汚れを落とすのかで区別する。
理論的背景
アノテーション(Annotation)は機械学習・深層学習における教師あり学習の根幹工程であり、「生データに対して正解ラベル(タグ・境界ボックス・セグメンテーションマスク等)を付与する作業」を指す。アノテーションの品質はモデルの予測精度に直結するため、AIシステムの品質はある意味でアノテーション品質に依存している。データのタイプによってアノテーション手法は大きく異なる:画像(物体検出→バウンディングボックス・画像分類→クラスラベル・セマンティックセグメンテーション→ピクセル単位ラベリング)、テキスト(固有表現認識→NERタグ・感情分析→ポジティブ/ネガティブラベル・機械翻訳評価→翻訳品質スコア)、音声(音声認識→書き起こしテキスト)など。大規模AIモデルの学習には数百万〜数十億件のアノテーション済みデータが必要とされる。
実務での使われ方
アノテーション市場は急速に拡大しており、Scale AI(企業価値140億ドル超・Metaの主要サプライヤー)・Appen・Labelboxなどの専業企業が世界各地のアノテーターを活用している。日本ではランサーズ・クラウドワークスがアノテーション案件をクラウドソーシングで提供し、地方・在宅ワーカーの新しい雇用形態となっている。ChatGPTの安全性向上に使われたRLHF(Reinforcement Learning from Human Feedback)もアノテーションの一形態で、人間が「好ましい回答」と「好ましくない回答」にラベルを付けることでAIが人間の価値観に沿った出力を学習する。アノテーション品質管理として「アノテーター間一致率(Inter-Annotator Agreement:Cohen's κ等)」の測定・ゴールデンデータセット(専門家が正解付けしたベンチマーク)との比較が標準的手法となっている。
試験での位置づけ
アノテーションはITパスポートのAI・機械学習分野でシラバス改訂(2022年版以降)で明示的に追加されたキーワード。教師あり学習のパイプラインを理解する上で不可欠な概念であり、「データ収集→アノテーション→学習→評価→デプロイ」というMLライフサイクルの中での位置づけを理解することが重要。本問の誤答パターンはエンコード(b)との混同で、どちらも「データを変換する」というニュアンスがあるが、エンコードは「データの表現形式を変換する技術的操作(文字コード変換・動画圧縮等)」でラベル付与とは全く異なる。近年はGPT等の大規模言語モデル(LLM)のFine-tuning・RLHFにアノテーションが必須であることから、生成AI開発の文脈での出題が増加している。
選択肢の発展補足
選択肢bのエンコード(Encode)はデータを特定の規則・形式に変換する操作全般を指す。文字コードのエンコード(ASCII→UTF-8)・動画エンコード(H.264・H.265)・機械学習でのOne-hotエンコード(カテゴリ変数を数値ベクトルに変換)など用途は広い。アノテーションとエンコードの本質的な違いは「人間がラベルの意味・正解を定義するか否か」である。選択肢cのデータクレンジング(Data Cleansing)は「欠損値・重複値・異常値の検出・修正・除去」を行うデータ品質改善作業で、アノテーションの前処理として実施されることが多い。選択肢dのフィルタリングはデータ収集段階での不要データの除外処理(重複排除・品質基準未満データの除去)。データパイプラインの文脈では「データ収集→フィルタリング→クレンジング→アノテーション→学習」という順序で理解すると各工程の役割が明確になる。
出典:IPA(情報処理推進機構)公式 ITパスポート試験 令和8年度 問16/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。