令和8年度問16ストラテジ系

ITパスポート令和8年度問16：system_strategyに関する問題

教師あり学習において、正解となる情報を付与する作業を表す用語として、最も適切なものはどれか。

aアノテーション正答
bエンコード
cデータクレンジング
dフィルタリング

正答：Aアノテーション

AI解説（初心者・標準・上級）

理解度に合わせて3レベルの解説を無料で読めます。

初心者向けまずはここから。やさしく要点を解説

答えは a「アノテーション」 です。

AIに「これは猫」「これは犬」と覚えさせるには、まず人間が大量の写真に「これは猫だよ」と正解の付せんを貼る作業が必要です。教科書の答え合わせのために、データ一つひとつに正解ラベルを付けてあげる——この作業がアノテーション（注釈つけ）です。AIはこの“正解付き教材”を見て学びます。

👉 覚え方：アノテーション＝データに「これが正解だよ」のラベル貼り。

ほかの選択肢：b エンコード＝データを別の形式に変換すること／c データクレンジング＝データの間違いや重複をきれいに掃除すること／d フィルタリング＝条件に合うものだけをふるい分けること。

標準試験対策の基準レベル

なぜこれが正解か

正解は a。アノテーションとは、機械学習の教師あり学習で使う訓練データに対し、正解となる情報（ラベル・タグ）を付与する作業。たとえば画像に「猫」「犬」のラベルを付けたり、文章に意味の分類を付けたりする。AIはこの正解付きデータから規則性を学習する。

各選択肢の解説

b エンコード：データを一定の規則で別の形式（符号）に変換すること。文字コード変換や暗号化などが例。
c データクレンジング：データの誤り・重複・表記ゆれを修正し、品質を整える前処理。
d フィルタリング：条件に合致するデータだけを抽出・選別すること。

覚え方・ひっかけ注意

教師あり学習の「正解を教える＝正解ラベルを付ける＝アノテーション」と直結。データクレンジングも“データの前処理”で紛らわしいが、こちらは“正解付け”ではなく“掃除（品質向上）”。正解を付けるのか、汚れを落とすのかで区別する。

上級誤答論破・背景理論まで深掘り

理論的背景

アノテーション（Annotation）は機械学習・深層学習における教師あり学習の根幹工程であり、「生データに対して正解ラベル（タグ・境界ボックス・セグメンテーションマスク等）を付与する作業」を指す。アノテーションの品質はモデルの予測精度に直結するため、AIシステムの品質はある意味でアノテーション品質に依存している。データのタイプによってアノテーション手法は大きく異なる：画像（物体検出→バウンディングボックス・画像分類→クラスラベル・セマンティックセグメンテーション→ピクセル単位ラベリング）、テキスト（固有表現認識→NERタグ・感情分析→ポジティブ/ネガティブラベル・機械翻訳評価→翻訳品質スコア）、音声（音声認識→書き起こしテキスト）など。大規模AIモデルの学習には数百万〜数十億件のアノテーション済みデータが必要とされる。

実務での使われ方

アノテーション市場は急速に拡大しており、Scale AI（企業価値140億ドル超・Metaの主要サプライヤー）・Appen・Labelboxなどの専業企業が世界各地のアノテーターを活用している。日本ではランサーズ・クラウドワークスがアノテーション案件をクラウドソーシングで提供し、地方・在宅ワーカーの新しい雇用形態となっている。ChatGPTの安全性向上に使われたRLHF（Reinforcement Learning from Human Feedback）もアノテーションの一形態で、人間が「好ましい回答」と「好ましくない回答」にラベルを付けることでAIが人間の価値観に沿った出力を学習する。アノテーション品質管理として「アノテーター間一致率（Inter-Annotator Agreement：Cohen's κ等）」の測定・ゴールデンデータセット（専門家が正解付けしたベンチマーク）との比較が標準的手法となっている。

試験での位置づけ

アノテーションはITパスポートのAI・機械学習分野でシラバス改訂（2022年版以降）で明示的に追加されたキーワード。教師あり学習のパイプラインを理解する上で不可欠な概念であり、「データ収集→アノテーション→学習→評価→デプロイ」というMLライフサイクルの中での位置づけを理解することが重要。本問の誤答パターンはエンコード（b）との混同で、どちらも「データを変換する」というニュアンスがあるが、エンコードは「データの表現形式を変換する技術的操作（文字コード変換・動画圧縮等）」でラベル付与とは全く異なる。近年はGPT等の大規模言語モデル（LLM）のFine-tuning・RLHFにアノテーションが必須であることから、生成AI開発の文脈での出題が増加している。

選択肢の発展補足

選択肢bのエンコード（Encode）はデータを特定の規則・形式に変換する操作全般を指す。文字コードのエンコード（ASCII→UTF-8）・動画エンコード（H.264・H.265）・機械学習でのOne-hotエンコード（カテゴリ変数を数値ベクトルに変換）など用途は広い。アノテーションとエンコードの本質的な違いは「人間がラベルの意味・正解を定義するか否か」である。選択肢cのデータクレンジング（Data Cleansing）は「欠損値・重複値・異常値の検出・修正・除去」を行うデータ品質改善作業で、アノテーションの前処理として実施されることが多い。選択肢dのフィルタリングはデータ収集段階での不要データの除外処理（重複排除・品質基準未満データの除去）。データパイプラインの文脈では「データ収集→フィルタリング→クレンジング→アノテーション→学習」という順序で理解すると各工程の役割が明確になる。

出典・引用について

出典：IPA（情報処理推進機構）公式 ITパスポート試験令和8年度問16／公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。