基本情報 平成30年度 春期 問24:テクノロジ系に関する問題
列車の予約システムにおいて, 人間とコンピュータが音声だけで次のようなやり 取りを行う。この場合に用いられるインタフェースの種類はどれか。 [凡例] P: 人間 G: ビュー次 “5 月 28 日の名古屋駅から東京駅までをお願いします。“ "ご乗車人数をどうぞ。“ "大人 2 名でお願いします。“ “ご希望の発車時刻をどうぞ。" “午前 9 時頃を希望します。” “午前9時3 分発, 午前 10 時 43 分着の列車ではいかがでしょうか。“ "それでお願いします。“ “確認します。 大人 2 名で, 5 月 28 日の名古屋駅午前 9 時 3 分発, 東京駅午前 10 時 43 分着の列車でよろしいでしょうか。"” OO -忌 の 中 の6 中 の むむ P 【11 はい。 7》
- a感性インタフェース
- b自然言語イィインタフェース正答
- cノンバーバルインタフェース
- dマルチモーダルインタフェース
AI解説(初心者・標準・上級)
理解度に合わせて3レベルの解説を無料で読めます。
答えは b「自然言語インタフェース」 です。
音声で「普段話す日本語」のままコンピュータとやり取りできるのが自然言語インタフェース。
問題文の例のように「5月28日の名古屋駅から東京駅をお願いします」「大人2名で」と普通の会話で予約できるのが特徴です。Siri やAlexa を思い浮かべるとイメージしやすいですね。
👉 覚え方:自然言語=普段の話し言葉!
ほかの選択肢:a 感性UI=感情を読み取る/c ノンバーバル=非言語(表情・身振り)/d マルチモーダル=音声+映像+文字など複数手段の組合せ。
なぜこれが正解か
正解は b。自然言語インタフェース(Natural Language Interface)は、人間が日常使う言語(日本語・英語等)を入力とし、自然な対話形式で情報処理を行うインタフェース。本問の予約システムでは音声で日常会話のように予約が成立しており、自然言語インタフェースの典型例。
各選択肢の解説
- a 感性インタフェース:ユーザの感情・気分・好みを認識し、それに応じた応答を返すUI。感情認識AIを利用。
- b 自然言語インタフェース:日常言語による対話 → 正解。
- c ノンバーバルインタフェース:身振り、表情、視線等の非言語コミュニケーションを利用するUI。
- d マルチモーダルインタフェース:音声+映像+テキスト+ジェスチャ等、複数の入力/出力手段を組合せたUI。
覚え方・ひっかけ注意
UIの分類軸:
- 入力手段:CLI、GUI、音声、ジェスチャ、視線、脳波。
- モダリティ数:シングル vs マルチ。
- 対話形式:コマンド、メニュー、フォーム、自然言語、感性。
本問は「音声のみ」「自然な会話」だから自然言語インタフェース。音声+画像表示ならマルチモーダルとなる。
自然言語処理(NLP)の構成要素
音声による自然言語インタフェースの典型的なスタック:
1. 音声認識(ASR:Automatic Speech Recognition):音声→テキスト。HMM、DNN、Whisper、Conformer。
2. 自然言語理解(NLU):テキスト→意図・スロット抽出。Intent classification、Named Entity Recognition。
3. 対話管理(Dialog Manager):状態追跡、応答生成方針決定。ルールベース、強化学習、Transformer。
4. 自然言語生成(NLG):応答テキスト生成。テンプレート、シーケンス・ツー・シーケンス、LLM。
5. 音声合成(TTS:Text-to-Speech):テキスト→音声。WaveNet、Tacotron、VITS。
主要な対話システム
- Siri、Alexa、Google Assistant、Cortana:商用音声アシスタント。
- ChatGPT、Claude、Gemini:LLMベースの汎用対話AI。
- Rasa、Dialogflow、Microsoft Bot Framework:開発フレームワーク。
- 車載音声:BMW Intelligent Personal Assistant、Mercedes MBUX、Toyota T-Connect。
関連UI概念
- CUI(Conversational User Interface):会話形式UI、チャットボット含む。
- VUI(Voice User Interface):音声特化UI。
- ZUI(Zooming User Interface):拡大縮小型UI、Prezi等。
- AR/VR UI:空間UI、HoloLens、Apple Vision Pro。
- BCI(Brain-Computer Interface):脳波直接入力、Neuralink。
マルチモーダルの進化
- GPT-4V、Claude Vision、Gemini:テキスト+画像の同時理解。
- Sora、Runway:テキスト→動画生成。
- 音声・映像・テキスト統合:Meta Llama 3.2、Google Gemini Live。
試験での位置づけ
FE「ヒューマンインタフェース/AI」分野で頻出。応用情報・ITストラテジストではアクセシビリティ(WAI-ARIA、WCAG)、UI/UX設計原則、AIアシスタントの社会実装まで踏み込む。
課題と論点
- 誤認識:方言、専門用語、雑音、複数話者混在。
- プライバシー:常時録音、データ送信の懸念。Apple Privacy分離、端末内処理(オンデバイスAI)。
- バイアス:学習データに含まれる偏見の継承。
- ハルシネーション:LLMの誤情報生成、ファクトチェック必要。
- アクセシビリティ:聴覚障害者には字幕同期、視覚障害者には音声案内。
選択肢の発展補足
dのマルチモーダルは近年の主要トレンド。M-Bee、CLIP、ViT+GPT統合で画像+テキストの相互理解が実用化。aの感性インタフェースはAffective Computing(MIT Media Lab、Rosalind Picard)で研究、表情認識API(Affectiva、Microsoft Face API)で商業化。cのノンバーバルはKinect、Leap Motion、Meta Quest 3のハンドトラッキング等で実装。
出典:IPA(情報処理推進機構)公式 基本情報技術者試験 平成30年度 春期 問24/ 公的機関配布資料につき出典明記の上引用。解説は合格ナビによる独自AI解説です。