ノルウェーのAI導入遅延、小国のデータ不足と先住民言語への配慮

鐙麻樹

北欧・国際比較文化ジャーナリスト|ノルウェー国際報道協会理事

9/5(木) 7:05

ノルウェー監査総監室は、2018～2023年までの公共部門における人工知能（AI）の活用について調査を行った。

「ノルウェーが世界トップクラスの人工知能インフラを持つという野望を考えると、全体的な取り組みが弱すぎる」

9月2日に発表された報告書「政府における人工知能の活用」では、「満足のいくものではない」と指摘された。

監査官によると、AIを活用してきた政府機関は50％未満に過ぎない。

報告書の指摘

医療・介護サービス省には111のAIシステムがあるが、外務省には1つもない
AIに関する未解決の法的問題がまだある
AIシステムを訓練するための質の高いデータ不足
AIの専門知識が不足
「倫理的原則がどのように守られるか」に大きなばらつきがある

ノルウェーの公的機関におけるAI導入の遅れには、大きく二つの問題が関係している。

倫理的原則の適用の困難

公的機関では、個人データの扱いやAIの決定過程の透明性を確保することが不可欠だが、「倫理的原則の厳格な適用」がAI技術の導入を複雑にしている。

個人情報保護法や透明性の確保に関する具体的なガイドラインが不足しているため、AIシステムの実装において多くの公的機関が法的な不確実性に直面しているのが現状だ。

よって、新技術を導入するプロセスが遅れ、プロジェクトの停滞につながっている。

インフラとデータ品質の不足

効果的なAI導入には高品質なデータとそれを支える強固なデータインフラが必要だ。ノルウェーではこの基盤が十分に整備されておらず、データの整合性やアクセスの問題が発生中。

公的機関が保有するデータの質が不十分であることや、異なるシステム間でのデータ互換性の欠如が、AIの効率的な運用を妨げる要因となっている。

「話者が少ない」小さい規模の国が抱える問題

「高度なデータ不足」には、北欧という、世界的にみると「マイナー」な国であるが故の問題が背後にある。

読者の皆さんに、北欧諸国の言語を学んでいたり、見聞きしたことのある人は、どれくらいいるだろうか？英語やフランス語などとは反対に、北欧諸国の言語の割合はネットの世界でも「少ない」。

それはノルウェー語のデータやノルウェーに関するデータが足りていないことを意味する。

少数派の言語であるが故に、小規模な北欧は「高度なデータ不足」問題に陥りやすく、話者の多い大規模言語のバイアスを受けやすい脆弱性をもっている。

つまり、北欧の中でもさらに規模が小さいアイスランドやグリーンランドなどは、よりこの不公平な影響を受けることにもなる。

報告書でも、「AIツールのベースとなる基本モデルは、ノルウェー語やノルウェーの価値観とはまったく関係のない、少数のグローバルな民間企業によって開発されている」と指摘されている通りだ。

ノルウェー国民が自国語でより高度なAIサービスを受けるためには、書き言葉とサーミ語の両方で優れた言語資源があることが極めて重要です。

人工知能を利用すれば、文章の翻訳、文章作成、大量の文書の内容分析などの作業を効率化することができます。

しかし、このようなソリューションをノルウェー語やサーミ語の書き言葉や方言用に開発するには、技術をこれらの言語や地域の状況に適合させなければなりません。

報告書P54～55

ノルウェー語はそもそも2種類あり、加えて地域によって、方言や訛りが異なる。またサーミ人をはじめとする先住民族の言語も複数ある。

公平性を目指すためには、言語モデルを訓練する必要があるが、ノルウェー語やサーミ語などの大量のデータが不足しているのだ。

実際、筆者もChatGPTなどを使用してみると、ノルウェー、特に先住民の関する情報や画像には誤った描写が目立つことが気になっていた。

迫害されてきた先住民に関する情報や画像にバイアスが多く反映されている光景は、まるでAIによって「植民地主義が再生産されている」かのようにも感じた。

再生可能エネルギーの発展を急ぐノルウェー政府と、土地を巡り対立が深まる先住民サーミの人々　筆者撮影

ノルウェーの対策と求められていること

ノルウェー政府はデータ管理とAIの倫理的使用に関するガイドラインの強化に努めている
データの質を向上させるための標準を設け、公的機関におけるデータガバナンスを強化することが求められている
AIの倫理的使用を保証するための透明性の高いプロセスの確立が進められており、個人データの保護と公正なAIの適用を目指している
言語資源の収集と利用を促進するために、ノルウェー文化・平等省の指揮の下、ノルウェー国立図書館の言語バンクは、優れた言語技術を開発するために、ノルウェー語のテキストと音声の大規模なデータセットを提供している