Windows 11の新機能「リコール」は微妙?実際のところを確かめてみた
Copilot+ PCの新機能として注目されてきた「リコール(Recall)」が、ようやく利用可能になった。意欲的で、おもしろく、技術的にも興味深い機能ではあるが、「便利か?」と言われると「人による」という印象だ。ここでは、リコールの概要、使い方、やっておくべき設定などについて解説する。 【画像】リコールのプレビュー開始を知らせた記事 ■ Snapdragonに加えAMD、Intelでも利用可能に ついに「リコール」がCopilot+ PC準拠のWindows 11環境で使えるようになった。 と言っても、現状はWindows Insider PreviewのDevチャネルで提供されるプレビュー版で、Armプラットフォームは11月22日公開のBuild 26120.2415(KB5046723)から、AMDおよびIntelプラットフォームは12月6日公開の26120.2510(KB5048780)から利用可能になっている。 リコールは、Windowsのデスクトップ画面をスナップショット画像として取得し、その画像をOCRやAIで解析することで、過去の情報を検索できる機能だ。以前に見たWebページ、先週読んだ文書ファイル、この間コピーしたファイルなど、なんとなく覚えているものの、はっきりとした所在が分からないデータを検索することができる。 当初、5月のCopilot+ PC発表時に目玉機能として紹介されたものの、セキュリティやプライバシーの懸念から再構築されることになり、延びに延びて、今回ようやくプレビューとなった。 まあ、PCの使い方は人によって違うが、記録や解析までされたらイヤな画面というのは誰にもでもあるはずだ。パスワードや決済情報などのセキュリティ情報もそうだが、どちらかというとプライバシーの観点で、この機能に疑問符を付けるユーザーが多いのも納得できるところである。 具体的にどのように使うのかという例を示す。以下は筆者のPCで「リコール」というキーワードで検索した結果だ。上段の[テキストの一致]ではリコール関連の情報を調べたWebサイトが一覧表示される。これは正確な印象だ。 おもしろいのは、下段の[視覚的な一致]で、先頭にYouTubeで視聴した漫画の携帯電話が映り込んだシーンがリストアップされた。 ただ、下段の残りの画像は、現在、筆者が制作している書籍の紙面ラフとなる。Microsoft 365の共有メールボックスについて説明したページなので、なぜこれらが結果に表示されるのかは分からない。いずれにせよ、リコールではこのように過去の画面から情報を検索できる。 なお、筆者は検証目的で、12月4日から仕事で使うメインの環境をCopilot+ PCに切り替え、リコールでの記録を続けているが、記録されたタイムラインをスクロールさせて過去を振り返ると、もう「反省」しかない。 原稿を書きながら、調べものでブラウザを開いたと思ったら、見出しにつられて関係のない記事を読み、すっかり集中力が切れて動画を見始めるという始末。ついでにSNSや掲示板を眺め、急に我に返って再び仕事を始める。 そんな光景が何度も繰り返されてきたことを「しっかり」振り返ることができる。なんですか?コレは?自分のダメさを反省する機能ですか? ■ リコールを利用するには 反省はさておき、リコールを利用する方法を簡単に紹介する。リコールは現状、以下の条件を満たす場合に利用可能だ。 □ハードウェアの要件 ・セキュリティで保護されたコア標準を満たすCopilot+ PC(詳細はこちらを参照) ・40TOPS NPU ・16GB RAM ・8つの論理プロセッサ ・256GBのストレージ(少なくとも50GBの空き容量) □Windowsの要件 ・デバイス暗号化またはBitLocker ・少なくとも1つの生態認証サインイン ・Windows Insider PreviewのDevチャネル登録 ・26120.2510以上のビルド(2024年12月14日時点) ・Windows UpdateによるAIコンポーネントのインストール 基本的には、Devチャネルに登録すれば最新版のビルドに自動的に更新されるので、その後でリコールを起動し、画面の指示に従ってWindows UpdateでいくつかのAIコンポーネントをインストールする。 AIコンポーネントとは、具体的に以下のものだ。画像解析関連のImage Extraction、Semantic Analysis、検索用のSemantic Search、そして軽量ローカルLLMの「Phi Silica」がインストールされる。 Phi Silicaについては、こちらのドキュメントが参考になるので興味のある人は一読をおすすめする。基本的には、先行して公開されていたMicrosoft製の小型言語モデルであるPhi-3.5-miniをベースに4bit量子化したモデルで、NPUを使用して動作するようにチューニングされている。メモリ使用量の低下、応答速度の向上、スループットの向上(開発ターゲットは20トークン/秒)などが実現されたモデルとなっている。 Windowsアプリ向けのSDKの情報も公開されており(現状はまだ未未実装。今後プレビュー予定)、Windowsの機能としてローカル言語モデルがアプリで容易に利用可能になることが明らかになっている。 リコールでは、このPhi Silicaを自然言語での検索に活用している。ただ、ベースとなるPhi-3.5-miniは、対応する言語の中でも日本語のベンチマーク結果があまり好ましくない。 この影響があるのかどうかまでは不明だが、前述したように検索については「ふむ」と納得できる結果も表示されれば、「??」と思うような謎の結果が表示されることも少なくない印象だ。 ■ 何はともあれリコールを使ってみる リコール使ってみた印象としては、便利なのかが微妙に判断しにくい印象だ。 まず、スナップショットだが、Microsoftのドキュメントによると、「Snapshots are taken periodically while content on the screen is different from the previous snapshot.」となっており、定期的な取得だけでなく、画面上の変化を検知した取得が実行される、となっている。 実際に動作を検証してみたところ、筆者の環境では、YouTubeのような動画を見ているシーン(動画の画面だけが変化するケース)では30秒おきに定期的にスナップショットを取得しているようだった。その一方で、新しいアプリを起動したり、Webページを移動したりすると、時間に関係なく、そのタイミングでスナップショットが取得されることが確認できた。 つまり、常時記録されているわけではないため、リコールで何でもかんでも振り返られるというわけではない。 特に苦手なのは動画だ。前述したように動画を流し見している状況だと、30秒ごとのスナップショットとなるため、「なんて言ってたっけ?」と思って動画の結果を期待して検索しても、30秒の隙間に当たったシーンは検索候補に含まれず、期待した検索結果が得られないこともしばしばある。 その一方で、素直に「スゲェ」と思ったのは、OCRによる画像認識結果だ。検索結果から画面をピックアップすると、画面全体が波打つようなエフェクトの後(なかなかカッコイイ)、画像からテキストなどが抽出される。 この時、YouTubeの動画でも、動画内のテロップを認識してくれるし、何なら登場人物が着用している服の文字まで認識してくれる。「Click to Do」と呼ばれる機能によって、文字をコピーしたり、画像をペイントに送って編集したりすることもできる。 また、Webの場合であれば、URLを認識してくれるので、リコールの検索結果から同じページを表示することもできる。「探せましたスゴイでしょ」で終わることなく、それをどう活用するかというところまで作り込んでいる点は高く評価できる。 将来的には、Wordなどのアプリでも同様に画面上と同じファイルまで開けるようになることを期待している。 ただ、筆者は12月4日から使い始めて、まだ10日ほどと利用期間が少ないこともあり、正直「あれ何だっけ?」などと忘れるようなシーンが今のところない。 もちろん、忘れていることはたくさんあるが、それは仕事中の息抜きだったり、流し見している動画だったりで、そこまで探したいというものではない。 もしかすると、というか、おそらくそうすべきなのだが、リコールを便利だと感じるには、PCの使い方を変えたほうがいいのかもしれない。 というのも筆者の場合、仕事のデータなら決まったフォルダにあるし、調査中の資料や気になる情報は構わずお気に入りに入れるようにしている。また、昔からの習慣で、デスクトップ上にテキストファイルを1つ置いていて、気になることや役立ちそうな情報、画面上で見かけたテキストは、かたっぱしからメモ帳に貼り付けるようにしている。 なので、筆者的にはリコールで振り返るより、手動でコピーしたメモ帳を見るほうが振り返りは早い。 おそらく、こうした情報を仮に保存したり、記憶から取り出したりできる工夫は誰にでもあるはずなので、それを上回る手軽さと、精度がリコールには必要だろう。リコールを便利だと感じるかどうかは、人によって違い出そうな気がする。 ■ セキュリティ対策はどうなったのか? 注目のセキュリティ対策については、9月にブログで公表されている。 基本的に、リコールを有効にするにはユーザーの設定(セットアップ中)が必要で、機能自体も削除可能になっている。このため、リコールが強制されることはない。 データは暗号化し、解読のための暗号化キーはTPMに保存され、Windows Helloによるユーザー認証がないと取り出せない。 また、スナップショットなどのデータは仮想化ベースの環境内でのみ扱われるため、ユーザー以外が参照することは容易ではない仕組みになっている。 また、プライバシーを保護する目的で、以下のような工夫がなされている。 ・サポート対象のブラウザでのプライベートモードは保存されない ・特定のアプリやWebサイトを除外できる ・機密情報のフィルタ処理によりパスワードやクレジットカード番号などは保存されない ・リコール上から任意の情報を削除できる ・システムトレイのアイコンで状況を確認したり、動作を停止したりできる これらの動作は、実際に確認したほうが分かりやすい。 たとえば、筆者が普段利用しているオンラインバンキングのログイン画面を表示すると、タスクトレイのアイコンにフィルタのマークが表示され、機密情報のフィルタが有効になったことを確認できる。この場合、当然画面は保存されない。 同様に、オンラインバンキングのサイトを[フィルタ処理するWebサイト]に登録しておくと、そのサイトにアクセスした際にフィルタ処理されていることが表示される。アプリを指定してフィルタすることもできる。 誰にでも、個人的な趣味の情報を検索したいときはある。こうした情報の記録を排除できるのは安心だ。 また、前述したようにリコールを便利に使うには、片っ端から情報を記録させたほうが利便性は上がるが、プライベートな情報は仕事の情報を検索するときにノイズになる(逆にプライベートな情報を検索したいときは仕事の情報がノイズになるが……)ので、記録させたい情報とそうでない情報で、フィルタを使い分けることをおすすめする。 ちなみに、リコールでサポートされているブラウザ(URLを指定したフィルタを適用できるブラウザ)は、Microsoft Edge、Firefox、Opera、Google Chrome、Chromiumベース(124以降)となっている。 このほか、これは仕様なので仕方がないが、Click to Run時のデータの扱いは、仕組みをある程度理解しておいたほうがいい。リコールでテキストや画像を認識して、それをアプリで表示しようとすると、テキストや画像が一時的に「C:¥Users¥mshim¥AppData¥Local¥Temp」にファイルとして書き出される。 ユーザーが自ら指示した行動に基づいた処理となる上、認識された画像やテキストをアプリで開くには、隔離された領域から通常のストレージにデータを移す必要があるため、これは仕組み上、仕方がない。 もちろん、これらのファイルは一時的なもので、しばらくすると自動的に削除されるが、一時的でもスクリーンショットの画像やテキストのデータが通常のストレージ領域に残る可能性があることは知っておくべきだ。 ■ ストレージの消費量はどれくらいか? スナップショットを保存するストレージに関しては、搭載されているストレージ容量に依存する。 Microsoftのドキュメントによると、10/25/50/75/100/150GBに設定可能となっているが、画面上で選択可能なのは25/50/75/100/150GBとなっている。選択可能な容量は、PCのストレージの容量に依存しており、ストレージ容量が256GBの場合は25GB、512GBの場合は75GB、1TB以上の場合に150GB が割り当てられる。 実際の消費量は使い方次第となるが、筆者の環境では、12月4日から12月14日までの10日間、1日8時間、普段の仕事や個人的な検索、動画の視聴などに使った状況で、スナップショットの消費量は2.43GBとなっている。 単純計算すると、10日で2GBなので、1カ月で6GB、1年で72GBほどになると予想できる。150GBが上限なので、2年くらいは情報を遡れる計算になる。 少ない、多い。短い、長い。人によって意見が分かれそうな微妙なラインの期間設定だ。 ■ これはやっとけリコール推奨設定 最後に、しばらくリコールを使ってみた結果、これはやっておいたほうがいいという設定を紹介する。 設定箇所は以下の場所にある。 [設定]-[プライバシーとセキュリティ]-[リコールとスナップショット] □機密情報のフィルタ処理 標準でオンだが、念のため確認しておくべき。 ・フィルタ処理するアプリ ブラウザを複数インストールし、仕事用とプライベート用で使い分け。プライベート用をフィルタ処理するアプリに登録する。 ・フィルタ処理するWebサイト 機密情報フィルタで排除される場合が多いが、念のためオンラインバンキングやオンライントレードなどのサイトを登録 □タスクトレイのアイコンに注目する リコールが画面を記録するかどうかは、アイコンのフィルタマークの有無で確認できる。記録してほしくない画面の場合に確実にフィルタマークが表示されていること、逆に記録してほしい画面でフィルタマークが表示されていないこと(パスワード画面などが自動判定される場合がある)を意識する。 □リコールに記録させることを意識する Webページなどの場合、最後のページまで表示するとか、記録したい情報が表示されている状態にスクロールをうまく調整するとか、リコールに記録させることを意識して閲覧する。 また、複数ウィンドウを表示しているときは、画面を重ねないのもコツ。ウィンドウが重なると、その部分の文字が中途半端に認識される。スナップでウィンドウを整列させるクセを付けるといい。 □YouTube視聴時の文字起こし 最近はYouTubeで情報を入手する機会も増えているが、リコールで文字認識、検索の正確性を向上させるために、視聴する際に、可能な場合は文字起こしを表示するようにしたほうがいい。この情報を使って検索できるし、Click to Doでテキストを取り出せる。 □YouTubeの字幕(翻訳) 海外のYouTube動画を視聴する際は、日本語の字幕を表示したままにすると、これも検索するときに役立つ。ただし、字幕は動画画面内の文字と重なってしまうケースがあるため、逆効果になるケースもある。なので、動画によって使い分ける。 以上、リコールの概要や使い方について解説した。正直、筆者はまだ「便利だなぁ」と思えるようなシーンに遭遇していないので、利便性の評価は難しい。PCの不便さに対応するために、情報を忘れないように記録する独自の工夫をしてきた人ほど、そう感じるかもしれない。 個人的には、どちらかというと情報を消費するような使い方が多いスマートフォンに向いているような気もする。「あれなんだっけ?あ、スマホだった」というケースは結構多い。 また、過剰なまでにWindows Helloによる認証が度々要求されるのも億劫だ。セキュリティのために仕方がないとはいえ、使うまでのステップが多すぎるように感じられるのが残念だ。こうした点が今後改善されることに期待したいところだ。
PC Watch,清水 理史