生成AIとウェブスクレイピング技術の融合 最新の技術トレンドを解説
ウェブスクレイピング市場の拡大、その背景
AI市場の発展に伴い、ウェブスクレイピング関連の市場も活況の様相を呈している。たとえば、モバイルやウェブデータを含む「代替データ市場」の規模は、2023年時点で49億ドルだったが、年平均成長率28%で拡大し、2032年には423億ドルに達すると予想されている。ウェブスクレイピングソフトウェア市場も、すでに8億ドルを超え、2030年までには18億ドルに拡大する見込みだ。 業界別にウェブスクレイピングデータの利用状況を見ると、Eコマース業界が最大となる。市場シェアは24%。業界のプロフェッショナルは、家電製品、住宅、食品などの価格追跡を自動化し、消費者物価指数の算出に活用。これらのデータは、価格調整や製品提供の最適化に貢献している。さらに、公共セクターや学術分野でも活用が進んでいる。ジャーナリストや研究者は、政治動向や世論の追跡に活用。ブラウン大学やウォートン大学は、研究者のニーズに応えるため、サードパーティのプロバイダーと提携。医療研究分野では、医学ジャーナルや臨床試験、患者フォーラムからデータを抽出し、医療動向の把握に活用されている。 このような状況下、2024年のウェブスクレイピング技術は、AIとの統合によって新たな進化を遂げつつある。AIを活用したスクレイパーは、HTMLページを理解し、必要な情報を抽出できるようになった。また、ウェブサイトの変更をリアルタイムで把握し、レイアウトやコンテンツ構造の変更に即座に適応する機能も実現している。 また、ChatGPTなどの対話型AIチャットボットの普及により、ユーザーはより直感的で使いやすいインターフェースを求めるようになっている。この傾向は、ウェブスクレイパーにも波及。シンプルな対話を通じて操作できる直感的なツールへと進化を遂げている。
Oxylabs、生成AIとウェブスクレイピング技術を融合
生成AIとウェブスクレイピング技術の融合を主導する企業の1つが、2015年に設立されたOxylabsだ。同社は、ウェブインテリジェンス/プレミアムプロキシプロバイダーとして、ビッグデータソリューションを提供。フィナンシャル・タイムズのFT1000リストにおいて、2022年から2024年まで3年連続で欧州で最も成長の速いウェブインテリジェンス企業に選出されるなど、注目される存在となっている。 2024年10月、同社は業界初となるAIアシスタント「OxyCopilot」を発表した。OxyCopilotは、AIと同社独自の技術を組み合わせたウェブスクレイピングソフトウェア。URLと自然言語プロンプトだけで、Web Scraper APIのパース指示とリクエストを生成できる。HTMLページを完全に理解し、必要な情報を高精度で抽出できるAI機能と、ウェブサイトの変更をリアルタイムで把握し、レイアウトやコンテンツ構造の変更に即座に適応する機能が統合されている。これにより、従来は複雑なコーディングスキルが必要だったウェブスクレイピングのタスクを、シンプルな対話形式で実行できるようになった。 オンラインショッピングサイトの価格データ収集、不動産情報の追跡、市場調査データの収集など、幅広いユースケースに対応。プロキシ管理からウェブブロック解除まで、包括的なデータ収集プラットフォームとしての機能も備えている。 OxyCopilot開発の背景には、ウェブデータ収集への需要増加がある。同社がCensuswideと共同で実施した英米の開発者/ウェブスクレイピング実務者を対象とした調査によると、74%が過去1年間でパブリックウェブデータへの需要が増加したと回答。一方、多くの企業にとってインフラ構築やデータパーサー保守が課題となっているほか、適切なパース処理だけでも週40時間の開発時間がかかっていることも明らかになった。 OxyCopilotは、こうした課題を解決することを目的に開発された。特に小規模企業にとって、ウェブスクレイピングの専門家チームを雇用することは、人材の希少性と高コスト問題で困難であったが、OxyCopilotの登場により、この障壁を克服できるようになる。さらに、サーバーなどコストのかかるインフラの維持管理を回避できることも中小企業にとって朗報となる。 同社は現在、この実装技術の特許を申請中という。また、AIと機械学習(ML)を活用し、パブリックウェブデータの収集プロセス全体の自動化を実現する目論見だ。
文:細谷元(Livit)