イケてるパイソンエンジニアを無料で集める方法

Bloomberg.comのrobots.txt 出典 Bloomberg

KNNポール神田です。

プログラミング言語のPythonを勉強している。

AI学習からスクレイピングまでいろんなことができる。実用的なのが、決められた場所から情報を、ひろってくるスクレイピングだ。

プログラムのロボット(クローラー)が指定した場所から任意の時間に情報を集めてくれる。

いろんな海外メディアのニュースサイトからの情報を集めようとした時に、ロボットが情報をひろい集める時に、ルールを明記している情報が robots.txt である。

クローラーはrobots.txtの記述に従ってサイト内のウェブページを巡回します。クローラーによる巡回の際は、まずサイトのルートディレクトリ(サイトの一番上の階層)にあるrobots.txtを探します。robots.txtが設置されていなかった場合には、そのサイトに対する巡回制限はないものとみなしてサイト内のウェブページを巡回し、robots.txtが設置されていた場合には、その内容に従って巡回します。

出典:Yahoo!検索 robots.txtとは?

ほとんどのサイトに、インデックスしていいい情報とダメな情報が明記されている。

残念ながら Yahoo.co.jp にはなぜか robots.txt がない。

https://www.yahoo.co.jp/robots.txt

…ということは巡回制限がまったくないと判断してもよいのか?

yahoo.com には、robots.txtが存在している。

https://www.yahoo.com/robots.txt

robots.txtを人間が読む人はどういう人…

いろんなサイトには、クローラーボット向けの巡回方法をrobots.txtに明記している。

しかし、それを読みに来る人間というのは、巡回して情報を集めようとしている人間であることが多い…。

つまりクロールするエンジンを作っているエンジニアだ。

特にPythonには便利なツールがあるのでPythonエンジニアである確率が高い。

リクルートサイトへ誘導するBloomberg

基本的に、ロボットのための記述がrobots.txtだ。

通常は、User-agent: * の記述のあとに宣言が続く…。

しかし、ニュースサイトのBloomberg.comのrobots.txtは少し風変わりだ。

https://www.bloomberg.com/robots.txt

には、※コメントアウトされたところに人間用のメッセージが記述されている。

※コメントアウトとは、記述したプログラムコードを処理させない記号をつけた部分のこと

SF作家アイザック・アシモフのロボット三原則をモチーフにしながら、

If you can read this then you should apply here

https://www.bloomberg.com/careers/

もしあなたがこれを読んだら、こちらにも参加してほしいと明記し、bloomberg.comの採用ページにリンクを貼っている。

エンジニア採用向けのクールなメッセージだと思った。

ブルームバーグの採用ページ 出典:Bloomberg
ブルームバーグの採用ページ 出典:Bloomberg

エンジニア採用に、robots.txtを使うのは一切費用がかからず、エンジニアに対しての会社のポリシーを表現できる手法だと感じた。

GAFMAのサイトのrobots.txt

ちなみに、GAFMAサイトを見ると、それぞれのサイトが何を見せ、何を見せたくないかがよくわかる。

Google.com

https://www.google.com/robots.txt

Apple.com

https://www.apple.com/robots.txt

Facebook.com

https://facebook.com/robots.txt

Microsoft.com

https://www.microsoft.com/robots.txt

Amazon.com

https://www.amazon.com/robots.txt