イケてるパイソンエンジニアを無料で集める方法
![](https://newsatcl-pctr.c.yimg.jp/t/iwiz-yn/rpr/kandatoshiaki/00093827/top_image.png?fmt=jpeg&q=85&exp=10800)
KNNポール神田です。
プログラミング言語のPythonを勉強している。
AI学習からスクレイピングまでいろんなことができる。実用的なのが、決められた場所から情報を、ひろってくるスクレイピングだ。
プログラムのロボット(クローラー)が指定した場所から任意の時間に情報を集めてくれる。
いろんな海外メディアのニュースサイトからの情報を集めようとした時に、ロボットが情報をひろい集める時に、ルールを明記している情報が robots.txt である。
クローラーはrobots.txtの記述に従ってサイト内のウェブページを巡回します。クローラーによる巡回の際は、まずサイトのルートディレクトリ(サイトの一番上の階層)にあるrobots.txtを探します。robots.txtが設置されていなかった場合には、そのサイトに対する巡回制限はないものとみなしてサイト内のウェブページを巡回し、robots.txtが設置されていた場合には、その内容に従って巡回します。
ほとんどのサイトに、インデックスしていいい情報とダメな情報が明記されている。
残念ながら Yahoo.co.jp にはなぜか robots.txt がない。
https://www.yahoo.co.jp/robots.txt
…ということは巡回制限がまったくないと判断してもよいのか?
yahoo.com には、robots.txtが存在している。
https://www.yahoo.com/robots.txt
robots.txtを人間が読む人はどういう人…
いろんなサイトには、クローラーボット向けの巡回方法をrobots.txtに明記している。
しかし、それを読みに来る人間というのは、巡回して情報を集めようとしている人間であることが多い…。
つまりクロールするエンジンを作っているエンジニアだ。
特にPythonには便利なツールがあるのでPythonエンジニアである確率が高い。
リクルートサイトへ誘導するBloomberg
基本的に、ロボットのための記述がrobots.txtだ。
通常は、User-agent: * の記述のあとに宣言が続く…。
しかし、ニュースサイトのBloomberg.comのrobots.txtは少し風変わりだ。
https://www.bloomberg.com/robots.txt
には、※コメントアウトされたところに人間用のメッセージが記述されている。
※コメントアウトとは、記述したプログラムコードを処理させない記号をつけた部分のこと
SF作家アイザック・アシモフのロボット三原則をモチーフにしながら、
If you can read this then you should apply here
https://www.bloomberg.com/careers/
もしあなたがこれを読んだら、こちらにも参加してほしいと明記し、bloomberg.comの採用ページにリンクを貼っている。
エンジニア採用向けのクールなメッセージだと思った。
![ブルームバーグの採用ページ 出典:Bloomberg](https://newsatcl-pctr.c.yimg.jp/t/iwiz-yn/rpr/kandatoshiaki/00093827/image01.png?fill=1&fc=fff&fmt=jpeg&q=85&exp=10800)
エンジニア採用に、robots.txtを使うのは一切費用がかからず、エンジニアに対しての会社のポリシーを表現できる手法だと感じた。
GAFMAのサイトのrobots.txt
ちなみに、GAFMAサイトを見ると、それぞれのサイトが何を見せ、何を見せたくないかがよくわかる。
Google.com
https://www.google.com/robots.txt
Apple.com
https://www.apple.com/robots.txt
Facebook.com
https://facebook.com/robots.txt
Microsoft.com
https://www.microsoft.com/robots.txt
Amazon.com