イケてるパイソンエンジニアを無料で集める方法
KNNポール神田です。
プログラミング言語のPythonを勉強している。
AI学習からスクレイピングまでいろんなことができる。実用的なのが、決められた場所から情報を、ひろってくるスクレイピングだ。
プログラムのロボット(クローラー)が指定した場所から任意の時間に情報を集めてくれる。
いろんな海外メディアのニュースサイトからの情報を集めようとした時に、ロボットが情報をひろい集める時に、ルールを明記している情報が robots.txt である。
ほとんどのサイトに、インデックスしていいい情報とダメな情報が明記されている。
残念ながら Yahoo.co.jp にはなぜか robots.txt がない。
https://www.yahoo.co.jp/robots.txt
…ということは巡回制限がまったくないと判断してもよいのか?
yahoo.com には、robots.txtが存在している。
https://www.yahoo.com/robots.txt
robots.txtを人間が読む人はどういう人…
いろんなサイトには、クローラーボット向けの巡回方法をrobots.txtに明記している。
しかし、それを読みに来る人間というのは、巡回して情報を集めようとしている人間であることが多い…。
つまりクロールするエンジンを作っているエンジニアだ。
特にPythonには便利なツールがあるのでPythonエンジニアである確率が高い。
リクルートサイトへ誘導するBloomberg
基本的に、ロボットのための記述がrobots.txtだ。
通常は、User-agent: * の記述のあとに宣言が続く…。
しかし、ニュースサイトのBloomberg.comのrobots.txtは少し風変わりだ。
https://www.bloomberg.com/robots.txt
には、※コメントアウトされたところに人間用のメッセージが記述されている。
※コメントアウトとは、記述したプログラムコードを処理させない記号をつけた部分のこと
SF作家アイザック・アシモフのロボット三原則をモチーフにしながら、
If you can read this then you should apply here
https://www.bloomberg.com/careers/
もしあなたがこれを読んだら、こちらにも参加してほしいと明記し、bloomberg.comの採用ページにリンクを貼っている。
エンジニア採用向けのクールなメッセージだと思った。
エンジニア採用に、robots.txtを使うのは一切費用がかからず、エンジニアに対しての会社のポリシーを表現できる手法だと感じた。
GAFMAのサイトのrobots.txt
ちなみに、GAFMAサイトを見ると、それぞれのサイトが何を見せ、何を見せたくないかがよくわかる。
Google.com
https://www.google.com/robots.txt
Apple.com
https://www.apple.com/robots.txt
Facebook.com
https://facebook.com/robots.txt
Microsoft.com
https://www.microsoft.com/robots.txt
Amazon.com