イケてるパイソンエンジニアを無料で集める方法

Bloomberg.comのrobots.txt 出典 Bloomberg

KNNポール神田です。

プログラミング言語のPythonを勉強している。

AI学習からスクレイピングまでいろんなことができる。実用的なのが、決められた場所から情報を、ひろってくるスクレイピングだ。

プログラムのロボット(クローラー)が指定した場所から任意の時間に情報を集めてくれる。

いろんな海外メディアのニュースサイトからの情報を集めようとした時に、ロボットが情報をひろい集める時に、ルールを明記している情報が robots.txt である。

クローラーはrobots.txtの記述に従ってサイト内のウェブページを巡回します。クローラーによる巡回の際は、まずサイトのルートディレクトリ(サイトの一番上の階層)にあるrobots.txtを探します。robots.txtが設置されていなかった場合には、そのサイトに対する巡回制限はないものとみなしてサイト内のウェブページを巡回し、robots.txtが設置されていた場合には、その内容に従って巡回します。

出典:Yahoo!検索 robots.txtとは?

ほとんどのサイトに、インデックスしていいい情報とダメな情報が明記されている。

残念ながら Yahoo.co.jp にはなぜか robots.txt がない。

https://www.yahoo.co.jp/robots.txt

…ということは巡回制限がまったくないと判断してもよいのか?

yahoo.com には、robots.txtが存在している。

https://www.yahoo.com/robots.txt

robots.txtを人間が読む人はどういう人…

いろんなサイトには、クローラーボット向けの巡回方法をrobots.txtに明記している。

しかし、それを読みに来る人間というのは、巡回して情報を集めようとしている人間であることが多い…。

つまりクロールするエンジンを作っているエンジニアだ。

特にPythonには便利なツールがあるのでPythonエンジニアである確率が高い。

リクルートサイトへ誘導するBloomberg

基本的に、ロボットのための記述がrobots.txtだ。

通常は、User-agent: * の記述のあとに宣言が続く…。

しかし、ニュースサイトのBloomberg.comのrobots.txtは少し風変わりだ。

https://www.bloomberg.com/robots.txt

には、※コメントアウトされたところに人間用のメッセージが記述されている。

※コメントアウトとは、記述したプログラムコードを処理させない記号をつけた部分のこと

SF作家アイザック・アシモフのロボット三原則をモチーフにしながら、

If you can read this then you should apply here

https://www.bloomberg.com/careers/

もしあなたがこれを読んだら、こちらにも参加してほしいと明記し、bloomberg.comの採用ページにリンクを貼っている。

エンジニア採用向けのクールなメッセージだと思った。

ブルームバーグの採用ページ 出典:Bloomberg
ブルームバーグの採用ページ 出典:Bloomberg

エンジニア採用に、robots.txtを使うのは一切費用がかからず、エンジニアに対しての会社のポリシーを表現できる手法だと感じた。

GAFMAのサイトのrobots.txt

ちなみに、GAFMAサイトを見ると、それぞれのサイトが何を見せ、何を見せたくないかがよくわかる。

Google.com

https://www.google.com/robots.txt

Apple.com

https://www.apple.com/robots.txt

Facebook.com

https://facebook.com/robots.txt

Microsoft.com

https://www.microsoft.com/robots.txt

Amazon.com

https://www.amazon.com/robots.txt

1961年神戸市生まれ。ワインの企画・調査・販売などのマーケティング業を経て、コンピュータ雑誌の編集とDTP普及に携わる。1995年よりビデオストリーミングによる個人放送局「KandaNewsNetwork」を運営開始。早稲田大学大学院、関西大学総合情報学部、サイバー大学で非常勤講師を兼任後、ソーシャルメディア全般の事業計画立案、コンサルティング、教育、講演、執筆、政治、ライブストリーム、活動などをおこなう。メディア出演、コンサル、取材、執筆依頼 などは 070 5589 3604 まで

有料ニュースの定期購読

KNN総研リポートサンプル記事
月額1,999円(初月無料)
月3回程度
ニュース時事をフックに新ビジネスを考えるニュースマガジンです!独自のコンサル手法リサーチで新たなビジネスアイデアを提案します!

Facebookコメント

表示

※本コメント機能はFacebook Ireland Limitedによって提供されており、この機能によって生じた損害に対してヤフー株式会社は一切の責任を負いません。