muumoo.jp


ニュース記事検索


過去ログ 2007年03月19日 - ニュース過去ログ

ニュース過去ログ

2007/03/19 管理人日記 各種クローラが送ってくるUser-Agent:内のURIは、そのクローラに関する情報が載ってるページのものにして欲しい (管理人日記)

単なる私の願望です。別にどっかで標準化されてるからそうすべきだとか、そういうことではありません(ガイドラインくらいはあるかも知れないけど知りません)。

クローラが送ってくるURI

Googleの検索エンジンのための巡回クローラ(例えばGooglebot)とか、livedoor Reader等がRSSを取得するクローラとか、世の中いろんなクローラがあります(ボットとか巡回ロボットとかいろいろな呼び名がある)。

こういうクローラが、実際にデータを取得するとき、User-Agent:ヘッダで情報を送ってくれます。そしてその中にURIが書いてあることがあります。

例えばGooglebotは、

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

こんな感じ。で、このhttp://www.google.com/bot.htmlを見ると、Googlebotに関する情報が載ってます。

こんな情報が書いてある。とてもありがたい。

サービスのトップページなんて教えてもらっても役に立たない

それに比べて、URIは書いてあるけど、そのサービスのトップページのURIなことがあります。結構多い。

これが個人的に困る。私は別にそのサービスを利用したいわけじゃないんです。そのクローラについて知りたいんです。サービスのトップに案内されて、自分でいちいちそのサービスのクローラの情報へのリンクを探していくのが大変です。調べたいクローラは1つや2つじゃないですから。

実際に調べてみた

とりあえず、2007年3月17日に当サイトのRSS(muumoo.rdf)へのアクセスのうち、User-Agent:で送られてきたURIを抽出してみた。

サービス(やソフトウエアのサイト)のトップページ(と思われるページ)のURIが以下。

クローラの情報ページのURIが以下。

ちなみにURIなんて送ってこなかったクローラはあまりにも多数。

浅い階層までしか案内してくれないのは大変

最近はだいぶ減りましたが、以前はテレビ番組などでも「番組ホームページへアクセスしてね!」とか言いながら、テレビ局のサイトのトップページのURIしか教えてくれない事があった。この件もそれにちょっと似てる。

できるだけ浅い階層に案内して、他の情報もいっぱい読ませてやろうという狙いかも知れませんが、そんなのは「リンクはトップページに貼ってください」みたいなもんで、実際には不便なだけ。

まずは求めている深い階層まで案内してくれれば、他の関連情報も知りたいときだけそのページからリンクをたどって見に行けばいいし、そういうナビゲーションを含んだページを作ればいいと思います。単なるトップページのURIだなんて手抜きに見えてしまいます。

まあテレビ局なら「あーあやれやれ...」だけで済むかも知れませんが、例えばRSSリーダーのサービスがこれではちょっとね。人間が1分でも1秒でも有効に使えるために存在しているサービスなんだから、自身が提供するURIは、ユーザが求める情報へ直接ジャンプできた方がその設計思想に合うんじゃないかと。

もしかして無いの?

ここまで書いて思ったけど、もしかしてクローラの情報ページなんて存在してないのか。

Googlebotなどを見るとURIを載せてる。でも自身のサービスにはクローラの情報ページなど用意してない。だから、見よう見まねでサービスのトップページのURIを入れてみた、とかそんな感じか。わかるわかる。

この記事のURI:
http://muumoo.jp/news/2007/03/19/0useragenturi.html


Copyright© 2002-2007 muumoo.jp All Rights Reserved.