単なる私の願望です。別にどっかで標準化されてるからそうすべきだとか、そういうことではありません(ガイドラインくらいはあるかも知れないけど知りません)。
Googleの検索エンジンのための巡回クローラ(例えばGooglebot)とか、livedoor Reader等がRSSを取得するクローラとか、世の中いろんなクローラがあります(ボットとか巡回ロボットとかいろいろな呼び名がある)。
こういうクローラが、実際にデータを取得するとき、User-Agent:ヘッダで情報を送ってくれます。そしてその中にURIが書いてあることがあります。
例えばGooglebotは、
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
こんな感じ。で、このhttp://www.google.com/bot.htmlを見ると、Googlebotに関する情報が載ってます。
こんな情報が書いてある。とてもありがたい。
それに比べて、URIは書いてあるけど、そのサービスのトップページのURIなことがあります。結構多い。
これが個人的に困る。私は別にそのサービスを利用したいわけじゃないんです。そのクローラについて知りたいんです。サービスのトップに案内されて、自分でいちいちそのサービスのクローラの情報へのリンクを探していくのが大変です。調べたいクローラは1つや2つじゃないですから。
とりあえず、2007年3月17日に当サイトのRSS(muumoo.rdf)へのアクセスのうち、User-Agent:で送られてきたURIを抽出してみた。
サービス(やソフトウエアのサイト)のトップページ(と思われるページ)のURIが以下。
クローラの情報ページのURIが以下。
ちなみにURIなんて送ってこなかったクローラはあまりにも多数。
最近はだいぶ減りましたが、以前はテレビ番組などでも「番組ホームページへアクセスしてね!」とか言いながら、テレビ局のサイトのトップページのURIしか教えてくれない事があった。この件もそれにちょっと似てる。
できるだけ浅い階層に案内して、他の情報もいっぱい読ませてやろうという狙いかも知れませんが、そんなのは「リンクはトップページに貼ってください」みたいなもんで、実際には不便なだけ。
まずは求めている深い階層まで案内してくれれば、他の関連情報も知りたいときだけそのページからリンクをたどって見に行けばいいし、そういうナビゲーションを含んだページを作ればいいと思います。単なるトップページのURIだなんて手抜きに見えてしまいます。
まあテレビ局なら「あーあやれやれ...」だけで済むかも知れませんが、例えばRSSリーダーのサービスがこれではちょっとね。人間が1分でも1秒でも有効に使えるために存在しているサービスなんだから、自身が提供するURIは、ユーザが求める情報へ直接ジャンプできた方がその設計思想に合うんじゃないかと。
ここまで書いて思ったけど、もしかしてクローラの情報ページなんて存在してないのか。
Googlebotなどを見るとURIを載せてる。でも自身のサービスにはクローラの情報ページなど用意してない。だから、見よう見まねでサービスのトップページのURIを入れてみた、とかそんな感じか。わかるわかる。