[N@N] -NetWalker@なるぱら-: 一味違う?あらゆるWeblogページを網羅、解析する「blogWatcher」

筆者:こうめい 2004年07月28日 | コメント(2件) | TrackBack(2件) | [Edit]

一味違う?あらゆるWeblogページを網羅、解析する「blogWatcher」

本日、Apacheのログの整理をしていたら、やたらとアクセスしてくるエンジンがあったので気になって調べてみたところ、なにやら新しい検索システムのようです。ざっと目を通しただけでですが、PingサーバーやRSSなどを利用せずに、htmlを直接収集し解析するシステムらしいです。なのでWeblogブーム以前に作成されたページも「Weblogページ風」ならば対象となるわけで、ニュース系サイトや日記ページなども古いデータが掘り起こされる可能性もあるようです。
たまたま開発日誌にWeblogもスタートしたところ。機能を見ただけでも「お?」という感じでしたので紹介。

blogWatcherの特徴
blogの収集、更新の監視を行い、検索が可能

・RSSなどの情報を利用せず、htmlを直接解析することで、日付と文章の組(entry)を収集することが可能
blogWatcherでは、他のblog収集サービスと異なり、RSSのようなメタデータを必要としません。そのため、blogツールと呼ばれるもので書かれたblogだけではなく、数年前に書かれたようなページでも収集することが可能となり、膨大な量のblogを検索対象とすることができます。
・クローリングを行い、blogを選択的に収集
どのようなwebページであっても、そのページが日記であるかどうかを判断することが出来るため、システムはweb上のクロールを行うことによってblogを探し出すことが出来ます。
blogと判断したページは定期的に監視\
・システムが発見したblogは、その更新のされ方に応じて定期的に更新をチェックします。そのため、システムは常に最新の情報を得ることが可能となります。
・任意の日付範囲やキーワードを用いて検索が可能
blogには書かれた日付の情報があります。そのため通常の検索エンジンと同様の「キーワード検索」だけではなく「日付指定検索」を行うことが可能です。また、検索システムにはGETAを利用しているため、検索結果として表示されるblogに類似するblogを検索する、といったことも可能です。

ということで、検索エンジンがWeblog(と認識する)ページ専用に作られた感じでしょうか?
見た感じ、すでに稼動している各検索サービスの部分部分を持ってきた感じがします。
興味を持ったのは、キーワードや日付の解析で特定の時期によく話題になったネタや、特定のネタがいつ頃から話題になり始めたかを解析することができるということです。となると「時代(流行)の先端を走るサイトはどこだ!?」なんて分析もできるわけですね。
特定の製品に対する言及解析もできるということで、これもまたユーザーにとって貴重な情報入手手段になりそうです。

あとは実稼動し始めて、どれだけの実際にカバーできて、アクセスに対してキャパがあるかですね。
人気が出れば当然アクセスが集中するので、便利だけなかなか重くて使えない...なんてことになっては残念です。また自分としては結構内容に興味を持っているので、実際に中身を見て「えー」ということにならないことを祈ります。
でも「平成15年度未踏ソフトウェア創造事業天才プログラマー／スーパークリエータに認定されました」ということですので、その辺は「余計なお世話だ」と言われそうです。

(説明間違ってたらゴメンナサイ)

紹介サイト:blogWatcher
アナウンスはこちら:blogWatcher開発日誌

前後の記事も読んでってくださいな
■Re: 更新ファイルです。　の前にあなたが価格更新した方が...
■プロ野球選手会がネット署名運動開始