本日、Apacheのログの整理をしていたら、やたらとアクセスしてくるエンジンがあったので気になって調べてみたところ、なにやら新しい検索システムのようです。ざっと目を通しただけでですが、PingサーバーやRSSなどを利用せずに、htmlを直接収集し解析するシステムらしいです。なのでWeblogブーム以前に作成されたページも「Weblogページ風」ならば対象となるわけで、ニュース系サイトや日記ページなども古いデータが掘り起こされる可能性もあるようです。
たまたま開発日誌にWeblogもスタートしたところ。機能を見ただけでも「お?」という感じでしたので紹介。
blogWatcherの特徴
blogの収集、更新の監視を行い、検索が可能
・RSSなどの情報を利用せず、htmlを直接解析することで、日付と文章の組(entry)を収集することが可能
blogWatcherでは、他のblog収集サービスと異なり、RSSのようなメタデータを必要としません。そのため、blogツールと呼ばれるもので書かれたblogだけではなく、数年前に書かれたようなページでも収集することが可能となり、膨大な量のblogを検索対象とすることができます。
・クローリングを行い、blogを選択的に収集
どのようなwebページであっても、そのページが日記であるかどうかを判断することが出来るため、システムはweb上のクロールを行うことによってblogを探し出すことが出来ます。
blogと判断したページは定期的に監視\
・システムが発見したblogは、その更新のされ方に応じて定期的に更新をチェックします。そのため、システムは常に最新の情報を得ることが可能となります。
・任意の日付範囲やキーワードを用いて検索が可能
blogには書かれた日付の情報があります。そのため通常の検索エンジンと同様の「キーワード検索」だけではなく「日付指定検索」を行うことが可能です。 また、検索システムにはGETAを利用しているため、検索結果として表示されるblogに類似するblogを検索する、といったことも可能です。
あとは実稼動し始めて、どれだけの実際にカバーできて、アクセスに対してキャパがあるかですね。
人気が出れば当然アクセスが集中するので、便利だけなかなか重くて使えない...なんてことになっては残念です。また自分としては結構内容に興味を持っているので、実際に中身を見て「えー」ということにならないことを祈ります。
でも「平成15年度未踏ソフトウェア創造事業 天才プログラマー/スーパークリエータ に認定されました」ということですので、その辺は「余計なお世話だ」と言われそうです。
(説明間違ってたらゴメンナサイ)
紹介サイト:blogWatcher
アナウンスはこちら:blogWatcher開発日誌