ネット上には毎日のように情報収集を行うウェブクローラが忙しく動き回っている。
グーグル、ヤフー、MSNなどの検索サイトが独自のアルゴリズムをつくりだし、検索結果順位を決めるために更新頻度やアクセス数、キーワード適合性などを調査している。
アクセスドメインをチェックしていると、「u-tokyo.ac.jp」に目がとまったことはないだろうか。
このドメインは東京大学であるが、東大からアクセスしてきたのかと思う程度かもしれない。
頻繁にこのドメインが訪問してくる場合、その多くが東大のウェブクローラ「Steeler」が訪問してきたことを意味しています。
「Steeler」は東京大学の喜連川(きつれがわ)研究室で開発されて運用しています。
目的はクローラが収集してきた文書からサイバー空間の性質分析や理解を行うためのようです。
このクローラ訪問によってサイトに不具合が生じることはほとんどありませんが、もし不具合の原因になっている場合や、訪問拒否したい場合はこちらで対処法が公開されています。
喜連川研究室では、「欲しい情報を膨大なデータ空間から効率よく取り出す検索技術」、「膨大なデータから興味深いルールを抽出するデータマイニング技術」、「膨大なデータをわかりやすく可視化するデータ・ビジュアライゼーション」、「膨大なデータを管理するための高度データベース/ストレージ管理機構」の研究を行っているそうです。
膨大なデータをどのように取り扱うかという課題にチャレンジしているわけですから、ネットでの文章収集はそのまま研究材料となるのでしょう。
当サイトにも「Steeler」が連日訪問してきます。
研究材料のひとつとしてどのように役立っているのかを考えると「Steeler」の訪問が待ち遠しくなってきます。
東大クローラ「Steeler」の訪問を皆さんも歓迎して研究に役立ててもらいましょう。
|