ネットサーフ日誌

平成7年11月30日木曜日

  • 晴れ

  • インターネット検索サービスを少し調べて見た。スパイダーやらインデクサーやらを使ってインターネット上のサーバを自動的に調べてデータを集めていくことが出来るという話し。リンクをたどっていくことも出来るらしい。つまり情報発信者がアドレスを通知しなくても向こうから勝手に来てデータを集めていくことが出来るらしい。

    それで、こないだ通知した覚えのないExciteでuedaを検索したら、Profileまで出てきたわけだ。と思ってもう一度検索したら今度は何も出てこない!月に一度アップデートするというから、今回のアップデートでは基準が変わって落とされたのだろうか。その部分のデータベースがアクセスできなくなっているのかも。誰かが私の知らない間に削除のリクエストを出していた可能性もあるけど。。。

    Lycosで検索したら通知してあったものだけが出てきた。ロボットを使っていると説明しているが、何をどこまでデーターベースに取り込むかいろいろ基準が設定されているのだろうか、それともそこまで手が回らないということか。

    Excitは検索したときに出てくるsummaryも自動的に作成すると説明しているが、こないだ見たときにはHometown Connectionのsummaryにはweatherの部分しか入っていなかった。これも不思議といえば不思議。Lycosはsummaryにwebページの書き出し部分を使うと説明している。webページのデザインにはこういうことも考慮に入れておく必要がある。

    勝手にサーバを探してデータを集めて歩くということは、中身が英語でないものも拾っているかもしれない。インデクサーで内容をチェックすることも可能なようだけど、英語の構文解析をやっていたとしても、それにパスしないからといって除外しているとは限らない。それに登録のリクエストがあったものは基準と関係なくデータベースに入れているかもしれない。と思って、キーワード「上田」を入れて検索したら、それらしいものが出てきた。検索結果に表示されるキーワードは記号に変わり、タイトルやsummaryも記号化や、文字化けが混合した物になっていたが読める部分もある。いくつか開いて見たらちゃんとキーワードが入っている。それにしても、2バイト文字のファイルに英語用に作ってあるインデクサーを適用したらどんなデータが抽出されるのだろうか。単語を区切るスペースがないから段落1つが1つの単語として取り出されているなんてことになっているのかも。

    日本語の検索サービスもたくさん見つかった。早大のも東大のも日本のサーバしか対象にしていないと説明しているが、検索結果を見ると早大のはアメリカのサーバのものも含まれている。スパイダーでリンクをたどっているのであろう。どれも全文検索とあるが、検索結果を見ると早大のはタイトルにキーワードが含まれているものしか出てこないように見える。

    英和・和英の辞書も日本語検索エンジンの標準装備らしい。キーワードや検索結果の表示内容を自動的に翻訳させることが出来る。

    いろいろやって見たが全文検索というのが良く分からない。そのページにあると分かっている意味のある文字列を検索しても引っ掛からないことがよくあるから、意味のある語句を全てインデックスしているのではないことは明らか。データベースにどんなデータがどれだけ抽出されて入るかはインデクサーの設定によるのであろう。これもwebページのデザインには重要な情報だから調べてみよう。


  • ホームページへ|日誌インデックスへ|お便りは eueda@hiwaay.net上田悦子