[ トップページ ]
Web とインターネット:Web 検索とその応用, Web とインターネット:Wikipedia (ウィキペディア), 数学・計算・情報学・プログラミング:検索・抽出・組織化

Wikipedia 「軸づけ」 検索のインターネット上でのサービスをめざして

Wikipedia をネタにして 「軸づけ検索」 をひろくためせるようにしたいというおもいは,ずっとまえからあった. 「Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 などの項目に書いたように,ようやくそれにちかいことが実現しようとしている.

以前の 「軸づけ検索」 はディスク上の 2 種類のインデクスを使用する検索法だった. しかし,時代もかわって,世界大百科事典くらいのテキスト量 (200 MB 程度) ならもちろん,4 GB ほどある日本語 Wikipedia でもメモリ上で検索できるようになってきた (英語版だとまだきびしいだろう). 全文がメモリにのせられれば,逐次検索でも,しかるべき時間で検索できるはずだ. ということで,今回はまずはインデクスをつくらずに,もっとさぼった方法で検索をこころみた.

WikipediaSearchExample.jpg 結局,日本語 Wikipedia ではまったくインデクスなしだと時間がかかりすぎるので,最初のしぼりこみだけインデクスをつかって,あとは逐次検索でまにあわせることにした. 「軸づけ検索」 は細粒度の検索がうりものなので,以前は 「句」 単位 (実際は句読点ではさまれる範囲を単位とする) で検索した. しかし,今回は Wikipedia 検索の効率もかんがえて,段落単位の検索にした. しかし,最後の評価は 「句」 単位にしている.

とりあえずはローコストでサービスしたい. 10 GB のメモリを占有できるデータセンタのサーバを借りるとけっこうな金額がかかるので,まずは自宅においたサーバからはじめたいとかんがえている. これで完全なセキュリティはのぞめないとおもうが,できるだけセキュリティを確保するため,ホーム LAN とは VLAN をつかってセグメントをわけることにした. たまたま安価な VLAN スイッチを買うことができたので,ちょうどよい.

現在はインターネットとの接続が Yahoo BB の ADSL だ. このままではまともにサービスできないので光の契約が必要だが,とりあえず Windows 7 のファイアウォールとトリオモデム 3G の BB ルータの TCP ポート 80 にあなをあけ,Windows 7 上にインストールした XAMPP の設定をかえて,外部からアクセスできるようにしてみた. ただしい設定になかなかいきつかなかったが,ようやく設定して iPhone 3G で URL を指定してみると,たしかにアクセスできた. ただし,たいていのキーワードで大量の検索結果がえられるので,アクセスできることをたしかめたら,全部の結果をうけとるまえに切断してしまった.

こういうわけで,一応はインターネット経由で検索できたが,まだ公開するにはいくつかの問題を解決する必要がある. バグもつぶす必要があるが,なによりも検索結果の量をおさえるくふうが必要だ.

関連ページ (2009-12-13 追記):

キーワード: 軸づけ検索

トラックバック

このエントリーのトラックバックURL:
http://www.kanadas.com/mt/mt-tb.cgi/4268

コメントを投稿

Google でブログを検索:

メインページアーカイブページも見てください.
Creative Commons License
このブログはつぎのライセンスで保護されています. クリエイティブ・コモンズ・ライセンス.
Powered by
Movable Type