Wikipedia をネタにして 「軸づけ検索」 をひろくためせるようにしたいというおもいは,ずっとまえからあった. 「Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 などの項目に書いたように,ようやくそれにちかいことが実現しようとしている.
以前の 「軸づけ検索」 はディスク上の 2 種類のインデクスを使用する検索法だった. しかし,時代もかわって,世界大百科事典くらいのテキスト量 (200 MB 程度) ならもちろん,4 GB ほどある日本語 Wikipedia でもメモリ上で検索できるようになってきた (英語版だとまだきびしいだろう). 全文がメモリにのせられれば,逐次検索でも,しかるべき時間で検索できるはずだ. ということで,今回はまずはインデクスをつくらずに,もっとさぼった方法で検索をこころみた.
結局,日本語 Wikipedia ではまったくインデクスなしだと時間がかかりすぎるので,最初のしぼりこみだけインデクスをつかって,あとは逐次検索でまにあわせることにした. 「軸づけ検索」 は細粒度の検索がうりものなので,以前は 「句」 単位 (実際は句読点ではさまれる範囲を単位とする) で検索した. しかし,今回は Wikipedia 検索の効率もかんがえて,段落単位の検索にした. しかし,最後の評価は 「句」 単位にしている.
とりあえずはローコストでサービスしたい. 10 GB のメモリを占有できるデータセンタのサーバを借りるとけっこうな金額がかかるので,まずは自宅においたサーバからはじめたいとかんがえている. これで完全なセキュリティはのぞめないとおもうが,できるだけセキュリティを確保するため,ホーム LAN とは VLAN をつかってセグメントをわけることにした. たまたま安価な VLAN スイッチを買うことができたので,ちょうどよい.
現在はインターネットとの接続が Yahoo BB の ADSL だ. このままではまともにサービスできないので光の契約が必要だが,とりあえず Windows 7 のファイアウォールとトリオモデム 3G の BB ルータの TCP ポート 80 にあなをあけ,Windows 7 上にインストールした XAMPP の設定をかえて,外部からアクセスできるようにしてみた. ただしい設定になかなかいきつかなかったが,ようやく設定して iPhone 3G で URL を指定してみると,たしかにアクセスできた. ただし,たいていのキーワードで大量の検索結果がえられるので,アクセスできることをたしかめたら,全部の結果をうけとるまえに切断してしまった.
こういうわけで,一応はインターネット経由で検索できたが,まだ公開するにはいくつかの問題を解決する必要がある. バグもつぶす必要があるが,なによりも検索結果の量をおさえるくふうが必要だ.
関連ページ (2009-12-13 追記):