軸づけ検索 (テーマ検索) は私が 1999 年ころまでやっていた研究テーマである. もう時期的にはふるくなってしまったともいえるが,その成果はいまも価値があるとかんがえている. しかし,この検索法のことは十分ひろまっていない. そこで,ここではその例のひとつとして,「軸づけ検索法 -- 文書からの抜粋を抽出・整理して出力する全文検索法」 という論文にも書いた流域面積の検索について,あらためて書いてみたい.
世界大百科事典のなかには,もちろん世界の川の情報もふくまれている. そこには川の流域面積に関する記述もある. しかし,通常の検索法ではそれを一覧することはできない.
軸づけ検索法のひとつとして,指定したことばのちかくにあらわれる m2,km2 などの単位がついた面積を検索して,面積の順にならべる検索法がある. この方法をつかって 「流域」 ということばを検索すれば,流域面積を降順にならべることができる.
下図がそれを世界大百科事典の軸づけ検索プロトタイプをつかって実行した結果である. ここではなぜか 2 番めには流域面積 4 位のラ・プラタ川が登場する (数値がちがっているため (?)) が,それをのぞけば流域面積がおおきい順に検索結果が整列されている.
世界大百科事典の軸づけ検索は 「ネットで百科」 という製品にとりいれられたが,この検索法は製品にはとりいれられなかった. もはや世界大百科事典のうえのこのような検索をひろくつかってもらう機会はないとおもうが,Wikipedia など,べつのテキストのうえで,もう一度ためしてみたいとおもっている.
追記: このプロトタイプは流域面積の検索のためにチューニングされているわけではもちろんない. ただ,この検索例においては 「流域」 という検索語をつかうことがキーになっている. 「流域面積」 ということばをつかうと,もれる項目がでてくる. 「流域面積」 の検索なのだが,検索語としては 「流域」 をつかい,「面積」 は軸として (単位として面積の単位を選択することによって) 表現することがミソである. そういう意味では,いささか技巧が必要なのはたしかだが,それは,なれの問題だろう.
[注意] CD-ROM 版および Web 版の世界大百科事典は日立デジタル平凡社において開発されましたが,現在,そのコンテンツに関する権利は日立システムアンドサービスに属します.