竹内 正浩 の 「日本の珍地名@Amazon.co.jp」 (文春新書) は,「人間をまどわす地名,コンピュータをまどわす地名,… ― 竹内 正浩 著, 「日本の珍地名」」 という項目に書いたように,区別しにくい地名,まぜこぜの地名,まぼろしの地名など,さまざまな珍地名について書いている. そのなかでもとくに地名のあいまいさに関する記述は,テキストからの地名抽出をこころみたことがある身にはとくに興味ぶかい. これから地名抽出や地名検索のプログラムを開発しようとしているひとにはとくに参考になる本だ.
「軸づけ検索」 の研究のなかで世界大百科事典から地名を抽出しようとしたとき,「三国山」 というようなどこにでもある地名にはなやまされた. しかし,郡名や市町村名ではそれほど苦労しなかったおぼえがある.
この本をよむとその理由がよくわかる. 市名と町名とのあいだには重複がゆるされるし,町名どうしもそうだが,市名どうしでは重複がおこらないように,かなりきびしく管理されていたからだ. それでもいくつかは区別困難な地名があり,抽出の際には要注意であることがわかる. たとえば府中市は東京と広島にあるという.
また,昭和および平成には市や町の合併がさかんにおこなわれ,しかも合併前の地名はつかわれない方向にあったことから,記述された内容の時期を判定して抽出のしかたをかえなければならないことになるとかんがえられる.