
検索・抽出・整理 アーカイブ

Kanada, Y., 3rd ACM Conference on Digital Libraries, pp. 108-117, 1998, (C) Copyright 1998 by ACM.

[ English page ]
[ 論文 PDF ファイル (ACM DL)] [ 論文 PDF ファイル ] [ 論文 PostScript ファイル ]

要約: A text search method, which is called an axis-specified search method, is proposed. This method is suitable for full-text searches of a large-scale text collection. In this method, in addition to specifying search strings, the user selects an axis from a predefined set. The system outputs excerpts and hyper-links that are ordered along the axis. The search strings express the specific subject of the search, and the axis specifies a general-purpose method of ordering results. Short sub-topics, which cannot be easily caught by statistical methods, are effectively gathered from the text collection. The user can get satisfactory results using a simple search string. Even if the number of results is very large, the user can easily survey them, because they are well structured. This method has been applied to an electronic encyclopedia and a newspaper database. In these applications, distributed descriptions that were related to each other could be gathered, and the user could discover their relationships from the results. For example, by specifying "semiconductor" for a search string and "year" for an axis, a table listing seven decades of semiconductor-related topics sorted by year was generated from newspaper issues published over a single year. By specifying "basin" for a search string and "area" (m2) for an axis, descriptions of the world's largest rivers were extracted from the encyclopedia and sorted according to their basin areas.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, 年代軸検索, 時間軸検索, 地域軸検索, 数量検索, 百科事典検索, 新聞記事検索, 新聞検索, 情報抽出, 情報組織化, 検索結果組織化, 組織化検索, 整列, 検索結果構造化, 構造化検索

金田 泰, 情報処理学会 情報学基礎研究会報告 98-FI-50-4, pp. 25-32, 1998, IPSJ により出版.

[ English page ]
[ 論文 PDF ファイル ] [ 論文 PostScript ファイル ]

要約: 軸づけ検索法という,文書集合からの抜粋情報を抽出し整理する機能をもつ 全文検索法を開発した. この方法では,ユーザが検索語を入力すると同時に 年代,地域,数量などの軸をメニューから選択する.すると,軸と検索語に 関連する部分の抜粋とその原文へのハイパーリンクがその軸にそって 整列出力される. この方法をつかえば,検索結果が膨大でもユーザ要求に あわせて整理されているので,ユーザはそれをサーベイすることができる. この方法を百科事典と新聞記事に応用した結果,分散された関連情報がうまく 収集でき,検索結果のあいだの関係を発見することができることがわかった. たとえば,検索文字列として 「流域」,軸として 「面積」 をあたえると, 百科事典から世界の川の記述を収集し流域面積でソートした結果がえられる.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, 年代軸検索, 時間軸検索, 地域軸検索, 数量軸検索, 百科事典検索, 新聞記事検索, 新聞検索, 情報抽出, 情報組織化, 検索結果組織化, 組織化検索, 整列, 検索結果構造化, 構造化検索

金田 泰, 未出版, 1998.

[ 論文 PDF ファイル ]
[ 論文ポストスクリプト・ファイル ]

要旨: 従来のテキスト検索は,通常,文書を単位としていた. しかし,ユーザがもとめるのは文書そのものではなく,膨大な文書集合から短時間で必要な 《情報》 を検索することである. そこで,文書中での検索情報の存在場所へのハイパーリンクやその周辺からの抜粋が表示でき,文書中の複数の話題をくべつして全文検索できる 「細粒度検索法」 を開発した. この報告では,テキストを原子というこまかい単位で検索する細粒度検索のモデルを記述し,従来の全文検索エンジンをそのまま,または一部だけ改造して実現できる 2 方法を説明・比較し,試作評価によって従来法よりユーザの負荷を低減できることをしめした.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 細粒度検索, パッセージ検索

金田 泰,山崎 幹夫,澤田 瑞穂,平野 義明,藤井 泰文, 情報処理学会第 58 回全国大会,1J-3, 1999, IPSJ により出版.

[ English page ]
[ 論文 PDF ファイル ] [ 論文 PostScript ファイル ]

要約: (なし)

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, テーマ年表検索, 年代軸検索, 時間軸検索, 百科事典検索

澤田 瑞穂,山崎 幹夫,藤井 泰文,西岡 真吾,高野 明彦,金田 泰, 情報処理学会第 58 回全国大会,1J-1, 1999, IPSJ により出版.

[ 論文 PDF ファイル (NII) ]

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, 地域軸検索, テーマ地名検索, 百科事典検索, ネットで百科, テーマ地図検索, 共著論文

金田 泰, 情報処理学会 情報学基礎研究会報告 99-FI-?, 1999, IPSJ により出版.

[ English page ]
[ 論文 PDF ファイル ] [ 論文 PostScript ファイル ]

要約: 「テーマ年表検索」 というテキスト情報検索法を開発した. この検索法において は,あらかじめ文書集合から年代参照を抽出して年代インデクスを生成し,ユーザ 入力があると年代インデクスと文単位の全文インデクスとから年代参照と入力され た語の出現場所をもとめて結果を年代順に組織化 (ソート) して表示する. 検索結 果は年代参照とそれをふくむ文,もとのテキストへのハイパーリンクをふくんでい る. この報告ではテーマ年表検索における年代情報抽出法について説明する. こ の方法を世界大百科事典に適用して評価した結果,大半のばあいに 99% 以上の抽出 精度がえられた. また,年月日や世紀など,いくつかの単位がまざった年代表記を 効率よくかつすくない誤差でデータ表現する方法について説明する.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, テーマ年表検索, 年代軸検索, 時間軸検索, 年代情報抽出, 時間情報抽出, 年代抽出, 情報組織化, 百科事典検索, 検索結果組織化, 組織化検索, 検索結果構造化, 構造化検索

金田 泰,山崎 幹夫,澤田 瑞穂,平野 義明,藤井 泰文, 情報処理学会第 59 回全国大会,3P-9, 1999, IPSJ により出版.

[ English page ]
[ 論文 PDF ファイル ] [ 論文 PostScript ファイル ]

要約: 会員制ネットワーク 「ネットで百科」 においては,地域を軸として百科事典 テキストの検索結果を整理して表示する 「テーマ地図検索」 のサービスを 実施している. この検索においては,テキストを文単位に検索し,その結果を 文中に出現する地名によってソートして表示する. また,その地名に関する 地図をひらくこともできる. ここではその機能と実現法の概要を説明する.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, 地域軸検索, テーマ地名検索, 百科事典検索, ネットで百科, テーマ地図検索

金田 泰, 情報処理学会 自然言語処理研究会報告 99-NL-132-2, 1999, IPSJ により出版.

[ English page ]
[ 論文 PDF ファイル ] [ 論文 PostScript ファイル ]

要約: 「テーマ地図検索」 というテキスト情報検索法を開発した. この検索法において は,ユーザは検索のテーマを自由語入力し,地名をふくむ文の抜粋とその文へのハ イパーリンクのソートされたリストをえることができる. このリストを使用して ユーザはその地名の位置をしめす地図をひらくこともできる. この検索のための 地名インデクスを生成するため,地名抽出法を開発した. この方法においては, 地名を抽出してデータベース中の地名とマッチングし同定する. 地名には数種類 のあいまいさがある. あいまいさは一種の文脈解析や他のいくつかの技法によっ て解決する. その結果,世界大百科事典においては 96% 以上の抽出精度を実現し た. 情報抽出のための規則は日本語の特徴に依存しているが,その戦略は他の言 語にも適用することができる.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, 地域軸検索, テーマ地図検索, テーマ地名検索, 地名情報抽出, 地名抽出, 百科事典検索, 情報組織化, 検索結果組織化, 組織化検索, 検索結果構造化, 構造化検索

Kanada, Y., International Symposium on Digital Library 1999, pp. 135-142, 1999.

[ English page ]
[ 論文 PDF ファイル ] [ 論文 PostScript ファイル ]

要約: A method of extracting year references for a textual information retrieval method called the thematic chronological-table search method is explained in this paper. This search method generates an index by extracting and collecting year references from a text collection. The resulting index and a full-text index are used for searching statements that contain year references and search words. The results are displayed in the form of a chronological table with hyperlinks to the original text. Seven forms of year or century references are extracted and normalized using string matching patterns. The extraction error rate is reduced by using both local and nonlocal contexts. If the lower two digits of a Gregorian year, which matches a form, occurs, it is normalized by supplementing the upper digits using the non-local context. This method has been applied to a Japanese encyclopedia. An evaluation shows the precision of extraction to be higher than 99% in most cases.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, テーマ年表検索, 年代軸検索, 時間軸検索, 百科事典検索, 年代情報抽出, 情報組織化, 検索結果組織化, 組織化検索, 整列, 検索結果構造化, 構造化検索

Kanada, Y., 18th International Conference on Information and Knowledge Management (CIKM'99), pp. 46-54, November 1999.

[ English page ]
[ 論文 PDF ファイル (ACM DL)] [ 論文 PDF ファイル ]

要約: A text retrieval method called the thematic geographical search method has been developed and applied to a Japanese encyclopedia called the World Encyclopedia. In this method, the user specifies a search theme using free words, then obtains a sorted list of excerpts and references to encyclopedia sentences that contain geographical names. Using this list, the user can open maps that indicate the location of the names. To generate an index of names for this searching, a method of geographical name extraction has been developed. In this method, geographical names are extracted, matched to names in a geographical name database, and identified. Geographical names, however, often have several types of ambiguities. Ambiguities are resolved using context analysis and several other techniques. As a result, the precision of extracted names is more than 96% on average. This method depends on features of the Japanese language, but the strategy and most of the techniques can be applied to texts in English or other languages.

研究テーマ紹介: 軸づけ検索 (テーマ検索)

キーワード: テキスト検索, 軸づけ検索, 軸付け検索, テーマ地図検索, テーマ地名検索, 地域軸検索, 百科事典検索, 地名情報抽出, 情報組織化, 検索結果組織化, 組織化検索, 整列, 検索結果構造化, 構造化検索