私が修論で提案した 「プログラミング言語学」 について最近フランスからといあわせがあったことは 「プログラミング言語の言語学 ― 日本語の修論にいまフランスから照会が」 という項目に書きました. きのう,今度は国内からといあわせがあって,関連研究があるかどうかをしらべました. 上記の項目にも書いたようにプログラムを人間が書いた言語表現としてあつかう視点からの研究はすくないのですが,Masaru Ohba と Katsuhiko Gondow による識別子の構造解析に関する研究がみつかりました.
私の修士論文 [Kan 81] では 4.2 節 「識別子の分節」 において複数の要素からなる識別子があり,“towers of hanoi” のように空白でくぎられたり,空白がゆるされないとアンダーライン (“_”) やハイフン (“-”) がつかわれたり,“FileOfInteger” のように各要素の先頭に大文字がつかわれたりすることなどを指摘しています.
Ohba ら [Oh 05] はこういう識別子を構成する要素を “concept keyword” と呼んで,それを自動的にみつけようとしています. そのために,自然言語の分析でつかわれる TF/IDF 法をもとにして ckTF/IDF 法を開発しています. “kbd_” のような接頭辞を concept keyword とはみなさないのが ckTF/IDF 法の特徴です. これは,このような接頭辞がしばしばモジュール名をあらわしていて,識別子自体の意味とは関係がないからでしょう.
この論文の著者は人間の研究をしているという意識はなかったものとおもえます. しかし,これはあきらかに私が修論においてプログラミング言語の形態論と規定したものの一部になっています.
参考文献
- [Kan 81] 金田 泰, “プログラミング言語学をめざして”, 東京大学大学院工学系研究科情報工学専門課程 修士論文, 1981.
- [Ohb 05] Ohba, Masaru and Gondow, Katsuhiko, “Toward Mining "Concept Keywords" from Identifiers in Large Software Projects”, Int'l Workshop on Mining Software Repositories 2005, pp. 1—5, 2005.
関連ページ (2008-8-2 追記):