Caltech 歩行者データセットの Python へのとりこみ
コンピュータ・ビジョンのベンチマークとして最近では Caltech の歩行者データセットがよくつかわれる. しかし,このデータセットは特殊なフォーマットになっていて,あつかいにくい. Matlab があればある程度容易にあつかえるが,深層学習などのために Python にとりこもうとすると,やっかいだ. ようやく変換ツールをととのえたので,ここで公開する.
コンピュータ・ビジョンのベンチマークとして最近では Caltech の歩行者データセットがよくつかわれる. しかし,このデータセットは特殊なフォーマットになっていて,あつかいにくい. Matlab があればある程度容易にあつかえるが,深層学習などのために Python にとりこもうとすると,やっかいだ. ようやく変換ツールをととのえたので,ここで公開する.
GPU のメモリは貴重だ. 12 GB のメモリをもつ NVIDIA TITAN X は高価だが,12 GB ではまだたりないことがある. 下位機種ではなおさらだ. 本来 1 バイトですむ値なら 8 bit 整数のかたちで GPU メモリにつめこめばそれを有効につかうことができるので,そのための方法を記述する.
Caltech 歩行者データセットは特殊なフォーマットになっている. これを通常のビデオ・ファイル に変換するプログラムをのせる. ファイル名につく拡張子は .avi となっているが,.mpg にすることもできる.