my notebook blog : data-mining

大量にある日本語ファイル名をスクリプトで処理するのに都合がよいファイル名に変換

大量のDTPデータの支給を受けたときにファイル名がスクリプトで扱いづらい日本語などの文字列になっている場合が まま ある。

これを 元の意味がわかるように日本語を英語に直すなどの手間をかけるのは面倒、 かといって、一括で大量にあるファイル名を連番などに書きかえてしまうとそれはそれでうれしくない。 そもそもファイル名がファイルの内容を示しているのはよいことだし、もし再度更新データの支給があったときには大変なことになる。

ChaSen(茶筌)などの、形態素解析ツールを使えば、日本語を よみ に変換できるのでこれを ICU4J で よみ→ローマ字に変換すればいいのは わかっていたが、普段 Groovy で仕事をしているので、 ChaSen などの 非Java言語で実装されたものは諸事情により遠慮したい。 そう思っていたら、最近 Kuromoji というツールを知りました。

Javaで実装されていて、辞書付きで maven central repository から取得できるので、Groovy や Gradle プロジェクトで使うにはとても便利。 あるプロジェクトで、実際に使ってみたらとても便利だったので、このエントリーでそのあたりの経験をシェアします。

continue reading……


Older Posts »