「英辞郎 第三版」のデータをPDIC1行テキスト形式に変換するためのPerlスクリプト
【お知らせ】PDIC が Cocoa で引ける DiDi Dictionary Viewer に、PDIC形式の辞書を各種テキスト形式に変換する機能が追加されました。今のところ(「英辞郎まとめて変換」以外は)UTF-8での出力ですが、宜しかったらご利用ください。フリーウェアです。 (2007/5/25)
(この記事の背景はこちらの■追記■を参照)
「英辞郎 第三版」(アルク刊)同梱の辞書データをPDICバイナリ形式からPDIC1行テキスト形式に変換するスクリプト*1を用意しました。パスをMac OS X用に書いていますが適宜書き換えれば*2他のOSでも行けると思います。
※英辞郎ビューアで使いたい場合は、さらにもうちょい変換が必要です →「英辞郎 第三版」を英辞郎ビューアで引く
「英辞郎 第三版」(アルク刊)の辞書データが必要です。
英辞郎のテキストデータが欲しいだけならEDPで最新データをTEXT形式で売ってます*3のでそちらもご検討ください。
http://www.eijiro.jp/
その場合このツールは(たぶん)不要です。
CPANに載せるつもりで*4作りかけたライブラリを同梱しています*5。ライブラリ自体は検索にも軽く対応しかかっています。ライセンスはPerlライセンスにするつもりですが、とりあえず二次配布は控えていただけると有難いです。
フリーウェアです。無保証です。
http://pdicviewer.naochan.com/pdic-conv-0.1.tar.gz からダウンロードして下さい。
■使い方
(1)「英辞郎 第三版」のインストーラで英辞郎データをインストール。 → デスクトップに PDICViewer1024EE というフォルダができます。
(2)このツールをどこか(ホームディレクトリ推奨)に展開し、convert-all.sh を走らせる。
% cd ~ % tar ztf pdic-conv-0.01.tar.gz % cd pdic-conv % ./convert-all.sh [eijiro98] [reiji98] [ryaku98] [waeiji98] %
(3)ちょっと時間がかかる*6ので休憩。コーヒーをキーボードにこぼさないように。
(4)~/pdic-conv/ に
eijiro98.txt, reiji98.txt, ryaku98.txt, waeiji98.txt
というファイルができるので、後は煮るなり焼くなり・・・お好きなように*7。
*1:拙作 PDIC Viewer にも同等の機能はついていますが
*2:Windows その他の OS で使う場合は、convert-all.sh の DICT_DIR を適宜書き換えて下さい。たぶん動きます。
*3:¥1,980
*5:Encode::BOCU-1 というライブラリ(拙作)と合わせて使えば Unicode (BOCU-1) なPDIC辞書も読めるはずですが
*6:うちのMacBook Proだと7〜8分
*7:当然のことですが、このツールを利用して変換して得られたPDIC1行テキスト形式の辞書データの使用は個人的な範囲にとどめて下さい。