「英辞郎 第三版」のデータをPDIC1行テキスト形式に変換するためのPerlスクリプト

【お知らせ】PDICCocoa で引ける DiDi Dictionary Viewer に、PDIC形式の辞書を各種テキスト形式に変換する機能が追加されました。今のところ(「英辞郎まとめて変換」以外は)UTF-8での出力ですが、宜しかったらご利用ください。フリーウェアです。 (2007/5/25)

(この記事の背景はこちらの■追記■を参照)

英辞郎 第三版」(アルク刊)同梱の辞書データをPDICバイナリ形式からPDIC1行テキスト形式に変換するスクリプト*1を用意しました。パスをMac OS X用に書いていますが適宜書き換えれば*2他のOSでも行けると思います。

英辞郎ビューアで使いたい場合は、さらにもうちょい変換が必要です →「英辞郎 第三版」を英辞郎ビューアで引く


英辞郎 第三版」(アルク刊)の辞書データが必要です。
英辞郎のテキストデータが欲しいだけならEDPで最新データをTEXT形式で売ってます*3のでそちらもご検討ください。
http://www.eijiro.jp/
その場合このツールは(たぶん)不要です。

CPANに載せるつもりで*4作りかけたライブラリを同梱しています*5。ライブラリ自体は検索にも軽く対応しかかっています。ライセンスはPerlライセンスにするつもりですが、とりあえず二次配布は控えていただけると有難いです。

フリーウェアです。無保証です。

http://pdicviewer.naochan.com/pdic-conv-0.1.tar.gz からダウンロードして下さい。

■使い方
(1)「英辞郎 第三版」のインストーラ英辞郎データをインストール。 → デスクトップに PDICViewer1024EE というフォルダができます。
(2)このツールをどこか(ホームディレクトリ推奨)に展開し、convert-all.sh を走らせる。

% cd ~
% tar ztf pdic-conv-0.01.tar.gz
% cd pdic-conv
% ./convert-all.sh
[eijiro98]
[reiji98]
[ryaku98]
[waeiji98]
%

(3)ちょっと時間がかかる*6ので休憩。コーヒーをキーボードにこぼさないように。
(4)~/pdic-conv/ に
    eijiro98.txt, reiji98.txt, ryaku98.txt, waeiji98.txt
   というファイルができるので、後は煮るなり焼くなり・・・お好きなように*7

*1:拙作 PDIC Viewer にも同等の機能はついていますが

*2:Windows その他の OS で使う場合は、convert-all.sh の DICT_DIR を適宜書き換えて下さい。たぶん動きます。

*3:¥1,980

*4:できればPlaggerプラグインとかも作るつもりで

*5:Encode::BOCU-1 というライブラリ(拙作)と合わせて使えば Unicode (BOCU-1) なPDIC辞書も読めるはずですが

*6:うちのMacBook Proだと7〜8分

*7:当然のことですが、このツールを利用して変換して得られたPDIC1行テキスト形式の辞書データの使用は個人的な範囲にとどめて下さい。