xpdfを使ってPDFから日本語抽出をする話の2017年度版

TeXで原稿を書いている。文字数を数える機能がTeXにはないので(設計思想がそもそも違うと言うか)，PDFから日本語文字数をカウントする。

で，うろうろしていてこのサイトに行き着いた。

基本的にこれで問題解決なんだけど，HomebrewがOS X El Capitan以降は権限周りが少し変わったらしくて，インストールされる場所が違うみたい。

ともかく，brewを再インストールしてから，xpdfを入れる。

で，日本語対応するためには/usr/local/share/xpdf/japaneseに日本語対応ファイルを入れるんだけど，pdfが/usr/local/Cellar/xpdf/に入っちゃっているので，その辺を読み直さないといけない。

xpdfrcも次のように書いたらうまくいった。

textEncoding     UTF-8


#----- begin Japanese support package (2011-sep-02)
cidToUnicode    Adobe-Japan1    /usr/local/Cellar/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP /usr/local/Cellar/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      /usr/local/Cellar/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   /usr/local/Cellar/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    /usr/local/Cellar/xpdf/japanese/CMap
toUnicodeDir            /usr/local/Cellar/xpdf/japanese/CMap
#fontFileCC    Adobe-Japan1    /usr/..../kochi-mincho.ttf
#----- end Japanese support package

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

共有: