- 2008-01-05 (土) 17:02
- 日記
新年早々、昨年度の資源評価票全部に目を通すという苦行を行ってます。
正直、しんどいです。
上から順に目を通して、ようやくウマヅラハギまでたどり着いた。
あと少しだ、頑張れ、俺。
日本漁業の全体像を把握すべく、データの抽出作業をしているのですが、
実際に作業をしてみると、いろんな落とし穴があって、手間暇がかかる。
1) 表がビットマップだったりする
せっかくデータがあっても、再び打ち直しです。
2)図があるけど数値が無いものが多すぎ
図はあるからデータ自体はあるんだろうけど、表がないから数値がわからない。
最近の漁獲量しか掲載していないとか、年齢別の体重が無いだとか、いろいろです。
最低限、A BCの計算の追試ができるだけの情報は開示してもらいたいです。
3)PDFからコピペすると文字化けする
いくつかの評価票では、コピーすると文字化けします。
文字化けするファイルには共通の条件があって、
どうやらMac OSのQuartz PDF Contextで変換すると化けるみたい。
ファイルによって化け方が違うので、ファイルを変換する度に、
フォントを埋め込みながら、文字テーブルを作っているものと思われます。
ということは、この手の文字化けPDFから数値情報を抜き出すためには、
文字テーブルを理解した上で、変換スクリプトを毎回書かないといけない。
たとえば、マガレイ日本海の11ページの表から数字を別のソフトにコピペするとこんな風になります。
Acrobat画面 | テキストデータ | |
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 |
→ → → |
1231 1238 1237 1235 1236 123: 1239 1233 1232 1224 |
この左右を見比べて、どの数字がどの文字に対応するかを把握し、変換マクロをつくります。
HIDEMARUのマクロだとこんな感じ。
replaceall “1” , “1”;
replaceall “8” , “A”;
replaceall “7” , “B”;
replaceall “5” , “C”;
replaceall “6” , “5”;
replaceall “:” , “6”;
replaceall “9” , “7”;
replaceall “3” , “8”;
replaceall “2” , “9”;
replaceall “4” , “0”;
replaceall “A” , “2”;
replaceall “B” , “3”;
replaceall “C” , “4”;
これをいちいちやるのは面倒くさい。かといって、数字を打ち直すのもばからしい。
ということで、MACユーザーの皆様におかれましては、
QuartzではなくAcrobatをつかってPDFの変換をしていただけるとありがたいです。
これらの問題は、水産資源データベースがあれば、全て解決!!
PDFの評価票からデータを抽出するのは手間暇がかかる。
担当者によって、様式が違いすぎる。
何か調べ物をしようと思うとかなり面倒なので、
水産資源データベースのようなものを整備してもらえるとうれしいです。
具体的には、
- 漁獲量
- 努力量
- 漁獲係数(F)
- 資源量推定値
- 年齢別体重
- 年齢別成熟率
- 自然死亡係数
ぐらいのものを単位を共通にしたCSVファイルで公開してもらえると助かります。
- Newer: 我が国の資源評価の現状を知るために
- Older: 新年ご挨拶
Comments:0
Trackbacks:0
- Trackback URL for this entry
- http://katukawa.com/wp-trackback.php?p=479
- Listed below are links to weblogs that reference
- 新春、資源評価票 読破マラソン from 勝川俊雄公式サイト