Home > 日記 > 新春、資源評価票 読破マラソン

新春、資源評価票 読破マラソン

  • 2008-01-05 (土) 17:02
  • 日記
[`evernote` not found]

新年早々、昨年度の資源評価票全部に目を通すという苦行を行ってます。
正直、しんどいです。
上から順に目を通して、ようやくウマヅラハギまでたどり着いた。
あと少しだ、頑張れ、俺。

日本漁業の全体像を把握すべく、データの抽出作業をしているのですが、
実際に作業をしてみると、いろんな落とし穴があって、手間暇がかかる。

1) 表がビットマップだったりする
せっかくデータがあっても、再び打ち直しです。

2)図があるけど数値が無いものが多すぎ
図はあるからデータ自体はあるんだろうけど、表がないから数値がわからない。
最近の漁獲量しか掲載していないとか、年齢別の体重が無いだとか、いろいろです。
最低限、A BCの計算の追試ができるだけの情報は開示してもらいたいです。

3)PDFからコピペすると文字化けする
いくつかの評価票では、コピーすると文字化けします。
文字化けするファイルには共通の条件があって、
どうやらMac OSのQuartz PDF Contextで変換すると化けるみたい。
Image0801052.png

ファイルによって化け方が違うので、ファイルを変換する度に、
フォントを埋め込みながら、文字テーブルを作っているものと思われます。
ということは、この手の文字化けPDFから数値情報を抜き出すためには、
文字テーブルを理解した上で、変換スクリプトを毎回書かないといけない。

たとえば、マガレイ日本海の11ページの表から数字を別のソフトにコピペするとこんな風になります。

Acrobat画面 テキストデータ
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990

1231
1238
1237
1235
1236
123:
1239
1233
1232
1224

この左右を見比べて、どの数字がどの文字に対応するかを把握し、変換マクロをつくります。
HIDEMARUのマクロだとこんな感じ。

 replaceall “1” , “1”;
 replaceall “8” , “A”;
 replaceall “7” , “B”;
 replaceall “5” , “C”;
 replaceall “6” , “5”;
 replaceall “:” , “6”;
 replaceall “9” , “7”;
 replaceall “3” , “8”;
 replaceall “2” , “9”;
 replaceall “4” , “0”;
 replaceall “A” , “2”;
 replaceall “B” , “3”;
 replaceall “C” , “4”;

これをいちいちやるのは面倒くさい。かといって、数字を打ち直すのもばからしい。
ということで、MACユーザーの皆様におかれましては、
QuartzではなくAcrobatをつかってPDFの変換をしていただけるとありがたいです。

これらの問題は、水産資源データベースがあれば、全て解決!!

PDFの評価票からデータを抽出するのは手間暇がかかる。
担当者によって、様式が違いすぎる。
何か調べ物をしようと思うとかなり面倒なので、
水産資源データベースのようなものを整備してもらえるとうれしいです。
具体的には、

  • 漁獲量
  • 努力量
  • 漁獲係数(F)
  • 資源量推定値
  • 年齢別体重
  • 年齢別成熟率
  • 自然死亡係数

ぐらいのものを単位を共通にしたCSVファイルで公開してもらえると助かります。

Comments:0

Comment Form
Remember personal info

Trackbacks:0

Trackback URL for this entry
http://katukawa.com/wp-trackback.php?p=479
Listed below are links to weblogs that reference
新春、資源評価票 読破マラソン from 勝川俊雄公式サイト

Home > 日記 > 新春、資源評価票 読破マラソン

Search
Feeds
Meta
Twitter
アクセス
  • オンライン: 5
  • 今日: 805(ユニーク: 390)
  • 昨日: 913
  • トータル: 9378835

from 18 Mar. 2009

Return to page top