33年の時間を巻き戻し天文少年ならぬ天文壮年へ再入門。隊員1名、200mm、65mmの望遠鏡と双眼鏡で星空を楽しんでいます!
くずし字を読み取るOCRの一方で
2015-07-17 Fri 00:00
凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~
 昨年に引き続き今年も地元文化財センターが開講する「古文書講座」に参加している。そんな折、TOPPANがすごいOCR技術を発表した。くずし字を80%以上認識できるらしい。一生懸命古文書の読み方を勉強して読めるようになったころには、機械であっという間に書き下し文が作れる時代になっていそうだ。

上の記事の中のロバート・キャンベル氏のコメントは考えさせられる。「気づきにくいことですが、欧米諸国とちがって、日本人は自らの歴史風土を自在に行き来する能力を失ったのです。それ自体、世界史のなかでも特記すべきことです」わずか150年前の文字をほとんどの国民が読めなくなっている国など他に無いということだろう。実はくずし字どころか、文字(漢字)そのものが読めなくなり、日本語を理解できなくなっていること、つまり潜在的文盲の増加こそが真の問題なのだと思う。
別窓 | 雑感 | コメント:7
<<裸眼で3Dビデオを見られる技術 | 霞ヶ浦天体観測隊 | 雷雨の後の夕焼け>>
この記事のコメント
>くずし字が80%以上の精度
これはすばらしい技術ですね。村々の古い文書が誰にでも読めるようになるとすばらしいです。
 でも、人間の能力に追いつくにはまだまだかもしれませんよ。

 ど素人の私の経験ですが、80%の精度なら素人でも1~2ヵ月で読めるようになるのではないでしょうか。しかし、古文書は80%読めてもまったく役に立ちません。95%でもだめです。なぜだかわかりませんが、古文書は情報密度が高いらしく、わずかな欠字で本質的に意味が取りづらくなるように思います。歴史に造詣の深い人なら意をくんで補えるのかも知れませんが、かすてんさんはどのようにお考えになりますでしょうか。

 ですから、99%以上の精度で読めないと少なくとも研究には使えないと思います。人間がこれを習得するのは一挙に難しくなって、何年かかかることになるでしょう。90%くらいで挫折する人もいるかもしれません(←私?)。たぶん、OCRソフトさんもまだまだかかると思います。
2015-07-17 Fri 07:29 | URL | S.U #MQFp2i1U[ 内容変更]
>99%以上の精度で読めないと少なくとも研究には使えないと思います。
 私もそう思います。私もただいま古文書講座で勉強中ですが、慣れてくるとかなりの部分は読めるのですが、肝心の数文字が読めません。そこを読むためには文字パターン以外の広範な知識のバックボーンが必要になってくるからだと思います。それこそが、専門家、プロのフィールドではないでしょうか。しかし、現在は誰でも読める部分も含めて全文を専門家が最初から読まなくてはなりません。その部分を少しでも自動化・高速化できることがこのようなOCR技術の最初の貢献だと思います。
 全国の資料館の収蔵庫やご家庭の蔵の中には、読んでもらえる機会を待っている膨大な史料が眠っているでしょうからね。
2015-07-17 Fri 08:14 | URL | かすてん #MLEHLkZk[ 内容変更]
>肝心の数文字が読めません
えーっ、数字なんですか。漢数字文字は元来20~30しかありませんのにね。でも、確かに数字は個人のくせで崩しが激しいので、読みにくいというのは想像できます。数字が怖いのは、一つ読めないだけで致命傷になって研究の結論が出なくなる危険性のあることですね。
 郵便局のバーコード変換ソフトみたいなものができればいいですが。

>その部分を少しでも自動化・高速化できることがこのような

 それでは当面は村々に専門家がいてもらわないと困ることになりますが、その負担を減らせることは大きい、ということですね。
 かすてんさんが生きておられるうちは、まだ、専門家として重宝されると期待できるのではないでしょうか。私も挫折はしましたが、放棄したわけではないので、また99%を目指しましょうか。
 
 ちなみに、仮に90%の精度で読めたとしても、古文書の解釈はまったくできませんので、「自分は古文書が読める」という気はまったくしません。「字は90%読めるのに古文書は読めない」というのが悲しいかな挫折の原因のように思います。
2015-07-17 Fri 08:40 | URL | S.U #MQFp2i1U[ 内容変更]
>数字なんですか。
 数字じゃないですよ!「数個の文字」。

>当面は村々に専門家がいてもらわないと困る
 かつては村々の年配の方の中にはくずし字に慣れている方もいらっしゃいまして、そういうみなさんが各地で市町村史の編纂に尽力されました。しかし、その世代もどんどんと亡くなられて、今はロバート・キャンベル氏の指摘通りの状況だと思います。
 私が参加している古文書講座担当の学芸員さんも、古文書の読める先輩世代がいなくなってしまい、ご自分を含めて専門家でなくても地元の次の世代の人たちに少しでも読めるようになってもらわなくては将来が心配、という動機で企画されたそうです。

>生きておられるうちは、まだ、専門家として重宝されると期待できるのではないでしょうか。
 いまはまだ読む練習を始めたばかりなのでこの先も続ければという前提ではありますが、専門家レベルは無理だとしても、地元で古文書を少し読める年寄り、くらいにはなれるかもしれません。

>「字は90%読めるのに古文書は読めない」というのが悲しいかな挫折の原因のように思います。
 内容まで理解するのは難しいですね。そこが肝心なのですが。

 茨城町に住む友達の家は旧家なので古文書はじめ近世以来のものがけっこう残っているみたいです。私よりも若い方ですが、かつて、彼が20代だったのだろうと想像しますが、『旭村史』などの編纂にも参加されたほど郷土史にくわしい人です。数年前に会社勤めを早期引退し農業をしながら郷土史研究に専念しています。
 土浦藩と笠間藩が鹿島灘海岸線の海防をやっていたことは『鉾田町史』に書かれているのですが、他に何か史料は無いかなと聞くと、即座に、自分の家の前の街道を行き来することが書かれた文書がありますよと、所在を示してくれました。まさに生き字引です。
 彼の場合はその土地で生まれ育ち血の中に流れるものもあって、まさにそういうものがバックボーンとなる強さがあります。特に近代のはじめから家業であったらしい郵便の地方史とか墓石に興味があるようです。ブログをご紹介します。
http://blog.goo.ne.jp/yebiyan-seihyoe
2015-07-17 Fri 10:37 | URL | かすてん #MLEHLkZk[ 内容変更]
> 数字じゃないですよ!「数個の文字」。
 そうでしたか。 たった数個でも困ることはありますね。

 古文書は意外と身近にあるものですね。私にも故郷のほうでは身近な古文書があります。市史では活字化されているので助かります。また、興味深そうなのをネットで探して読んだり、オークションで買ったりすることもできますね。いちいち気合いを入れて、紙に写してがんばらないといけないので、画面ですらすらとはいかず、根性がいります。
2015-07-17 Fri 17:58 | URL | S.U #MQFp2i1U[ 内容変更]
>古文書は意外と身近にあるものですね。
 私はそういうものを持っていない家庭に育ったので今の土地へ来てからいろいろと新しい経験をしました。この辺の旧家の方は、江戸時代はつい最近の感じなのではないでしょうか。中世・戦国時代も伝承や文書を通じてけっこう身近に感じているかもしれません。
 政治や風俗などに関わる内容を含んだ文書は興味を持つ人も多いと思いますが、個人のご家庭の事情に関するものは、端の人は興味を持たないという以前に、外に出したくないというご希望もあって、ご家族やご親戚の中に読んでみようという方が現れない限り日の目を見る機会はほとんどないのではないでしょうか。そうこうしているうちに、文書に一銭の値打ちも見出さない代の人がゴミ回収へ出してしまうのです。そういう危険を回避する意味でも、古文書に興味を持ってもらうきっかけとしての講座は意義があると思います。実際、地元の旧家のご当主も何人か参加されています。
2015-07-17 Fri 23:51 | URL | かすてん #MLEHLkZk[ 内容変更]
>そういうものを持っていない家庭
 家庭的にはそういう家が多いでしょうね。私の親の家も私が3代目なので古い物はたぶんないです。

 でも、天皇家だろうが庶民の家だろうが、人には必ずご先祖様というものがあって、もし、それを明治の初年までたどれられれば、大半の場合は、名主、町役人、旦那寺、氏子、奉行所、藩籍といったタームで当時の共同体の記録とつながっていたはずですよね。ただ、明治維新の時の不連続が結構大きく、それ以前と縁の切れてしまった家が多い、しかし、それを乗り越えて江戸時代まで来れば、有力の家はもちろん、一般庶民にも日常生活と古文書がつながっていた社会があった、と、よくわからないなりにこういうふうに考えていますが、それで正しいでしょうか。

 いっぽう、古文書が家に残っている旧家の方は、ご先祖様の記録が載っているために取り扱いに神妙になってしまうという事情がどうしても年配の方にあると思います。しかし、古文書が残っているというのは、「運」とご先祖様の「物持ち」が両方良かったわけで(いかに名家といえども、維新後の戦争で断絶したり、空襲で焼かれたりすると残らないわけですから)、ここは若い子孫に期待して、捨てずに引き継いでいただきたいものです。

 まずは、若いうちから、図書館や資料館で簡単に見られる郷土史の史料などを見て、古文を勉強して、古文書解読に入っていただきたいと思います。まずは、活字で古文が読めないとダメですよね。でも、高校で習う源氏物語や中国の漢文よりはずっと簡単だと思います。私くらいのトシになると、パターン認識や推理力は落ちていないと思いますが、微妙に違う形の文字の見分け方を記憶する力が落ちていて、字引がないとダメです。

 それから、古文書ではなく会社の凸版印刷についてですが、先日、江戸川橋と飯田橋の間にある印刷博物館へ行ってきました。バチカン図書館展をやっていましたが、常設展もこじんまりした内容ながらもけっこう面白かったです。
2015-07-18 Sat 07:29 | URL | S.U #MQFp2i1U[ 内容変更]
コメントの投稿
 

管理者だけに閲覧
 

| 霞ヶ浦天体観測隊 |

FC2カウンター