33年の時間を巻き戻し天文少年ならぬ天文壮年へ再入門。隊員1名、200mm、65mmの望遠鏡と双眼鏡で星空を楽しんでいます!
スマホでくずし字読み取り
2021-09-05 Sun 00:00
2109022.jpg・みを(miwo) - AIくずし字認識アプリ
 古文書のくずし字解読はやってもやっても忘れていく。それも同じ字を忘れる。学生時代の英単語もそうだったので老人性の健忘だけでもないだろう。いや、若い頃から健忘だったともいえるか。しかし、忘れる暇がないくらい毎日読み続ければ身に付くのだろうが、分かっていてもなかなかできないのが人の性。

 国内には整理を待っている古文書が想像を絶するほどあると言われるが、読む能力のある人は限られているし、そのいう人も古文書を読んでばかりしてもいられない。OCR技術も進んできたので当然機械読み取りに期待がいく。これまでにも以下の様な記事を紹介したことがある。
 →くずし字を読み取るOCRの一方で(2015/07/17)
 →古文書解読スピードアップ?(2016/04/05)
 →「くずし字」認識技術の国際コンペ(2019/07/16)
 →自動翻刻までは間も無くかもしれない(2019/12/11)

 最近、ROIS-DS人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)が、「みを(miwo) - AIくずし字認識アプリ」を公開していた。使用は無料なのでさっそく使ってみた。感想としては、きれいなくずし字はけっこう読めるのだが、地元の村方文書の名主さんの文字はどうも個性的過ぎるらしくほとんど読めていない印象だ。AIの学習能力を活性化する方法はまだ確認していないが、それができる様になれば、教え込ませることでその地域や個人の文字認識能力を高めることができるのではないだろうか。

 読む能力のある人というのは、文字認識能力+内容に関する歴史・文化・人間関係などの広大な知識を身につけている人ということで、AIアプリがそこまで到達するのはあとどのくらいの時間が必要なのだろうか。
別窓 | 城郭・郷土史 | コメント:2
<<1本より下は何本? | 霞ヶ浦天体観測隊 | 曇り空を撮りに行ったら雨だった>>
この記事のコメント
AIは文脈や確率的な解析までしているのでしょうか。
 私が古文書を読んでも、例えば、さっと読めるのは6割くらいの文字で、あとは前後関係から2割くらいな何とか推測できます。でも、8割読めても残りの2割が読めないので、結局意味が分かりません。AIが文脈や確率的な解析まですれば、全部読めるということはありませんでしょうか。

 名主山さんが地方文書で書く分野は限られているので、過去の類例を知っていたら、個性的過ぎる文字でも読めると思います。
2021-09-06 Mon 17:22 | URL | S.U #-[ 内容変更]
>AIが文脈や確率的な解析まですれば、全部読めるということはありませんでしょうか。
 現時点では、文脈まで解析しているようには感じられず、1文字の図形認識レベルをそう超えていないような印象です。癖字やローカルな情報まで解析の要素に加わっていけば、能力は指数関数的に上昇するのでしょうね。
2021-09-07 Tue 10:34 | URL | かすてん #MLEHLkZk[ 内容変更]
コメントの投稿
 

管理者だけに閲覧
 

| 霞ヶ浦天体観測隊 |

FC2カウンター