33年の時間を巻き戻し天文少年ならぬ天文壮年へ再入門。隊員1名、200mm、65mmの望遠鏡と双眼鏡で星空を楽しんでいます!
「くずし字」認識技術の国際コンペ
2019-07-16 Tue 00:00
1907122.jpg7月11日の「つちうらカルちゃんねる」では土浦市立博物館の夏休みイベントが紹介された。
 →第15回つちうらカルちゃんねる
 いろいろ盛りだくさんだが、その中の一つ、8月10日(土)に行われる小中学性対象の「博物館のお仕事体験」では、古文書にふれてみようという企画もある。子供に古文書の面白さをパズル感覚で伝えようというチャレンジャブルな試みだ。右画像はサンプルとして出ていた文書(実際に使うのはもっと易しい文字の様だ)。詳しくは下のリンクから。
 →土浦市立博物館:夏休みファミリーミュージアム

古文書を読める人を増やす先の長い地道な試みと感じた矢先、以下の様な記事を見つけた。

・AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発
 文中にも追記で訂正がされているが、翻訳ではなく翻刻ツールである。その他の記述に不正確な部分が散見されるので、以下の大元の記事から読んだ方がよさそうだ。

こちらが大元のニュース。
・国立情報学研究所:「くずし字」の認識に世界のAI研究者・技術者が挑戦 ―全世界的コンペティションをKaggleで7月から開催―
別窓 | 話題いろいろ | コメント:4
<<2019年前半の音楽マイブーム 浅草ゆめ子 | 霞ヶ浦天体観測隊 | 男物の帯の結び方から和装入門>>
この記事のコメント
老後の楽しみに古文書読みをしたいとは思っていますが、いつも迷っているところです。

 忘却との競争、AIの台頭という問題があることは容易に想像できます。若い時から始めても(仮に小学生の時に始めたとしても)、基本的には微妙な曲線の記憶ですので、何十年もギャップが空けば忘れてしまうでしょう。

 また、時間と根気の継続がいるので暇な老人向けであるものの、一文の意味が分かるのに小1時間かかることもあり、集中力が落ちてからでは厳しいです。

 AIで活字化だけしてもらって、たとえば「出情可被致候」と出れば、それの読み方を考え、意味を学ぶだけなら老後でも出来そうです。でも、これならギャップが空いても忘れないと思いますので、若い人が有利になってしまいます。
2019-07-16 Tue 07:09 | URL | S.U #MQFp2i1U[ 内容変更]
記事にある「1ページの置き換えにかかる時間はわずか2秒と高速」というのはよいと思いますが、まだ始まったばかりでAIの能力が低いのを前提にしても、「正確性はじつに85%」と、ここで「じつに」を使われる様では目標がすごく低そうで心配になってしまいました。そこから先の解釈へ進む時、95%正確でもまだ使い物にならないように感じます。AIの能力アップは目覚ましいので、目標を高く設定すれば98%越えも夢ではないと思うので、手付かずで放置されている文書の翻刻だけでも機械化できると、新しい展開は見込めそうです。
ただ、これを紹介していた学芸員さんが「私たち、こういう古文書を読むのが大好きなんです」と言っていましたが、その楽しみの先には、翻刻で正確に文字を読み取るだけでは得られない、書いた人や時代の雰囲気などに直接接する楽しみがありそうです。
2019-07-16 Tue 08:40 | URL | かすてん #MLEHLkZk[ 内容変更]
>「正確性はじつに85%」
 これが文字数ベースとすると、85%では解釈にはぜんぜんですね。

 200文字からなる契約書があるとして、10箇所も読めないようでは意味らしい意味は取れないので、95%ではまったく不足で、読めるというからには98%が最低ラインではないでしょうか。

 AIは、初めのうちは正解を教えてやらないといけませんが、正解がわかる人間が少ないので、まだ人間の養成は必要ではないでしょうか。

2019-07-16 Tue 12:22 | URL | S.U #MQFp2i1U[ 内容変更]
>正解がわかる人間が少ないので、まだ人間の養成は必要ではないでしょうか
 しばらくは高度に読める人間の需要はありそうですね。そして、翻刻から先、解釈についてはしばらくは人間の領域が残るでしょう。趣味の世界ならばいつまでも楽しめそうです。
2019-07-19 Fri 19:57 | URL | かすてん #MLEHLkZk[ 内容変更]
コメントの投稿
 

管理者だけに閲覧
 

| 霞ヶ浦天体観測隊 |

FC2カウンター