一昨年の陰の努力がなんと書籍『ベイズ統計学』に!2018年NHK大河は西郷どん

2018年01月04日

古典のくずし字をAIで判読する時代

20171211_01_03

昨年、東京農工大学関連のニュースで、日経に下記のような記事が掲載された。

東京農工大学、古文書の崩し書き AI、精度よく認識

 ■東京農工大学 中川正樹教授らは、古文書の崩し書きのひらがなを精度よく認識する人工知能(AI)を開発した。大量のデータから特徴を見つける深層学習を使い、3文字連なる場合でも88%の精度で判読する。古文書研究が進めやすくなるほか、記述式答案の採点の負担も減らすのに役立つとみている。

(2017年12月18日付)

これで、大学で国文学を専攻した私が、
感慨深く思ったのは、
「文系(文学)の研究領域だと思っていたことも、
全く異なる専門領域の、AI、データサイエンスなどの分野の研究から、
新しい発見が生まれる時代になっている。
文学系は、理系の融合なんて、別世界だと思っていた研究者もいたかもしれないが、
その常識も覆されている」ということ。

20日ほど経ったいま、この記事の元になった、プレスリリースは、
古典籍のくずし字をAIが認識
(東京農工大学)。

担当は留学生2名。この二人が、
電子情報通信学会 パターン認識・メディア理解研究会(PRMU)が主催する
「第21回アルゴリズムコンテスト」に最優勝したというという輝かしい結果の
発表だったのだ。



もう一歩、突っ込んでみて、このコンテストの元になっている、古典籍、
くずし字は、「人文学オープンデータ共同利用センター」から提供されている
ことがわかる。

さてこの古典籍のデータは、結構公開モードのようだ。
(昔は、古典の辞典と首っ引きで、用例カードを作るところから
研究が始まったものだが、、)
「日本古典籍データセット」を大幅に拡充/日本文化を楽しめる料理本や伊勢物語、「武鑑」、絵本を多数公開
(国立情報学研究所 プレスリリース 2017/12/26)


そして、そのデータセットは、「人文学オープンデータ共同利用センター」にある。

日本古典籍データセット(人文学オープンデータ共同利用センター)

紹介文として、ご丁寧に、
現在、『源氏物語』『徒然草』『伊勢物語』など、一度は耳にしたことがある日本古典の名作を一挙に公開しています。これは、小・中・高校の教育用教材や、年賀状の作成などにも自由に活用できます。特に注目すべきデータを見てみましょう。

とまで、書いてあり、
 源氏物語 徒然草 伊勢物語 日本古典文学史 貴重書 奈良絵本 武鑑
のリンクが貼ってある。
(来年の年賀状は、これかな?)

文学研究はもちろん、学校の古典授業も、やろうとするといろんなアプローチが
可能になった。
古典の授業が、いつまでも古典文法、古典の鑑賞、文学史だけだと、
もう生徒が着いてこない気がするのは、私だけ?

(参考)
以前の記事:国文学研究とAI





neco5959 at 21:17│Comments(0)大学関連 | AI

コメントする

名前
 
  絵文字
 
 
一昨年の陰の努力がなんと書籍『ベイズ統計学』に!2018年NHK大河は西郷どん