(ΦωΦ)

ブックマーク・気が向いた時の、ちょいメモ。

明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い ー日経クロステック

2022.05.17
 「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。
 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCR(光学的文字認識)処理プログラム。明治~昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。