2022.05.17
「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。
国立国会図書館次世代
システム開発研究室の徳
原直子室長は力を込める。
国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」を
オープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できる
OCR(光学的文字認識)処理プログラム。明治~昭和期の独特なレイアウトにも対応しているのが特徴だ。古い資料でも本文検索ができるようになる。