인공지능 한문 고서 한자 검출, 인식, 서순정렬 모델 [기술이전설명회 발표자료]
STOCKZERO
0
140
0
0
2022.11.28 09:00
- 본 이전기술은 한문 고서의 원문 이미지 데이터로부터 텍스트로 옮기는 광학문자인식(OCR: Optical Character Recognition) 기술임- 한문 고서의 한자들의 위치 정보를 제공하는 인공지능 검출 모델 및 검출된 한자 이미지들을 기계가 읽을 수 있는 텍스트로 변환하는 인공지능 한자 인식 모델, 한문 고서의 한자들의 서순을 정렬하는 기술임- 서순 정렬 기술은 소·중·대분류 3종의 계층적 라인분할을 통해 본주와 세주를 분류하고 우종서 기반의 서순으로 한자를 정렬하여 디지털 텍스트를 추출하는 기술임- 한자 검출 및 인식 모델은 AIHUB의 공개 데이터와 자체적으로 구축한 데이터를 사용하여 학습되었으며, 2,000자 이상 인식이 가능함