프로젝트명
OCR
데이터셋
OCR
•
easy OCR
•
tesseract
easy OCR이 tesseract보다 실행 속도는 느리지만 python의 모듈이기 때문에 사용법이 간단하고 여러 언어를 지원하며 이미지 인식률이 높다.
태서랙트 _ 다양한 운영 체제를 위한 광학 문자 인식 엔진
데이터
OCR 학습 데이터셋
•
오픈소스 데이터 학습 (한국어 인쇄체 증강 데이터)
•
생리대 데이터 직접 수집 후 학습 (인당 100개, 총 300개)
•
training, validation, test 비율 6:2:2
•
인쇄체, 제작 데이터, 인쇄 + 제작 모델 → test 후 가장 정확도 높은 모델 채택
◦
채택된 모델 더 학습시키기
프로젝트 제안서 문서화
프로젝트 진행상황
프로젝트명