X-ray 필름에 마킹된 텍스트 정보를 자동으로 추출하는 툴
비파괴 검사(NDT - Non Destructive Testing)에서 사용되는 X-ray 필름에는 검사체와 검사 결과를 매칭하기 위해 검사 날짜 및 검사 번호, 검사체 번호와 같은 다양한 정보들이 마킹됩니다.
그리고 X-ray 필름을 디지털 이미지로 변환할 때는 X-ray 필름에 마킹된 정보들을 생성된 디지털 이미지 파일에 입력해야 X-ray 필름과 디지털 이미지 파일을 매칭할 수 있습니다.
지금까지 X-ray 필름에 마킹된 정보들을 디지털 이미지 파일에 입력하기 위해서는 X-ray 필름을 직접 확인하고 일일이 입력해야 했습니다.
이 작업은 매우 번거로울 뿐만 아니라 사람이 직접 하는 작업이기 때문에 입력 하는 사람에 따라 결과가 달라질 수 있고, 입력 실수도 일어날 수 있었습니다.
이번 시간에는 인포라드에서 개발한 X-ray 필름에 마킹된 텍스트 정보를 자동으로 추출할 수 있는 툴을 소개하겠습니다.
텍스트 정보 자동 추출 툴에 사용된 기술
위의 영상은 X-ray 필름에 마킹된 텍스트 정보들을 인포라드에서 개발한 소프트웨어를 통해 자동으로 추출하는 모습입니다.
X-ray 필름에 마킹되어 있는 텍스트 정보를 모두 추출하는데 마우스 버튼 클릭 몇 번과 약 10초면 완료됩니다.
이를 이용하면 X-ray 필름을 디지털화 할 때 꼭 필요한 정보 입력 작업의 효율성과 정확도가 매우 높일 수 있습니다.
이 프로세스는 크게 세 가지 기술을 이용해 구연할 수 있었습니다.
광학 문자 인식 기술(OCR - Optical Character Recognition)
흔히 OCR이라고 불리는 광학 문자 인식 기술을 이용하면 이미지 안에 있는 텍스트를 감지할 수 있습니다.
우리 주변에서 알게 모르게 많이 사용하고 있는 이 기술은 속도 위반 카메라나 주차장에서 자동차 번호판 인식에서 사용되며, 이미지 파일의 한 종류인 PDF 파일의 텍스트 파일 인식에도 사용됩니다.
텍스트 추출 툴에서는 광학 문자 인식 기술을 이미지 안의 텍스트를 인식하는데 사용되며 오픈 API를 이용합니다.
자동화 학습(AutoML - Automated Machine Learning)
머신러닝(Machine Learning)이란 단어는 우리에게 이미 많이 익숙한 단어로 컴퓨터가 경험을 통해 스스로 학습할 수 있도록 알고리즘을 연구하고 개발하는 작업을 뜻합니다.
그리고 머신러닝 기술을 이용하면 컴퓨터가 인간과 같은 또는 더 효율적으로 원하는 특정한 일을 할 수 있는 흔히 AI라고 불리는 인공지능(Artificial intelligence)을 만들 수 있습니다.
일반적으로 머신러닝을 개발하기 위해서는 데이터 수집과 모델 학습 및 평가와 같은 수 많은 과정이 필요하며, 많은 시간과 노력이 필요합니다.
AutoML은 이 과정의 일부 또는 전체를 자동화하는 기술을 말하는데, 예측 결과의 정확도를 떨어뜨리지 않고 통계적 지식이나 컴퓨터 프로그래밍 지식이 없는 일반인도 머신러닝 기술을 쉽게 이용할 수 있게 합니다.
텍스트 추출 툴에서는 AutoML 기술을 이용해 다양한 이미지와 텍스트 매칭을 학습시키고 학습한 것을 바탕으로 이미지를 올바른 텍스트로 분류하는데 사용합니다.
정규 표현식(Regular Expression)
정규 표현식은 텍스트에서 검색 패턴을 지정하는 일종의 형식 언어로, 줄여서 Regex 또는 Regexp로 표현하기도 합니다.
많은 프로그래밍 언어나 텍스트 편집 프로그램 등에서 정규 표현식 기능을 제공하며, 대부분 라이브러리를 통해 이용할 수 있습니다.
일반적으로 정규식은 문자열에 대한 찾기나 바꾸기 작업, 또는 입력 유효성 검사를 위한 문자열 검색 알고리즘에 사용됩니다.
텍스트 추출 툴에서는 추출된 텍스트를 정규 표현식을 이용해 각각의 카테고리로 분류하는데 사용됩니다.
문자열의 일정한 패턴을 지정해 패턴에 따라 카테고리가 분류되는 방식입니다.
인포라드는 비파괴검사(NDT)의 X-ray 필름을 디지털화 할 수 있는 장비인 X-ray 필름 디지타이저를 공급하고 있으며, X-ray 필름 디지털화 서비스도 제공하고 있습니다.
또한 고객의 필요에 맞는 각종 산업 및 연구용 커스텀 장비, 소프트웨어의 제작을 진행하고 있습니다.
문의는 아래의 링크를 참고하시기 바랍니다.
출처
Comments