과기정통부, 과학기술 기계학습 데이터 구축 신호탄

최진수 기자 / 기사승인 : 2020-07-24 12:28:20
  • -
  • +
  • 인쇄
연구효율성 제고 및 신산업 사업모형 창출 기여 ?
과학기술 기계학습 데이터 구축사업 개황
[무한뉴스] 과학기술정보통신부는 인공지능 기반의 디지털 뉴딜 사업의 일환으로 한국과학기술정보연구원이 축적해 온 논문 등을 대상으로 대규모 과학기술 기계학습 데이터 구축사업을 시작한다.

이 사업은 재택근무를 통해 비대면으로 진행되며 만 19세에서 34세 이하의 청년층을 대상으로 이달 25일부터 다음달 10일까지 1차 모집해 올해 12월까지 시행될 예정이다.

과학기술 기계학습 데이터 구축 사업은 코로나 이후, 경제 상황에 대비한 대규모 공공기반 구축 사업으로 2,000개의 비대면 일자리 창출을 목표로 한다.

청년층 또는 취업취약계층을 우선적으로 선발하고 직무교육을 통해 인공지능 디지털 역량과 기계학습 데이터 구축 기술을 습득한 인력으로 육성하는 데 의의가 있다.

대규모 과학기술 공공데이터를구축하게 되면 한국과학기술정보연구원의 과학기술 지식인프라 연계 융합서비스에서 인공지능 서비스운영 ScienceON은 본 사업을 통해 구축된 기계학습 데이터를 과학기술 기계학습 데이터 기반 챗봇 및 AI비서 시스템 서비스 논문 원문의 내용을 의미 메타정보로 검색 및 요약 표/그림 기반 연구 요약 및 유사 표/그림 검색 기관별 연구 현황 및 연구 동향 통계 산출, 분야별 권위 연구기관 탐색 등의 서비스 운영에 활용 할 계획이라고 전했다.

국내논문과 국가 연구개발 보고서 원문을 대상으로 과학기술분야 기계학습 데이터 5종을 구축하며 최대 4백25만여 건의 과학기술 기계학습 데이터가 사업물량이다.

데이터 구축은 코로나19 상황이므로 온라인 시스템을 활용해 비대면으로 진행하되, 데이터 품질 부실화를 방지하기 위해 대중참여제작 기반 검증 방식 크라우드소싱은 대중과 아웃소싱이라는 두 단어의 합성어로 일반 대중에게 참여를 유도해 상품 및 서비스의 개발 과정에 지식 및 의견을 반영해 결과물을 이끌어 내는 방식이다.

본 사업에서는 크라우드소싱 기반으로 비대면 재택근무자의 집단지성을 활용해 인공지능 기술 개발을 위한 기계학습 데이터 구축 결과물을 이끌어낸다.

또한 구축 데이터의 품질 제고를 위해 멀티레벨 리뷰방식을 사용할 예정이다.

멀티레벨 리뷰는 재택근무자 중 데이터 구축 구성원이 1차적으로 기계학습 데이터를 구축하면 검수 구성원이 2차, 3차에 걸쳐 구축 지침서에 의해 잘 구축되었는지 검수하는 방법이다.

이번 사업을 통해 교육 받은 인력들은 앞으로도 과학기술분야 기계학습 데이터 레이블링 전문 인력으로 양성해 지속적인 기계학습 데이터 구축 역량을 계발할 수 있도록 해 데이터 산업 수요에 부응할 전망이다.

텍스트, 영상, 음성 등 다양한 분야의 데이터 레이블러 수요 증가에 따라 데이터 수집·가공 관련 기업에서의 활발한 활용이 예상된다.

과학기술분야 기계학습 데이터가 구축·개방 되면, 과학기술분야 지식자원의 지능적 연계 및 융합연구 지원과 중소기업 기술혁신을 위한 의사결정 및 비즈니스 활용이 가능해질 것으로 예상된다.

본 사업을 통해 구축된 과학기술분야 기계학습 데이터는 과학기술분야 언어이해 모델개발에 활용될 예정이며 과학기술분야 자연어 처리 문제 해결을 위한 초석이 마련된다.

이와 관련해, 과기정통부 권석민 과학기술일자리혁신관은 “이번 기계학습을 위한 데이터 구축은 학술정보에 대한 접근성을 향상시켜 4차 산업혁명 시대의 근간인 DNA·네트워크·인공지능)을 위한 데이터댐 건설에 주춧돌이 될 것”이라고 밝혔다.

이번 과학기술 기계학습 데이터 구축사업에 관한 자세한 내용은 KISTI 일자리혁신사업지원팀 또는 이달 25일부터 KISTI 온라인 지원 누리집를 통해 안내 받을 수 있다.

[저작권자ⓒ 무한뉴스. 무단전재-재배포 금지]

뉴스댓글 >