인공지능 학습용 데이터, 역대 최대 규모로 개방합니다!

인공지능 학습용 데이터 구축사업은 컴퓨터 시스템이 학습을 진행할 때 필요한 학습용 데이터를 제공하는 일종의 서비스입니다. 머신러닝이나 딥러닝과 같은 인공지능 기술은 데이터의 양과 질에 매우 의존적입니다. 그러므로 인공지능 학습용 데이터 구축사업은 정확한 학습 결과를 얻기 위해서 매우 중요한 역할을 합니다.

인공지능 학습용 데이터 구축사업에서는 일정한 품질을 만족하는 학습용 데이터를 일정한 기간 내에 빠르게 생산할 수 있도록 하며, 이를 위해 데이터 생성 및 취합, 가공, 정제, 품질 검증을 수행합니다. 이러한 데이터는 이미지, 비디오, 음성, 텍스트 등 다양한 형태로 구성될 수 있으며, 주로 패턴 인식, 자연어 처리, 음성인식, 이미지 처리, 추천 시스템 등 다양한 분야에서 사용됩니다.

한국 과학기술정보통신부와 지능정보원은 인공지능 학습용 데이터 구축사업의 일환으로, 22년도에 구축한 학습용 데이터셋 310종을 오늘부터 7월말까지 AI허브를 통해 개방한다고 밝혔습니다. 이번 사업은 전문영역부터 일상생활까지 전 분야로 확산되고 있는 인공지능 기술 개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심 데이터 인프라 사업입니다. 기업, 연구자, 개발자뿐만 아니라 인공지능 개발에 관심이 있는 국민 누구나 AI허브를 통해 학습용 데이터를 활용할 수 있습니다.

이번에 개방되는 데이터는 310종으로 역대 최대 규모이며, 초기 개방 시점은 지난해보다 3개월 앞당겨져 매달 약 80여 종 내외를 개방하여 7월말까지 전체 310종의 개방을 완료할 계획입니다. 이번 1차 개방에는 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함되어 있습니다. 또한, AI허브에 공개되는 데이터는 국제 표준에 맞는 품질기준을 달성하고 개인정보 비식별화를 거친 경우에 한하며, 기업이나 기관들이 실제 사용하고 있는 인공지능 모델에 직접 데이터를 학습시켜 유효성을 검증할 수 있습니다.

인공지능 학습용 데이터 구축사업이 중요한 이유는 머신러닝이나 딥러닝 분야에서는 학습용 데이터가 성능의 90% 이상을 결정한다는 점입니다. 이를 통해 적합한 데이터를 사용하여 학습을 할 때, 정확한 결과를 얻을 수 있습니다. 따라서 적합한 데이터를 손쉽게 취득하고 가공할 수 있는 인공지능 학습용 데이터 구축사업은 다양한 분야에서 인공지능 기술을 적용하는데 있어서 매우 중요한 역할을 할 수 있습니다. 이번 데이터 개방을 통해 우리나라 인공지능 기술과 산업 발전이 기대되는 한편, 데이터 및 개인정보 보안에 대한 우려 역시 생깁니다. 관련 규제 및 산업의 조화로운 성장을 기대하며 포스팅 마치겠습니다 :)

이편한정책

인공지능 학습용 데이터, 역대 최대 규모로 개방합니다!

티스토리툴바