연구데이터 수집지침 2023.05.
1. 개요
목적
- ㆍ한국지질자원연구원 지질자원데이터센터에서 연구데이터 수집 시 적용하는 연구데이터 수집 지침(안) 제시
대상
- ㆍ원내 연구자 및 지오빅데이터 오픈플랫폼에 연구데이터를 기탁하려는 이용자
적용범위
- ㆍ원내에서 연구 활동을 통해 생산된 연구데이터와 외부 기관 및 개인으로부터 기탁된 연구데이터에 적용함
준용
- ㆍ본 지침에서 정하지 아니한 사항은 국가과학기술연구회의 연구데이터 관리 가이드라인 및 한국지질자원연구원의 제·규정 준용 가능
2. 연구데이터 정의
연구데이터 정의
- ㆍ“연구데이터”라 함은 연구사업의 각종 실험, 관찰, 조사 및 분석 등을 통하여 산출된 사실 자료로 연구성과의 검증에 필수적인 데이터를 의미함
연구데이터 분류
- ㆍ연구데이터는 1차 데이터, 2차 데이터, 디지털 변환 데이터, 메타데이터, 외부 데이터, 컬렉션으로 분류함
-
ㆍ단, 연구노트, 과학 논문 초안, 장래 연구 계획, 동료와의 커뮤니케이션 및 실물 자료는 제외하되, 시추코어, 암석, 화석 등 실물 자료에 대한 메타데이터는 연구데이터에 포함함
◦ 1차 데이터: 연구사업의 각종 조사, 실험, 관찰, 관측, 측정, 분석 등을 통하여 산출된 자료로 연구 성과의 재현에 필수적이고 객관적인 사실 데이터
◦ 2차 데이터: 1차 데이터를 기반으로 가공, 분석 처리과정을 거쳐 생산한 데이터로서 표, 이미지, 그래프, 모델 및 각종 지질도, 지구물리이상도, 지화학도 등의 데이터
◦ 디지털 변환 데이터: 기존의 아날로그 데이터를 디지털 형태로 변환한 데이터
◦ 메타데이터: 데이터의 설명에 필요한 데이터의 제목, 데이터의 생산자, 데이터의 생산 장비 및 방법, 데이터의 내용, 획득지역(위치좌표) 및 시기, 데이터의 포맷, 데이터의 품질 등으로 구성되어 데이터를 설명하기 위해 사용되는 데이터
◦ 외부 데이터: 외부로부터 유·무상의 형태로 제공받은 데이터
◦ 컬렉션: 물리적 또는 디지털 리소스의 모든 집합체
데이터 생산 방법 기준에 따른 분류
- ㆍ관측 및 관찰 데이터(observational data): 관측이나 관찰을 통해 생산되는 데이터
- ㆍ실험 데이터(experimental data): 실험을 통해 생산되는 데이터
- ㆍ시뮬레이션 데이터(simulation data): 시뮬레이션을 통해 생산되는 데이터
- ㆍ추출 및 컴파일 데이터(derived or compiled data): 컴파일이나 추출을 통해 생성된 데이터
연구데이터 공유의 중요성 및 필요성
- ㆍ다양한 측정 및 실험 장비로부터 생산되는 방대한 연구데이터를 통해 과학적 발견을 시도하는 데이터 집중형 연구로 전환함에 따라, 연구데이터의 재활용과 관리의 중요성이 증대됨
- ㆍ오픈 사이언스, 오픈 액세스 운동 등과 더불어, 공공 자금에서 출자한 연구과제를 통해 생산된 데이터와 출판물은 공용 리포지터리에 게시하는 형태로 전환 중임
- ㆍ연구데이터 공유는 다른 연구자 또는 기관에 데이터 활용도를 높임
- ㆍ데이터 인용(Data Citation)등을 통해 연구자 개인 또는 연구 기관의 평판을 높이고, 데이터 검증 등을 통한 더 나은 연구로 발전할 수 있는 기회가 됨
- ㆍ연구데이터의 공유는 데이터의 중복 생산·게재 비용을 줄일 수 있으며, 이를 통해 미래의 연구에 더욱 집중이 가능함
- ㆍ사생활 보호, 연구 윤리 등의 민감한 사항들을 잘 고려하여 전 처리된 대부분의 연구데이터 공유가 가능함
- ㆍ연구과제 관리 기관이 데이터관리계획(DMP: Data Management Plan, 이하 DMP) 등을 통해 연구데이터 공개를 추진하면, 데이터 획득, 저장, 메타데이터 작성 표준화는 연구데이터 공유를 실현하기 위한 연구데이터 관리의 최선의 방안임
3.연구데이터 수집
연구데이터 수집 범위
- ㆍ한국지질자원연구원은 국토지질, 광물자원, 석유해저, 지질환경 등 지질자원 데이터셋을 수집 및 관리하며 이는 연구원에서 연구 활동을 통해 획득한 연구데이터(연구원에서 생산한 데이터 및 외부로부터 제공받은 데이터)를 포함함
-
ㆍ상기 명시된 연구데이터 수집 범위(연구 활동을 통해 획득한 연구데이터)에는 DMP가 포함됨
◦ 한국지질자원연구원의 연구데이터관리규정에 따라 연구사업 진행 시 DMP를 제출해야 하므로 이는 연구자산으로 관리·보존하는 수집 대상에 해당됨
-
ㆍDMP에 명시된 연구데이터의 유형은 다음과 같음
◦ 야외조사 데이터
◦ 야외탐사/측정 데이터
◦ 시료 및 시료분석 데이터
◦ 지도자료(지질도 및 지질주제도 등 도면형태의 최종결과물)
◦ 강의자료(국제지질자원교육센터)
◦ 문헌/설문조사 데이터
◦ 외부데이터
◦ 기타-분류데이터(상기 대분류에 포함되지 않은 데이터)
연구데이터 선정 및 평가
-
ㆍ연구데이터 수집 기준
◦ 연구 및 교육에 대한 실질적인 가치, 지속적인 보존가치 중요성을 입증한 데이터
◦ 기관이 정의한 핵심 영역에서 생산된 데이터
◦ 기관이 자금을 지원하는 지질·자원분야 프로젝트에서 생산된 데이터
-
ㆍ보안, 개인정보 보호 및 기밀 유지 고려사항
◦ 기타 내용은 연구데이터 윤리·저작권·라이선스 지침을 따름
◦ 수집 및 보관되는 민감 데이터의 경우, 프라이버시 및 기밀성에 대해 공인된 표준을 충족해야 함
◦ 특정 데이터 수집에 적용할 수 있는 라이선스는 리포지터리의 자원, 목표 및 임무를 고려할 때 법률에 따라 관리되어야 함
-
ㆍ저작권 및 라이선스
◦ 기타 내용은 연구데이터 윤리·저작권·라이선스 지침을 따름
◦ 연구데이터 수집 시 지적재산권의 소유자를 식별할 수 있어야 함
◦ 제출되는 연구데이터에 대한 지적재산권을 가진 개인 또는 기관은 리포지터리에서 정한 기탁 조건에 동의해야 함
◦ 연구데이터의 저작권 소유자는 데이터 이용 라이선스 설정 시 적절한 라이선스 유형을 선택 및 적용함
◦ 연구데이터 공유·활용 시 CC 라이선스 적용이 우선적으로 검토됨
-
ㆍ연구데이터 품질
◦ 연구데이터 수집 시 이용자가 데이터 품질과 신뢰성을 평가할 수 있는 정보를 제공하는 포괄적 기술문서를 가진 연구데이터의 수집을 권장함
◦ 원본 형태의 연구데이터를 선호함
-
ㆍ메타데이터
◦ 수집 및 기탁 시 사용되는 메타데이터는 <표 1>의 Dublin Core의 형식을 사용함
<표 1> Dublin Core 메타데이터 요소
요소 | 내용 | |
---|---|---|
Title | 표제 |
|
Creator | 창작자 |
|
Type | 유형 |
|
Contributor | 기여자 |
|
Publisher | 발행자 |
|
Date | 날짜 |
|
Language | 언어 |
|
Format | 형식 |
|
Description | 설명 |
|
Subject | 주제 |
|
Relation | 관련 자원 |
|
Identifier | 식별자 |
|
Rights | 저작권 |
|
Source | 출처 |
|
Coverage | 수록범위 |
|
선호되는 연구데이터 형식
- ㆍ다양한 컴퓨팅 및 기술 환경에서 사용 가능한 데이터
- ㆍ이용자가 쉽게 접근 가능한 형식의 데이터
- ㆍ연구 가치를 훼손하지 않으면서 접근 및 이용의 용이성을 갖춘 데이터
- ㆍ다양한 통계 또는 분석 소프트웨어에서 사용 가능한 형식으로 변환할 수 있는 데이터
- ㆍ데이터 해석을 위해 부가적으로 필요한 소프트웨어가 없는 데이터
연구데이터 윤리
- ㆍ기타 내용은 연구데이터 윤리·저작권·라이선스 지침을 따름
- ㆍ연구데이터 생산·수집 시 발생할 수 있는 윤리적 문제를 방지하기 위한 항목으로 한국지질자원연구원은 연구데이터 윤리를 준수하여 관련 데이터를 수집
4. 연구데이터 기탁
연구데이터 기탁의 의미
- ㆍ연구데이터의 향후 재사용 및 지속적 접근을 목적으로 생산한 연구데이터를 시스템(리포지터리)에 등록하는 것
연구데이터 기탁의 필요성
- ㆍ연구데이터의 지속적인 액세스 보장
- ㆍ전문적인 연구데이터 관리·보존·접근의 제공
- ㆍ연구데이터 기탁을 통한 스토리지 비용 절감 및 대용량 데이터의 안정적 저장 가능
- ㆍ연구데이터를 안전한 환경에서 장기적으로 관리·보존 가능
- ㆍ향후 재사용할 수 있는 잠재적 가치를 가진 자원으로 활용 가능
연구데이터 기탁 시 연구자 제출 자료
-
ㆍ연구데이터 파일
◦ 소프트웨어로 연구데이터의 개별 내용이나 내부구조를 가공(확인, 수정, 변환, 추출 등)할 수 있는 상태의 데이터임
◦ 기탁하고자 하는 연구 데이터셋(Research Dataset) 또는 연구데이터 파일은 향후 재사용을 고려하여 범용적인 포맷으로 제공하거나 해당 도메인 분야 커뮤니티에서 보편적으로 사용되는 특정 포맷으로 제공할 것을 권장함
-
ㆍ도큐멘테이션
◦ 연구데이터 파일을 해석하는데 필요하거나 설명할 수 있는 도큐멘테이션 파일을 연구데이터 파일과 함께 제공함
◦ 도큐멘테이션 파일에는 코드북, 데이터 수집 도구, 요약 통계, 프로젝트 요약 및 데이터 관련 출판물 목록이 포함될 수 있음
-
ㆍ메타데이터
◦ 연구데이터 파일과 함께 연구데이터 파일의 내용을 기술하고 있는 메타데이터를 제공해야 함
◦ 사용하는 메타데이터 형식(DC): 표제, 생성자, 유형, 기여자, 형식, 설명, 주제, 이용조건 등(연구데이터 수집 지침<표 1> 참조)
연구데이터 등록 절차
-
ㆍ등록
▫ 연구자는 연구데이터의 품질 및 이상 여부를 확인하고 데이터 리포지터리에 연구데이터를 제출<그림 1>
-
ㆍ승인 및 검토
◦ 연구책임자 또는 기관·부서의 연구데이터 관리 담당자는 제출된 연구데이터에 대한 검토 및 승인<그림 1>
◦ 주요 검토사항: 데이터 형식, 메타데이터 기술 형식 준용 여부, 연구데이터 공개 및 라이선스 적합 여부, 민감 정보 포함 여부 등
-
ㆍ기탁 시 검토사항
◦ checklist
- 명명규칙 준수
- 오탈자 확인
- 파일 크기(최대 단일파일 크기 제한: 100GB)
- DMP 분류코드 체크
<그림 1> 연구데이터 기탁 시 데이터 등록 절차
5. DMP 작성
의미
- ㆍDMP는 연구데이터의 생산ㆍ보존ㆍ관리 및 공동 활용 등에 관한 계획임
- ㆍ연구데이터의 수집, 관리, 보존, 개방, 활용을 위하여 연구계획수립 시 연구계획서와 함께 작성하여 제출하는 문서를 의미함
작성 목적
- ㆍ연구과정에서 생산될 데이터의 종류와 취득방법을 사전에 계획하고, 생산한 데이터를 효율적으로 관리하기 위하여 작성함
작성 및 이행, 변경
- ㆍDMP 작성 및 이행에 대한 사항은 한국지질자원연구원 연구데이터관리규정 제13조(데이터관리계획 작성 및 이행)에 명시되어 있으며, 작성 대상, 작성 후 검토사항 등이 포함되어 있음
- ㆍDMP 변경에 대한 사항은 한국지질자원연구원 연구데이터관리규정 제14조(데이터관리계획의 변경)에 명시되어 있음
구성
- ㆍDMP 작성은 <표 2>와 같이 작성할 수 있음
<표 2> DMP 작성 예시
구분 | 내용 및 예시 |
---|---|
연구데이터 종류(포맷) |
|
연구데이터 생성 및 가공방법 |
|
기존 데이터 활용 여부 |
|
신뢰성 검정 및 확보 방안 |
|
- ㆍ메타데이터 표준은 <표 3>와 같이 작성할 수 있음
<표 3> DMP 작성 예시
구분 | 내용 및 예시 |
---|---|
메타데이터 표준 |
|
DMP 작성 시 기대 효과
- ㆍ과제를 통해 생성된 연구데이터의 생성, 관리, 공유 현황 파악에 용이함
- ㆍ연구데이터 재현성 확보가 가능함
- ㆍ연구데이터 재사용으로 인한 연구의 진실성 확보할 수 있음
- ㆍ중복 연구 여부를 확인하여 연구자의 연구 효율성을 제고할 수 있음
버전 | 일자 | 내용 |
---|---|---|
0.1 | 2023. 03. 20. | 문서 Outline 작성 |
0.6 | 2023. 04. 28. | 분야별 초안 작성 |
0.8 | 2023. 05. 08. | 지침 기관 검토 |
1.0 | 2023. 05. 19. | 검토 의견 반영 및 보완 |