연구데이터 보존지침 2025.01.
1. 개요
목적
- ㆍ한국지질자원연구원 지질자원데이터센터에서 데이터 보존 시 적용 가능한 연구데이터 보존 지침(안) 제시
- ㆍ내구성 있는 형식을 선택하고, 데이터를 리포지터리에 제출하여 장기간 보존하는 절차를 따르는 것
대상
- ㆍ기탁된 연구데이터를 보존하려는 지질자원데이터센터 관리자
적용범위
- ㆍ원내에서 연구 활동을 통해 생산된 연구데이터와 외부 기관 및 개인으로부터 기탁된 연구데이터에 적용함
준용
- ㆍ본 지침에서 정하지 아니한 사항은 국가과학기술연구회의 연구데이터 관리 가이드라인 및 한국지질자원연구원의 제·규정 준용 가능
2. 연구데이터 보존 개념
연구데이터 보존의 의미
- ㆍ연구데이터의 장기적 생존(long—term viability)과 지속적인 접근성을 보장하기 위해 취하는 일련의 관리 활동
- ㆍ장기는 저장 매체의 손상, 기술 변경, 이전 및 새로운 매체 및 데이터 형식 지원, 이용자 커뮤니티 변경 등 리포지터리에 보관된 디지털 정보의 무결성 상실에 대해 걱정할 만큼 충분히 긴 시간을 일컬음
연구데이터 보존의 필요성
- ㆍ디지털 데이터 보존은 모든 연구 프로젝트의 핵심 측면이어야 함. 일부 연구데이터는 고유하여 파괴 또는 손실될 경우 대체될 수 없음. 그러나 검증 가능한 데이터를 참조하는 것만으로도 연구가 건전하다고 판단할 수 있음
- ㆍ데이터의 효과적인 문서화
- ㆍ저장 매체의 성능이 저하되거나 자료가 손실될 수 있음
- ㆍ향후 소프트웨어 파일 포맷이 변경될 경우 데이터를 읽을 수 없음
- ㆍ데이터 파일을 위한 도큐멘테이션이 남아있지 않으면 데이터를 이해하기 어려울 수 있음
- ㆍ새로운 소프트웨어로 데이터 파일을 열었을 때 연구를 지속할 수 없을 만큼 이해할 수 없거나 신뢰할 수 없도록 변경될 수 있음
- ㆍ한국지질자원연구원의 연구데이터관리규정 제5장 제16조에 의거 연구데이터의 보존 기간을 영구 보존으로 규정하고 있음
데이터 보존의 목표
- ㆍ데이터 관리(Data management): 불가피한 변경을 통해 디지털 레코드가 관리될 수 있도록 보장
- ㆍ접근성(Accessibility): 데이터를 쉽게 찾을 수 있고 접근할 수 있도록 보장
- ㆍ이용 가능성(Availability): 이용자가 필요한 방식으로 데이터 작업 수행 가능
- ㆍ데이터 도큐멘테이션(Data documentation): 해당 데이터가 어떤 데이터이고 무엇에 관한 데이터인지 이용자의 이해를 도움
- ㆍ무결성(Integrity): 데이터 생애주기(Data Lifecycle) 동안 데이터의 신뢰성 보장
데이터 관리 계획과 보존
-
ㆍ데이터 관리 계획에는 다음과 같은 보존 관련 사항이 명시되어야 함
◦ 데이터 보존 책임 담당자 지정
◦ 생산할 데이터 포맷 기술
◦ 생산할 데이터셋의 크기
◦ 데이터의 저장 위치
◦ 연구 분야 또는 연구 기관의 데이터 리포지터리가 존재하는지 기재하고 활용 여부 설명
데이터 파일 정리 및 기술
- ㆍ데이터 보존은 연구데이터의 장기적 생존(long—term viability)과 지속적인 접근성을 보장하기 위해 취하는 일련의 관리 활동이므로 데이터 파일 정리와 데이터 기술을 포함하는 활동임
- ㆍ연구데이터의 지속적인 접근과 잠재적인 재사용을 고려하여 데이터 파일의 형식(format)은 가능한 범위에서 독점적이지 않고 공개된 표준을 따라야 함
- ㆍ메타데이터와 도큐멘테이션을 이용하여 보존할 연구데이터를 기술하여야 함
- ㆍ다음 <표 1>은 자료 유형에 따른 지침을 나타낸 것임
<표 1> 자료 유형 및 내용
자료 유형 | 지침 내용 |
---|---|
데이터 파일 |
|
도큐멘테이션 |
|
메타데이터 |
|
3. 보존 데이터의 선택과 평가
장기보존 데이터 선택의 필요성
-
ㆍ데이터 스토리지의 비용이 많이 소요하지 않더라도 모든 데이터를 저장하지 않고 장기보존 데이터를 선택해야 하는 이유는 다음과 같음
◦ 디지털 데이터의 급격한 증가로 인해 모든 것을 저장하는 비용은 적지 않음
◦ 적절한 미러링과 백업 시스템 없이는 디지털 보존 방식을 유지할 수 없으며, 결국에는 백업과 미러링은 보존비용을 증가시킴. 즉, 이는 스토리지 비용을 적어도 2배 이상 증가시킴을 의미함
◦ 모든 데이터를 저장한다면 어떤 데이터가 검색의 대상인지 확인하기 위해 추가적인 노력이 필요할 수 있으며 데이터를 선별하여 저장하면 이러한 과정을 줄일 수 있음
◦ 많은 데이터 관리 및 보존비용이 소요됨으로 보존 메타데이터를 생성하고 관리하는 비용과 보존해야 할 데이터에 대한 보존비용을 고려해야 함
장기보존 데이터 선택 기준
- ㆍ자원의 한계로 인해 모든 데이터를 장기 보존하기 어려우므로 다음의 기준을 이용하여 장기보존 가치를 가진 데이터를 선정할 수 있음
- ㆍ다음 <표 2>는 장기보존 데이터 선택 기준을 나타낸 것임
<표 2> 장기보존 데이터 선택 기준
항목 | 내용 |
---|---|
법적 고려사항 |
|
과학적 가치 또는 역사적 가치 |
|
원본 |
|
조건 |
|
저장 및 보존 |
|
접근/이용 |
|
형식/기술적 제한 |
|
4. 데이터 권리 및 법적 준수
디지털 보존을 위한 권리 보장
-
ㆍ지오빅데이터 오픈플랫폼은 장기 보존을 위해 디지털 객체를 복사, 변환 및 저장하는 데 필요한 권리를 보장하기 위해 구조화된 프레임워크에서 운영되고 있음
◦ 데이터 기탁자와의 계약: 데이터 제출 프로세스 동안 기탁자는 데이터 공유, 라이선스 부여 및 변환 및 보존을 허용할 법적 권리를 보유하고 있음을 확인해야 함. 이 확인에는 보존 활동에 부여된 권리를 자세히 설명하는 플랫폼의 이용 약관에 동의하는 것이 포함되어 있음
◦ 라이선스 프레임워크: 기탁자는 Creative Commons 라이선스를 포함한 다양한 라이선스 옵션 중에서 선택하거나 플랫폼의 요구 사항에 맞는 사용자 지정 저작권 조건을 지정할 수 있음. 선택한 라이선스는 플랫폼이 형식 마이그레이션 및 메타데이터 향상을 포함한 필요한 보존 활동을 수행할 수 있도록 허용해야 함
◦ 정책 준수: 모든 작업은 데이터 처리를 위한 법적 및 윤리적 프레임워크를 설명하는 KIGAM 데이터 관리 규정을 준수함. 특정 규정은 장기 보존 및 관련 권리를 다루고 있음
디지털 보존을 위한 권리 보장
- ㆍ데이터 기탁은 기탁자가 플랫폼에서 데이터를 관리, 변환 및 저장할 수 있는 충분한 권한을 부여했는지 확인하기 위해 엄격한 검토 프로세스를 거치고 있음. 규정을 준수하지 않는 제출은 거부되거나 수정을 위해 기탁자에 반환될 수 있음
예치자 및 사용자 교육
- ㆍ투명성을 보장하기 위해 기탁자에게 제출된 데이터에 대한 적절한 라이선스 및 권한을 보장하는 것을 포함하여 책임에 대한 자세한 지침이 제공되고 있음. 사용자가 액세스하는 데이터의 라이선스 약관을 이해하는 데 도움이 되는 교육 리소스도 제공할 수 있음
5. 데이터 리포지터리
데이터 리포지터리의 정의
- ㆍ리포지터리는 온라인 데이터베이스 서비스로, 디지털 자원의 장기 저장과 보존을 관리하고 탐색과 접근을 위한 카탈로그를 제공하는 아카이브임
데이터 리포지터리의 선택 시 고려사항
- ㆍ제출한 데이터셋에 영구적인 식별자 제공
- ㆍ데이터셋 탐색 후 해당 데이터셋의 내용을 확인하고 이용할 수 있도록 지원하는 메타데이터를 데이터셋의 랜딩페이지로 제공
- ㆍ데이터 이용에 관한 추적 지원
- ㆍ커뮤니티 요구에 대응하거나 ‘신뢰할 수 있는 데이터 리포지터리’로 인증됨
- ㆍ데이터 보호와 같은 법적 요건을 충족하고 불필요한 라이선스 조건 없이 데이터 재사용 가능
데이터 리포지터리의 예시
-
ㆍ범용 리포지터리
◦ FigShare(http://figshare.com)
◦ Dryad(https://datadryad.org)
◦ Zenodo(http://zenodo.org/)
◦ DataHub(http://datahub.io)
◦ DANS(http://www.dans.knaw.nl/)
- ㆍ다음 <표 3>은 지구과학분야 리포지터리를 나타낸 것임
<표 3> 지구과학분야 리포지터리
리포지터리 | 설명 |
---|---|
National geoscience data centre (NGDC) |
|
Centre for Environmental Data Analysis (CEDA) |
|
UK Polar Data Centre(UK PDC) |
|
PANGAEA |
|
TOAR Surface Observation Database |
|
Oak Ridge National Laboratory Distributed Active Archive Center (ORNL DAAC) |
|
Norwegian marine data centre (NMD) |
|
International Council for the Exploration of the Sea (ICES) |
|
ICTS SOCIB Data Repository |
|
연구데이터의 저장
- ㆍ저장할 연구데이터 사본의 개수와 동기화 방법 제시
- ㆍ연구데이터 저장을 위한 스토리지 제공
- ㆍ클라우드 기반 서비스에 저장된 데이터 전송 시스템의 백업을 위한 사본 사이트 보유
- ㆍ정전 시 백업 사이트에서 데이터 다운로드 서비스 제공
- ㆍ스토리지(저장공간) 솔루션 비교 기준 제시
- ㆍ데이터 백업 시 무결성 및 접근성 보장
백업 및 복구
- ㆍ데이터의 손실 및 손상을 방지하고 보호하기 위하여, 연구자는 데이터가 여러 위치에 정기적이고 자동으로 백업하여야 할 책임이 있음
-
ㆍ지오빅데이터 오픈플랫폼의 백업시스템은 InnoStor Appliance(ISA-2000)와 Quantum Scalar i500로 이중 백업으로 구성되며, 서비스 스토리지로부터 주기적으로 백업된 데이터를 백업시스템에 저장하여 백업을 수행함
◦ 백업 대상: 지오빅데이터 오픈플랫폼의 데이터, 데이터베이스 및 사용자 데이터파일에 대한 백업 수행
◦ 백업 주기
- 사용자 데이터파일, 데이터베이스 및 시스템 데이터 백업: 매일
- 사용자 데이터, 데이터베이스 및 연구데이터(파일) 전체 백업: 토요일
-
ㆍ복구 정책 및 지침
◦ 시스템 소프트웨어 및 응용 소프트웨어는 로컬 GIT 리포지터리로 부터 복구 수행
◦ 연구데이터, 데이터베이스, 사용자 데이터파일에 대한 복구는 백업장치에 저장된 데이터로 복구 수행
◦ 백업된 데이터가 문제가 발생하였을 경우, 소산지의 테이프 백업을 통한 복구 수행
연구데이터 아카이빙 및 보존
- ㆍ연구데이터의 보존을 목적으로 주기적으로 연구데이터를 아카이빙(자기테이프)하여 보존함
- ㆍ아카이빙 및 보존(Archiving and Preservation) 방법: 테이프 백업을 통하여 백업테이프를 원격지에 소산 및 아카이빙하여 보존(yearly)
- ㆍ아카이빙(Archiving) 테이프의 보존 기한은 최소 5년 이상으로 보존함
기술 및 절차 안정성을 위한 보존 전략
- ㆍ마이그레이션(Migration): 비교적 일반적이지 않은 파일 혹은 더 이상 이용되지 않는 파일 포맷에서 현행 파일 포맷으로의 파일 포맷 변환
- ㆍ에뮬레이션(Emulation): 구형 또는 더 이상 이용되지 않는 컴퓨터의 기능을 모방하는 것으로 에뮬레이션을 이용하면 컴퓨터에서 이전 파일 형식을 읽은 다음 현재 파일 형식(에뮬레이션과 마이그레이션을 결합)으로 저장하거나 향후 오래되고 더 이상 이용되지 않는 파일을 읽고 이용하기 위한 기술
- ㆍ정규화(Normalization): 보존을 위해 데이터 포맷을 일반적인 포맷 형식(예: 텍스트 파일을 개방형 문서 포맷 또는 Word 포맷으로 제한)으로 제한하거나 소프트웨어 종속 파일 포맷을 변환한 소프트웨어 종속 파일 포맷(예: SPSS 시스템 파일) 또는 소프트웨어 독립파일 포맷(예: ASCII 또는 XML 기반 포맷)으로 변환
부록. 디지털 자산 보존 프레임워크
디지털 자산 보존 프레임워크 개요
- ㆍ디지털 자산 보존 프레임워크는 2013년 National Digital Stewardship Alliance가 제시한 것으로 다음의 <표 4>를 사용하여 디지털 보존 수준을 평가할 수 있음
- ㆍ해당 부록은 디지털 자산 보존 수준을 평가하기 위한 안내로 리포지터리의 보존상태를 평가하여 향후 수준을 어디까지 높여야 하는지 연도별로 제시할 수 있음
<표 4> 수준별 디지털 자산 보존 프레임워크
요소 | 레벨 1 (데이터 보호) | 레벨 2 (데이터 인식) | 레벨 3 (데이터 모니터링) | 레벨 4 (데이터 복구) |
---|---|---|---|---|
스토리지 & 지리적 위치 |
|
|
|
|
파일 고정성 및 데이터 무결성 |
|
|
|
|
정보 보안 |
|
|
|
|
메타데이터 |
|
|
|
|
파일 형식 |
|
|
|
|
버전 | 일자 | 내용 |
---|---|---|
0.1 | 2023. 03. 20. | 문서 Outline 작성 |
0.6 | 2023. 04. 28. | 분야별 초안 작성 |
0.8 | 2023. 05. 08. | 지침 기관 검토 |
1.0 | 2023. 05. 19. | 검토 의견 반영 및 보완 |
1.1 | 2025. 01. 15. | 검토 의견 반영 및 보완(CTS) |