데이터 집계
정보를 수집하여 요약 및 표현하는 과정을 데이터 집계라고 합니다. 이 과정의 중요성은 지난 수십 년간 상업적인 분야에서 널리 인지되어 왔습니다. 또한, 최근 학술 출판의 규모가 큰 폭으로 증가함에 따라, 학계에서도 데이터 집계를 더욱 강조하고 있습니다. 예를 들어, 익스페리언(Experian) 사는 거대데이터집계 회사로 세간의 주목을 받고 있습니다.
데이터 마이닝
데이터 집계 이후엔 ‘보다 유용한 데이터를 찾는 작업’을 해야 하며, 이를 ‘데이터 마이닝(Data Mining)’이라고 합니다. 이는 데이터를 대조하여 가치 있는 ‘정보’를 찾는 과정이며, 마치 ‘광산에서 금맥을 찾는 과정’과 비슷하기에 ‘데이터 마이닝’이라고 부릅니다. 데이터 집계 및 마이닝 기술을 적절히 활용하면, 유용한 정보를 찾는데 필요한 시간과 노력을 크게 줄일 수 있습니다.
Garbage In, Garbage Out (GIGO)
인풋 데이터의 질은 곧 아웃데이터의 질입니다. ‘Garbage In, Garbage Out (GIGO)’라는 말이 있는데, 이 말은 '쓸데없는 것이 입력되면, 출력되는 것도 쓸데없는 것 뿐'이라는 뜻입니다. 주로 컴퓨터 프로그래밍과 관련하여 사용되던 용어였지만, 최근에는 일반 학계에서도 많이 사용되고 있습니다.
보다 유용한 최신 학술정보를 제공하는 데이터베이스가 각광 받고 있는데, 아카데믹 서치 프리미어(Academic Search Premier)와 같은 데이터베이스는 최신의 연구 정보를 저장합니다. 또한 JSTOR(short for Journal Storage)는 인가된 이용자에게만 저널 발간물에 대해 무료구독옵션 및 접근권한을 제공하고 있습니다.
오픈액세스 데이터베이스의 성장과 한계
오픈액세스 출판은 학계에서 이미 일반화되었으며, 이로 인해 연구 데이터의 무료 이용이 가능해지고 있습니다. 예를 들어, 퍼블릭 라이브러리 오브 사이언스 (Public Library of Science, PLoS)나 스탠포드의 하이와이어(Stanford’s HighWire) 등의 서비스는 오픈액세스 추세에 발 맞춰 크게 성장했습니다.
그러나, 이러한 오픈액세스 데이터베이스는 한계를 가지고 있는 경우가 많습니다. 먼저, 퍼블릭 라이브러리 오브 사이언스는 수십 만 편 이상의 논문을 제공하고 있으나, 이들 중 상당수는 원래 저자와의 추가 추적연구가 필요한 출판 전 워킹페이퍼 형태입니다. 또한 미국 국립보건원의 펍메드(PubMed) 서비스도 2천 4백만 편 이상의 논문을 보유 중이지만, 대중에 공개되어 있지 않습니다. 마지막으로, 구글 스칼라(Google Scholar) 서비스는 방대한 정보로 유명하지만, 검색 결과들 중 상당수는 충분한 피어리뷰를 거쳤는지 의심되는 논문 및 저널들인 경우가 많습니다.
축복이자 도전
데이터 집계 서비스는 연구 관련 학술 데이터를 하나의 거대 데이터베이스에 저장하는 편리성을 제공해 주고 있습니다. 그러나 오늘날의 오픈액세스 시대에, 활용 가능한 데이터의 품질을 보장할 수 없다는 점 새로운 도전 및 과제입니다. 정보검색알고리즘이 보다 정교해지면 검색자가 원하는 데이터를 식별하는데 도움을 주겠지만, 검색된 정보 중 상당수는 접근 권한이 제한되거나 논문의 원저자가 의심스러운 경우가 많다는 점은 여전히 보완해 나가야 할 점입니다. 따라서 학술 연구자가 데이터 집계 서비스를 활용할 때, 그 장단점에 대해 확실히 인식하고 현명하게 이용하는 것이 중요합니다.
'논문작성' 카테고리의 다른 글
연구에 따른 논문작성 유형들 (0) | 2016.10.20 |
---|---|
효과적으로 연구계획서를 작성하는 법 (0) | 2016.10.20 |
정보 과부하를 관리하기 (0) | 2016.10.19 |
[논문작성 팁] 구글 스칼라(Scholar) 사용방법 (0) | 2016.10.19 |
효과적인 연구 초록을 작성하는 방법 (0) | 2016.10.19 |