Biblioteka Główna
Politechniki Warszawskiej

Dane badawcze

Wprowadzenie

Dane badawcze są to wszystkie dane, które zostały zebrane, wytworzone, zaobserwowane w trakcie procesu badawczego, mającego na celu otrzymanie wyników naukowych.
Dane badawcze to:

  • surowe dane (które uzyskano bezpośrednio w wyniku zastosowania narzędzia badawczego),
  • przetworzone dane (opracowane).

Przykłady danych badawczych:

  • notatki z eksperymentów, dzienniki
  • protokoły laboratoryjne, opisy procedur
  • opisy metodologiczne
  • próbki
  • artefakty, obiekty
  • dokumenty tekstowe
  • kwestionariusze, ankiety
  • nagrania audio lub wideo
  • fotografie, obrazy
  • zawartość baz danych (obrazy, teksty, nagrania audio i wideo)
  • oprogramowanie (skrypty, pliki wejściowe)
  • wyniki symulacji komputerowych
  • modele matematyczne i algorytmy

Otwarte dane badawcze – to dane wytworzone w trakcie badań i użyte w pracy naukowej, do których każdy użytkownik ma swobodny i bezpłatny dostęp. Dane te można wykorzystywać, modyfikować i udostępniać zgodnie z prawem.
Niektóre dane mogą być archiwizowane w modelu zamkniętym, z uwagi na:

  • komercjalizację wyników badań, np. zgłoszenie wynalazku do ochrony patentowej
  • bezpieczeństwo narodowe
  • ochronę danych osobowych
  • ograniczenia z tytułu praw autorskich

Data set – uporządkowany zbiór danych, udostępniony w danym repozytorium, odnoszący się do danego tematu, opatrzony metadanymi opisującymi jego zawartość.

Metadane danych badawczych

Odpowiednie przygotowanie, uporządkowanie i opisanie danych pozwoli na ich sprawne wyszukanie.
Dane powinny zostać opatrzone metadanymi w taki sposób, aby odbiorca wiedział jakiego rodzaju są to dane, w jaki sposób zostały wytworzone oraz na jakich zasadach może z nich korzystać.

Nie ma jednego powszechnie obowiązującego standardu opisu metadanych dla danych badawczych, dlatego warto zapoznać się ze standardami opisu metadanych stosowanymi w repozytorium, w którym zamierzamy zdeponować dane.  
W standardach opisu metadanych mogą pojawić się następujące pola, które trzeba będzie uzupełnić:

  • tytuł
  • źródło
  • twórcy (osoby lub podmioty posiadające prawa autorskie do danych badawczych)
  • data wytworzenia
  • format
  • język
  • informacje dotyczące otwartości (w tym licencja i ewentualne embargo)
  • powiązany projekt
  • powiązana publikacja, itp.

W wyborze odpowiedniego standardu mogą pomóc narzędzia:

Formaty plików

Dane powinny zostać zdeponowane w taki sposób, aby zapewnić ich długoterminową czytelność i dostępność. Przy udostępnianiu danych badawczych należy wziąć pod uwagę:

  • oprogramowanie, za pomocą którego będzie można je odczytać
  • trwałość wybranych formatów plików.

Należy używać ogólnodostępnych formatów plików. W tym celu warto stosować formaty plików bez kompresji, które nie wymagają komercyjnego oprogramowania oraz wykorzystują standardowe kodowanie (ASCII, Unicode).

W niektórych przypadkach migracja danych do otwartego formatu może spowodować utratę części danych / metadanych lub ich zniekształcenie. Dopuszcza się wtedy możliwość deponowania danych w formatach zamkniętych.

Jeżeli dane są możliwe do odczytania za pomocą narzędzi komercyjnych, ale powszechnie stosowanych w danej dyscyplinie, wtedy również dopuszcza się zdeponowanie takich danych.

Przed przygotowaniem data setów, należy sprawdzić, czy repozytorium umożliwia zdeponowanie danych w wybranym przez nas formacie.

Udostępnianie danych badawczych

Dane powinny być otwarte na tyle, na ile jest to możliwe oraz na tyle zamknięte, na ile to jest konieczne. Aby pomóc naukowcom odpowiednio przygotować i udostępniać dane, zostały opracowane zasady FAIR, według których dane powinny być:

Findable – łatwe do odnalezienia; zestaw danych musi być opatrzony takimi metadanymi, aby były one wyszukiwalne za pomocą odpowiednich narzędzi dostępnych w danym repozytorium

Accessible – dostępne (co najmniej do poziomu metadanych) dla wszystkich zainteresowanych mających dostęp do Internetu; 

  • dostępność w FAIR nie oznacza otwartego dostępu bez ograniczeń, oznacza, że poprzez metadane określa się dokładne warunki, na jakich dane są udostępniane i możliwe do ponownego wykorzystania

Warto skorzystać z poniższych otwartych licencji:

Metadane powinny być dostępne nawet wtedy, gdy zbiór danych został przeniesiony lub usunięty.

Interoperable – interoperacyjne; dane muszą być opisane w odpowiednim standardzie oraz z zastosowaniem prawidłowej metodologii; powinny być także zdeponowane w formatach umożliwiających ich odczyt oraz przetwarzanie

Reusable – możliwe do ponownego wykorzystania; oznacza to, że w opisie lub samych setach powinna być zawarta informacja o pochodzeniu danych wraz z całą metodologią ich pozyskiwania; możliwość ponownego wykorzystania wymaga również, aby była wskazana licencja, na której dane zostały udostępnione i mogą być przetwarzane. 

Repozytoria

Dane badawcze powinny być gromadzone i udostępniane w repozytoriach instytucjonalnych, krajowych lub międzynarodowych.
Przy wyborze repozytorium trzeba zwrócić uwagę na następujące kwestie:

  • na jakich zasadach dane będą przechowywane
  • w jaki sposób dane będą zabezpieczane
  • czy repozytorium wspiera używany w danej dyscyplinie standard opisu metadanych
  • czy repozytorium zapewnia przypisanie identyfikatora, np. DOI, do zbiorów danych (przekłada się to na lepsze wyszukiwanie danych)
  • czy można powiązać zbiór danych z autorami za pomocą identyfikatorów, tj. ORCID
  • czy inni naukowcy z danej dyscypliny korzystają z tego samego repozytorium
  • koszt zdeponowania danych (należy sprawdzić, czy wybrane przez nas repozytorium stosuje dodatkowe opłaty, tzw. Data Processing Charge, czy zdeponowanie danych jest bezpłatne)

Przy wyborze repozytorium warto skorzystać także z Register of Research Data Repositories. Jest to globalny rejestr repozytoriów danych badawczych ze wszystkich dyscyplin naukowych.
Jedne z najpopularniejszych obecnie repozytoriów danych badawczych to: 

  • RepOD – Repozytorium Otwartych Danych – to repozytorium krajowe powstałe w ramach Platformy Otwartej Nauki. Umożliwia deponowanie, tzw. małych danych. Korzystanie z serwisu jest bezpłatne.
  • Zenodo – Projekt OpenAIRE, wpierający ideę otwartego dostępu i przepływu danych w Europie. Repozytorium zostało przygotowane z funduszy UE. Repozytorium spełnia zasady FAIR. Obowiązuje limit 50GB na jeden set danych. 

Plan Zarządzania Danymi (DMP)

DMP (Data Management Plan) jest dokumentem wymaganym przy składaniu wniosków o granty w ramach programów Horyzont 2020 (jego następcy Horyzont Europa) oraz w konkursach Narodowego Centrum Nauki.

W planie należy opisać z jakich danych wnioskodawcy będą korzystali w trakcie swojej pracy:

  • w jaki sposób dane zostaną wytworzone (np. czy zostaną samodzielnie wytworzone, czy zakupione, itp.)
  • kto będzie miał do nich prawa
  • czy będą udostępniane innym użytkownikom i na jakich zasadach
  • gdzie będą przechowywane
  • w jaki sposób zostaną opisane.

Zachęcamy do zapoznania się z zakładkami:

Oddział Informacji Naukowej i Analiz Bibliometrycznych prowadzi konsultacje dla pracowników PW w zakresie poprawności składanych Planów Zarządzania Danymi badawczymi. Zainteresowane osoby prosimy o kontakt mailowy:

  • Magdalena Maciąg: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.
  • Monika Gajewska: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.

 

Tworzenie DMP jest procesem złożonym, każdy plan jest inny, dlatego przy jego opracowywaniu przydatne mogą być darmowe narzędzia wspomagające tworzenie DMP:

  • DMPTool (US) – zawiera przykłady DMP. Dzięki niemu można przygotować szablony DMP dostosowane do wymagań amerykańskich grantodawców
  • DMPonline (UK) – narzędzie ułatwiające pracę z DMP, pozwalające na tworzenie szablonów
  • DSW - Data Stewardship Wizard – narzędzie ułatwiające pracę z DMP, pozwalające na tworzenie szablonów
  • The Data Curation Center – serwis brytyjskiej instytucji specjalizującej się w zarządzaniu danymi badawczymi. Udostępnia między innymi: gotowe plany zarządzania danymi, przewodniki, wytyczne, informacje na temat metadanych

 

DMP w programach NCN

Plan Zarządzania Danymi badawczymi (DMP) przygotowuje się na etapie składania wniosku o grant:

  • dostępny jest wzór planu jaki należy złożyć
  • szablon jest podzielony na 6 części - w każdej z nich znajduje się zestaw pytań. W poszczególnych polach można wpisać do 1000 znaków ze spacjami (oprócz punktu 2.1 - gdzie obowiązuje limit 2000 znaków)
  • plan podlega eksperckiej ocenie merytorycznej na etapie oceny raportu końcowego. Ocena będzie polegać na porównaniu planu z wniosku z jego wykonaniem

DMP może podlegać zmianom w trakcie realizacji projektu:

  • zalecane jest uaktualnianie Planu Zarządzania Danymi w trakcie trwania projektu
  • nie ma potrzeby informowania NCN o zmianach w DMP
  • w raporcie końcowym należy opisać stan faktyczny dotyczący danych w projekcie - na dzień zakończenia projektu. Może on być inny niż początkowo planowany
  • DMP powinien być opracowany w j. angielskim (z wyłączeniem miniatur)

Szablon Narodowego Centrum Nauki składa się z następujących elementów:

1.1 Opis danych oraz pozyskiwanie lub ponowne wykorzystanie dostępnych danych

W tej części należy odpowiedzieć na następujące pytania:

  • w jaki sposób będą wytwarzane nowe dane (czy będziemy je: pozyskiwać, wytwarzać, czy może wykorzystamy dane już istniejące).
  • w jaki sposób dane będą kontrolowane i dokumentowane
  • jak będzie wyglądać organizacja plików i zarządzanie ich różnymi wersjami

1.2  Jakie dane (tj. rodzaje, formaty, objętości) będą pozyskiwane lub wytwarzane w projekcie
W tej części należy odpowiedzieć na następujące pytania dotyczące planowanego formatu i objętości danych:

  • jaki to będzie rodzaj danych (np. dokumenty, arkusze kalkulacyjne, pliki audio, filmy, bazy danych, kod źródłowy)
  • jaki format i objętość będą miały dane (format plików może być dowolny, najważniejsze, by wybierać taki format, który zapewnia powszechny dostęp i otwartość. Należy w pierwszej kolejności rozważyć formaty otwarte i standardowe)
  • czy i w jaki sposób dane będą kodowane na potrzeby przechowywania.

 2. Dokumentacja i jakość danych

Należy określić:

  • rodzaj metadanych mających ułatwić użytkownikom ich odnalezienie
  • Czy możliwe jest ich komputerowe odczytanie?
  • Jakie międzynarodowe standardy lub schematy (tj. Dublin Core, DDI) posłużą do organizacji metadanych?

3. Przechowywanie i tworzenie kopii zapasowych podczas badań
Należy określić:

  • w jaki sposób w trakcie projektu dane będą przechowywane
  • w jaki sposób będą tworzone kopie zapasowe danych
  • gdzie i jak dane będą przechowywane i kto będzie miał do nich dostęp
  • w jaki sposób będzie zapewniona ochrona i bezpieczeństwo danych wrażliwych w czasie trwania projektu
  • czy do ponownego użycia danych jest konieczna inna, dodatkowa dokumentacja (np. wszelkie informacje o procedurach itp.)
  • czy i w jaki sposób będą tworzone kopie zapasowe? Należy wskazać jak często będą robione, przez kogo, na jakich nośnikach i gdzie będą przechowywane

4.1 Zagadnienia związane z przetwarzaniem danych osobowych

Należy określić:

  • czy miało miejsce  przetwarzanie  danych  osobowych
  •  w  jaki  sposób zostanie zapewniona zgodność z przepisami dotyczącymi danych osobowych oraz ich ochrony

4.2 Wymogi prawne, kodeksy postępowania
Należy określić:

  • kto będzie właścicielem danych
  • jakie zostaną zastosowane licencje
  • czy będą ograniczenia ponownego wykorzystania danych
  • czy przed udostępnieniem danych konieczne będzie uzyskanie odpowiedniego zezwolenia w zakresie praw autorskich

 5.1 Udostępnianie i długotrwałe przechowywanie danych

Kiedy i w jaki sposób będą udostępniane dane z projektu:

  • czy istnieją ewentualne ograniczenia i zakazy dotyczące udostępniania danych
  • czy istnieją jakieś ograniczenia i przeszkody uniemożliwiające ich pełne lub częściowe udostępnienie (np. od strony wydawcy artykułu)
  • czy udostępnianie danych wymaga zgody uczestników badania?

5.2 Selekcja danych:

Należy określić:

  • jaka będzie procedura selekcji przeznaczonych do utrwalenia danych
  • z jakiego repozytorium zamierzamy skorzystać oraz czy przestrzega ono zasad FAIR Dataa

 5.3 Oprogramowanie potrzebne do odczytania danych

 Należy określić:

  • czy potencjalni użytkownicy będą potrzebować określonych narzędzi, aby uzyskać do  nich dostęp i (ponownie) je wykorzystać

 5.4 Unikalne identyfikatory (np. DOI)

 Należy określić:

  • w jaki sposób zagwarantują Państwo stosowanie unikalnego i trwale przypisanego identyfikatora (takiego jak cyfrowy identyfikator dokumentu elektronicznego (DOI)) dla każdego zbioru danych?

 6.1 Zadania związane z zarządzaniem danymi

 Należy określić:

  • kto będzie odpowiadał za zarządzanie danymi (tj. kto będzie ich opiekunem)

6.2 Jakie zasoby zostaną przeznaczone na cele zarządzania danymi i zagwarantowanie przestrzegania zasad FAIR

Należy określić:

  • jakie koszty będą związane z zapewnieniem standardów FAIR w projekcie oraz w jaki sposób zostaną opłacone

Oddział Informacji Naukowej i Analiz Bibliometrycznych prowadzi konsultacje dla pracowników PW w zakresie poprawności składanych Planów Zarządzania Danymi badawczymi. Zainteresowane osoby prosimy o kontakt mailowy:

  • Magdalena Maciąg: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.
  • Monika Gajewska: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.

Zobacz także:

Wskazówki NCN dotyczące wypełniania DMP

Najczęściej zadawane pytania do wypełniania wniosku NCN

Przykłady planów zarządzania danymi badawczymi

DMP w programie HORYZONT

Pierwszą wersję DMP należy złożyć po zatwierdzeniu projektu i rozpoczęciu finansowania (w ciągu pierwszych 6 miesięcy od rozpoczęcia projektu):

  • dostępny jest wzór planu jaki należy złożyć - szablon jest zestawem pytań, na które trzeba odpowiedzieć
  • DMP należy aktualizować na bieżąco - w przypadku pojawienia się istotnych zmian (np. decyzji o złożeniu patentu, potrzeby utajnienia badań itp.)
  • koszty związane z otwartym dostępem do danych badawczych w ramach programu „Horyzont 2020” kwalifikują się do zwrotu w trakcie trwania projektu na warunkach określonych w umowie o grant H2020, w szczególności w art. 6 i art. 6.2.D.3
  • plan powinien być napisany w j. angielskim

DMP powinien obejmować następujące elementy, w których należy uwzględnić odpowiedzi na konkretne pytania:

Data Sumary

  • jaki jest cel gromadzenia / generowania danych
  • jakie typy i formaty danych będziemy generować / gromadzić
  • jakie jest pochodzenie danych (czy sami je wytworzymy, czy też posłużymy się już istniejącymi)
  • kto będzie miał prawa do danych – czy konieczne jest zawarcie umów regulujących zakres wykorzystania i rozpowszechniania danych
  • jaki jest oczekiwany rozmiar danych
  • jaka będzie metodologia pozyskiwania danych
  • czy dane będą wytworzone raz, czy będą wytwarzane w sposób ciągły
  • czy będzie konieczność wersjonowania danych

FAIR data (findable, accessible, interoperable and re-usable)

  • w jakim zakresie dane będą spełniać zasady FAIR (będą łatwe do odnalezienia, dostępne dla innych, interoperacyjne, możliwe do ponownego wykorzystania)
  • za pomocą jakiego formatu opisu metadanych data sety zostaną opisane
  • czy zostanie im przypisany unikalny identyfikator, np. DOI
  • czy dane będą umieszczone w ogólnodostępnym repozytorium / serwisie oraz zostaną udostępnione innym użytkownikom i na jakiej licencji
  • czy odczytanie danych będzie wymagało dodatkowego oprogramowania (w jaki sposób i z wykorzystaniem których narzędzi będzie można je odczytać)
  • jak długo dane będą dostępne w wybranym repozytorium
  • czy wydawcy czasopisma, w którym zostaną opisane wyniki badań wymagają umieszczenia danych badawczych przy artykule
  • więcej na temat zasad FAIR znajdziesz w zakładce Udostępnianie danych badawczych

Allocation of resources

  • jakie są koszty związane ze spełnieniem standardu FAIR
  • jakie będą koszty związane z przechowywaniem i udostępnieniem danych (czy dane będą udostępniane w płatnym serwisie i jaki będzie koszt)
  • kto będzie odpowiedzialny za zarządzanie danymi w projekcie

Data security

  • jakie zasady będą obowiązywały w zakresie zapewnienia bezpieczeństwa danych, w tym odzyskiwania danych (w przypadku ich utracenia)
  • jeżeli w trakcie projektu będą gromadzone dane wrażliwe, w jaki sposób zostaną one zabezpieczone
  • czy dane będą wymagały dodatkowego przetworzenia, aby zapewnić ich anonimowość
  • czy repozytorium / miejsce przechowywania danych spełnia podstawowe zasady bezpieczeństwa

Ethical aspects

  • czy istnieją kwestie etyczne lub prawne, które mogą mieć wpływ na udostępnianie danych
  • jeżeli wykorzystywano kwestionariusze osobowe, czy uwzględniono zgodę respondentów na udostępnianie i długoterminowe przechowywanie danych

Other issues

  • czy korzystasz z konkretnych procedur zarządzania danymi (np. wytycznych krajowych, projektowych, uczelnianych); jeżeli tak, należy podać z jakich

Oddział Informacji Naukowej i Analiz Bibliometrycznych prowadzi konsultacje dla pracowników PW w zakresie poprawności składanych Planów Zarządzania Danymi badawczymi. Zainteresowane osoby prosimy o kontakt mailowy:

  • Magdalena Maciąg: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.
  • Monika Gajewska: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.

Zobacz także:

FAIR Data Management in Horizon 2020

Przykłady planów zarządzania danymi badawczymi

© 2023 Politechnika Warszawska,

Biblioteka Główna Politechniki Warszawskiej, Pl. Politechniki 1, 00-661 Warszawa

Redaktor | Polityka prywatności | Linki dla bibliotekarzy