Příprava dat

1. Organizace dat, Data Management Plan
2. Příprava datasetů, datasety v ASEP
3. Popis datasetu
4. Dohoda o uložení


Před samotným zápisem datového záznamu (a případným připojením datasetu) je třeba, aby autor stanovil některé základní údaje datasetu (struktura, formát souborů, licenci, podmínky zveřejnění dat atd.) a v případě zveřejnění ověřil, zda má souhlas spoluautorů.

1. Organizace dat, Data Management Plan

Výběr souborů k uložení a archivaci je první krok, který musí autor udělat, protože ne všechny soubory je potřeba (a možno) archivovat. Neexistuje univerzální způsob organizace dat, kterým se mohou řídit všichni autoři. K ujasnění základních pojmů slouží tzv. Data management plan, jehož vypracování je povinností hlavního řešitele projektu H2020 (projekty zařazené do pilotního programu Open Research Data Pilot).

  • DMP popisuje životní cyklus dat sbíraných, vytvořených a zpracovávaných v rámci projektu Horizon 2020. DMP jako součást výzkumu obsahuje informace, které zajistí, že data budou vyhledatelná, dostupná, interoperabilní a znovu využitelná (princip FAIR – findable, accessible, interoperable and re-usable).
  • V roce zahájení projektu by měla vzniknout první, stručná verze (během prvních 6 měsíců). DMP má být živý dokument, měl by být aktualizován, jakmile se objeví závažné změny v průběhu projektu (např. nová data, změna v konsorciálních podmínkách nebo ve složení atd.) a také v době ukončení projektu.

Existují různé dokumenty, které popisují DMP (např. popis EC), kurs DMPprůvodce po DMP, okruh otázek, řešených v DMP, Jak napsat DMP, přehled a návody, např. Jak vytvořit DMP a plán sdílení dat.
Také je možné prohlédnout šablony, které mají usnadnit vytvoření DMP, například  šablona FAIR DMP Horizon 2020 byla navržena tak, aby byla použitelná pro každý projekt Horizon 2020, který vytváří, shromažďuje nebo zpracovává data výzkumu (verze v MS Word), v repozitáři Zenodo je uložena další šablona DMP pro projekty H2020.
Je k dispozici i šablona pro projekty H2020 s přehledem, jak má vypadat počáteční DMP v průběhu projektu a po skončení projektu. Vytvoření DMP je možné i online (zde jsou  šablony DMP podle požadavků některých poskytovatelů podpory + příklady).

Okruhy otázek v DMP podrobněji zpracováváme v tomto dokumentu.


2. Příprava datasetů

Struktura datasetů a pojmenování souborů

Autor se musí zamyslet, jak budou datasety výzkumných dat strukturovány. Datasety mohou být složeny z různých souborů, nebo dataset může obsahovat i pouze jeden soubor, tytéž soubory mohou být uloženy i v několika různých datasetech. K přehlednosti též pomůže vhodné pojmenování souborů, které by se nemělo podceňovat.

Dokumentace k datasetu

Obsah datasetů je důležité přehledně popsat, aby bylo jasné i uživateli, který si soubory stáhne pro další využití, jaké soubory dataset obsahuje. Pokud k popisu nestačí pole popisu v datovém formuláři, doporučujeme přiložit soubor read_me.txt, ze kterého bude zřejmé, co je v jednotlivých datových souborech uloženo.

Datasety v ASEP

  • Do repozitáře ASEP lze uložit datový záznam a dataset.
  • Pokud jsou datasety uloženy v jiném repozitáři či úložišti, lze vytvořit jen datový záznam a uvést odkaz na dataset.
  • V bibliografickém záznamu v ASEP lze vytvořit odkaz na data v jiném repozitáři.
  • Datové a bibliografické záznamy v ASEP lze vzájemně propojit.

Seznam repozitářů a příklady jiných úložišť

Pro ASEP platí:

  • Maximální velikost uloženého datasetu k jednomu datovému záznamu v ASEP je 20 GB.
  • Přes webový prohlížeč lze nahrávat soubor maximální velikosti 2 GB.
  • Maximální počet uložených souborů k jednomu datovému záznamu je 30. 
  • Při ukládání většího počtu souborů, doporučujeme jejich kompresi „zazipování“(zip, rar).
  • Pokud potřebujete nahrát jeden soubor, který je větší než 2 GB, nebo uložit dataset, kde součet velikosti souborů je větší než 20 GB, obraťte se pro konzultaci možností na arl@lib.cas.cz.
  • Volba názvu souborů v datasetu a přiložení souboru read_me.txt je na vkladateli.

Volba formátu souborů

Při výběru formátu souboru je dobré se ujistit, že formát, který zvolíme bude v budoucnosti přístupný. Doporučujeme zvolit formát standardní, ale v případě, že se pro data v praxi používají formáty jiné, lze data uložit i v těchto formátech.
U dat, která se jsou vytvořena, upravována či komprimována speciálním softwarem je dobré uvést v popisu, jaká verze software byla použita, jaké kódování, komprese apod., pro snadný přístup a další využitelnost uživateli.
Tatáž data lze uložit v několika formátech, soubory v jednom datasetu mohou mít různé formáty.

Pro ASEP platí:

  • Seznam doporučených formátů je zde
  • Pokud je potřeba uložit data ve formátech, které nejsou definovány v seznamu formátů ASEP (např. ve specifických oborových formátech), napište svůj požadavek správci repozitáře na arl@lib.cas.cz.

3. Popis datasetu

V manuálu ASEP je podrobný popis jednotlivých polí formuláře: Struktura datových záznamů v ASEP.

Některá pole jsou povinná – bez vyplnění těchto polí nelze záznam zveřejnit. Pole podmíněně povinná jsou pole, která doporučujeme vyplnit, pokud je to možné (např. návaznost na projekty). Vyplnění polí ostatních závisí na zvážení vkladatele. Správné a úplné vyplnění polí je důležité pro tvorbu citace.

Licence a přístup k datasetu

U každého datasetu vkladatel musí uvést licenci, tj. jaká pravidla platí pro uživatele, kteří si data stáhnou, jak je mohou využívat. Je možno použít  licence Creative Commons, které jsou předdefinované, v případně, že platí jiná licence, musí se její text uložit s datasetem. Další informace o licencích zde.

Pokud bude potřeba nějakou speciální licenci přidat, obraťte se na: arl@lib.cas.cz.

Přistup k souboru

Datové soubory mohou být veřejně přístupné, to znamená, že uživatel si soubory stáhne a uloží na svém počítači a může s nimi pracovat dle licence, která je zveřejněna u záznamu. Podporujeme také (dočasné) embargo na soubory s daty, což znamená, že je veřejně zpřístupňujeme až po určité době, která se může při vkládání nastavit. Přístupné pro ústav kde mají k souborům přístup pouze pracovníci ústavu na jehož půdě práce vznikla, ostatní uživatelé mohou o data požádat. Veřejně nepřístupné soubory jsou soubory, o které si musí uživatel požádat (vyplní formulář).


4. Dohoda o uložení

Před předáním dat ke zveřejnění musí autor souhlasit s dohodou o uložení datasetů do datového repozitáře: Dohoda o uložení datasetů v repozitáři ASEP. V případě, že KNAV obdrží důkaz o porušení autorských práv, příslušná položka bude ihned odstraněna.

Co je potřeba si uvědomit před zveřejněním připravených datových souborů:

  • Máte všechna potřebná práva pro zpřístupnění dat.
  • Máte souhlas spoluautorů a ostatních držitelů práv k datům.
  • Máte dostatečně anonymizována svá data, nebo výslovný souhlas od všech subjektů, jejichž totožnost by mohla být odhalena z dat.