- Příprava datových souborů
- Výběr, velikost, formáty
- Dokumentace, licence, přístup, klasifikace
- Dohoda o uložení
- Propojení dat s bibliografickými záznamy
1. Příprava datových souborů
V datovém repozitáři ASEP jsou uloženy záznamy (metadata), kde je uveden popis uloženého datasetu. Dataset může být uložen přímo v repozitáři ASEP, nebo na jiném úložišti, které neumožňuje popis uložených dat.
Při přípravě souborů, které budou popsány a uloženy je potřeba si rozmyslet:
- které soubory se budou ukládat,
- zda lze vybrané soubory uložit,
- zvolit velikost a formáty souborů,
- soubory vhodně pojmenovat
- připravit popis, případně další dokumentaci pro uživatele,
- zvolit licenci CC, případně uložit licenci vlastní,
- zvolit přístup k souboru,
- připravit klíčová slova a oborové zařazení.
Předpokládáme, že pokyny pro počáteční nastavení ukládaných datasetů mohou být na základě praxe upraveny. V případně, že potřebujete pomoc s uložením větších souborů, kontaktujte správce repozitáře – arl@lib.cas.cz.
2. Výběr, velikost, formáty souborů
Výběr souborů
Při vědeckém bádání vzniká celá řada souborů, repozitář ASEP slouží k uložení souborů konečných, které se nebudou již mazat. Datasety mohou být složeny z několika souborů, nebo dataset může obsahovat pouze jeden soubor. Tytéž soubory mohou být uloženy i v několika různých datasetech.
Velikost souborů musí odpovídat možnostem repozitáře ASEP.
- Maximální velikost uloženého datasetu k jednomu datovému záznamu v ASEP je 50 GB.
- Při ukládání většího počtu souborů, doporučujeme jejich kompresi „zazipování“(zip).
- Pokud potřebujete nahrát jeden soubor, který je větší než 50 GB, nebo uložit dataset, obraťte se pro konzultaci možností na arl@lib.cas.cz.
Volba formátu souborů
Při výběru formátu souboru je dobré se ujistit, že formát, který zvolíme, bude v budoucnosti přístupný. V případě potřeby lze tatáž data uložit i v několika formátech. Pro výběr formátu souborů datasetu doporučujeme řídit se těmito obecnými zásadami, které budeme na základě praxe upřesňovat.
Aby byl zajištěn dlouhodobý přístup a využitelnost dat v repozitáři, je vhodné používat standardní formáty, které zaručují dlouhodobou ochranu (LTP – Long Time Period). Formáty vhodné pro dlouhodobou ochranu jsou především ty, které jsou otevřené, dobře zmapované a mají širokou podporu ze strany výrobců softwaru – tj. existuje více programů od různých výrobců, které jsou schopné soubory otevřít a zobrazit. Při výběru vhodných formátů pro LTP je nejvhodnější držet se doporučení komunity s ohledem na dobrou praxi a obecně přijímané standardy.
Pojmenování souborů:
Ukládané soubory měl být vhodně pojmenované. Název by měl vystihovat obsah ukládaných souborů.Názvy souborů musí být bez diakritiky, bez mezer, podtržítka jako separátor, maximální délka názvu souboru 127 znaků.
3. Dokumentace, licence, přístup, klasifikace
Dokumentace
Obsah datasetů je důležité přehledně popsat, aby uživatel, který si soubory stáhne pro další využití, věděl, jaké soubory dataset obsahuje a jak s nimi může pracovat. Pokud k popisu nestačí pole popisu v datovém formuláři, doporučujeme přiložit další soubory „read_me“ (nejlépe ve formátu pdf nebo txt), ze kterého bude zřejmé, co je v jednotlivých datových souborech uloženo, případně další důležité pokyny pro uživatele. U dat, která se jsou vytvořena, upravována či komprimována speciálním softwarem, je dobré v popisu uvést, jaká verze softwaru byla použita, jaké kódování, komprese apod., pro snadný přístup a další využitelnost uživateli.
Informace o formátech souborů je možné zapsat i do metadatového formuláře datového záznamu do pole technické informace viz popis polí
Licence
U každého datasetu vkladatel musí uvést licenci, tj. jaká pravidla platí pro uživatele, kteří si data stáhnou, jak je mohou využívat. Je možno použít licence Creative Commons, které jsou předdefinované, v případně, že platí jiná licence, musí se její text uložit s datasetem. Další informace o licencích zde. Pokud bude potřeba nějakou speciální licenci přidat, obraťte se na: arl@lib.cas.cz.
Soubory, kde je uložena licence, dokumentace a další důležité informace k popisu souborů, by měly být uloženy mimo zazipovaná data. K přehlednosti též pomůže vhodné pojmenování souborů, které by se nemělo podceňovat
Přístup k souboru
1.Veřejně přístupné – uživatel si soubory stáhne a uloží na svém počítači a může s nimi pracovat dle licence, která je zveřejněna u záznamu.
2.Veřejně přístupné s embargem na soubory s daty, což znamená, že je veřejně zpřístupňujeme až po určité době, která se může při vkládání nastavit.
3. Přístupné pro ústav kde mají k souborům přístup pouze pracovníci ústavu, na jehož půdě práce vznikla, ostatní uživatelé mohou o data požádat.
4.Veřejně nepřístupné Soubory o které si musí uživatel požádat (vyplní formulář). Rozhodnutí o zpřístupnění je na autorovi.
V případě, že jsou soubory zveřejněny pod otevřenou licencí (např. Creative Commons ), je nutné aby byl přístup k souborům veřejně přístupný.
Klasifikace
U každého datasetu je povinné vyplnit klíčová slova v angličtině a kódy oborů – OECD, FORD.
4. Dohoda o uložení
Před předáním dat ke zveřejnění musí autor souhlasit s dohodou o uložení datasetů do datového repozitáře:
Dohoda o uložení datasetů v repozitáři ASEP. V případě, že KNAV obdrží důkaz o porušení autorských práv, příslušná položka bude ihned odstraněna.
Co je potřeba si uvědomit před zveřejněním připravených datových souborů:
- Máte všechna potřebná práva pro zpřístupnění dat.
- Máte souhlas spoluautorů a ostatních držitelů práv k datům.
- Máte dostatečně anonymizována svá data nebo výslovný souhlas od všech subjektů, jejichž totožnost by mohla být odhalena z dat.
5. Propojení datových a bibliografických záznamů
Bibliografické záznamy v ASEP a datové záznamy na různých úložištích lze vzájemně propojit.