Førebu dataa dine

Før du arkiverer data i DataverseNO (inkl. dei ulike delarkiva, t.d. UiT Open Research Data, TROLLing, osb.), må du sørgja for at dataa dine er i tråd med retningslinene nedanfor. God praksis for korleis ein skal førebu forskingsdata for arkivering kan oppsummerast slik:

  • Bruk konsistente og forståelege filnamn.
  • Legg til dataa dine i eit persistent filformat i tillegg til originalfilene.
  • Beskriv dataa dine i ei ReadMe-fil.

Meir detaljerte retningsliner finn du nedanfor:

1 Filnamngjeving

Det å følgja god praksis for filnamngjeving og -organisering gjer det mykje lettare å finna fram til rett datafil, ikkje berre for deg sjølv, men også for eventuelle samarbeidspartnar, og seinare for andre forskarar som eventuelt skal gjenbruka dataa dine. Du må følgja desse grunnleggjande tilrådingane når du set namn på filene dine:

  • Bruk konsistente filnamn.
  • Bruk beskrivande, men korte filnamn (< 25 teikn).
  • Unngå mellomrom. I staden kan du bruka understrek (t.d. first_study), bindestrek (t.d. first-study) eller kamelstil (FirstStudy).
  • Unngå teikn som ” / \ : * . ? ‘ < > [ ] ( ) & $ æÆ øØ åÅ äÄ öÖ …
  • Bruk internasjonal datoformat: ÅÅÅÅ-MM-DD (t.d. 2017-10-25).

2 Persistente filformat


Kva er persistente filformat?

Når du lagrar dataa dine i eit persistent filformat, aukar sjansen for at dei skal kunna lesast og brukast også på lengre sikt. Nokre filformat er det meir sansynleg at skal vera lesbare også på lengre sikt enn andre. Slike format er som regel

  • ikkje-proprietære
  • opne, og dokumenterte innanfor internasjonale standardar
  • i vanleg bruk i forskingsmiljøa
  • brukar standard teiknkoding, helst Unicode (t.d. UTF-8)
  • ukomprimerte

Tabellen nedanfor gjev eit oversyn over persistente vs. ikkje-persistente filformat for eit utval av dokumenttypar. [1] Last opp dataa dine i persistent format i tillegg til originalfilene. Sørg også for at alle filene har ei gyldig filutviding, t.d. .txt, .pdf.

Filtype Persistente filformat (døme) Ikkje-persistente filformat (døme)
Lyd
  • Ukomprimert utan tap: Wav or AIFF (.wav/.aiff)
  • Komprimert utan tap: FLAC (.flac)
  • Komprimert med tap: Mp3 (.mp3)
  • AAC (.m4a)
  • Monkey’s Audio (.ape)
  • Ogg Vorbis (.ogg)
  • Windows Media Audio (.wma)
Pakkefiler Pakkefiler er ikkje tilrådd. Ved behov bruk følgjande format:

  • zip
  • tar

NB! Pakkefiler blir automatisk pakka ut ved opplasting og må derfor pakkast inn to gonger. Då blir den inste pakken bevart.

  • 7z
  • gz
  • rar
Bilete
  • Ukomprimert: TIFF (.tif or .tiff)
  • Komprimert utan tap: PNG (.png)
  • Komprimert med tap: JPEG (.jpg)
  • Adobe Photoshop (.psd)
  • Apple Picture File (.pct)
  • Graphics Interchange Format (.gif)
  • Raw Image Data File (.raw)
  • Windows Bitmap (.bmp)
Tekst (lysbilete, illustrasjonar)
  • PDF/A (.pdf) saman med originalfil
  • PowerPoint (.pptx)
Tekst (tabellar)
  • Tabulatorseparert rein tekstfil i Unicode (.txt)
  • Excel (.xlsx)
Tekst (tekst)
  • Rein tekst (.txt)

Dersom formattering/struktur trengst:

  • XML, PDF/A (.pdf) saman med originalfil
  • Word (.docx)
  • HTML
Transkripsjon Filformat:

  • PDF/A (.pdf) saman med originalfil
  • PDF/A (.pdf) saman med komma-/tabulatorseparert tekstfil (.csv/.txt)

Font:

  • Unicode IPA (t.d. Charis SIL, Doulos SIL, Gentium Plus, Andika), ASCII SAMPA
Filformat:

  • Word (.doxc)
  • Excel (.xlsx)

Font:

  • Eldre fontar for transkripsjon (SIL IPA(93))
Video
  • MPEG-4 (.mp4)
  • AVI (.avi)
  • Flash Video (FLV)
  • Quicktime (.mov)
  • Windows Media Video (WMV)
Datapakke for Matlab, R, S-Plus, SPSS eller liknande Inkluder:

  • Grunndata som tabulatorseparert rein tekstfil i Unicode (.txt)
  • Skript som rein tekstfil i Unicode (.txt)
  • Ulike format for datapakkar, t.d. .mat, RData, .R
Datapakke for programvare for massespektrometri
  • mzML (.mzML)[2]
  • Agilent D (.D)
  • Bruker BAF (.BAF)
  • Bruker FID (.FID)
  • Chromtech DAT (.DAT)

[1] Lista over filformat i kolonnen “Ikkje-persistente filformat” er ikkje uttømande, men inneheld nokre av dei mest vanlege formata. Dersom datasettet ditt inneheld filformat som ikkje er lista opp her, ta kontakt med brukarstøtta på institusjonen din.
[2] Les meir om formatet her.


Korleis lagra eller konvertera dataa dine til eit persistent filformat?

Dette avsnittet dekkjer følgjande dokumenttypar: Lyd, pakkefiler, bilete, tekst, transkripsjon, video og diverse datapakkar. Dersom dataa dine består av dokumenttypar som ikkje er lista opp her, ta kontakt med brukarstøtta på institusjonen din.

Lyd


  • Opptak:
    Valet av kvalitetsnivå på lydfilene er avhengig av formålet med opptaket. Dersom opptaket er av ein slik art at akustiske detaljar er irrelevante, er mp3-formatet tilstrekkeleg. Men ver merksam på at mp3 er eit format som er komprimert med kvalitetstap: Noko av informasjonen om talesignalet går irreversibelt tapt under opptaket, og formatet er derfor mindre eigna for taleanalyse dersom dataa skal gjenbrukast. Ettersom mp3-formatet gjer data mindre gjenbrukbare, er det tilrådd å bruka dei ukomprimerte formata .wav eller .aiff.
  • Konvertering:
    Dersom lagringskapasitet er eit problem, kan du konvertera ukomprimerte .wav- og .aiff-filer etter opptaket. Vi tilrår då å velja eit format som komprimerer utan informasjonstap, som t.d. FLAC (Free Lossless Audio Codec). Konvertering til FLAC er reversibel, dvs. at originalfila vil bli gjenoppretta når du dekomprimerer FLAC-fila. Til filkomprimering kan du bruka open programvare som t.d. Audacity (http://web.audacityteam.org/) eller Praat (http://www.fon.hum.uva.nl/praat/).

Pakkefiler

Vi tilrår ikkje å bruka pakkefiler. ZIP-pakkar som inneheld opp til 1 000 filer, vil automatisk bli pakka ut under opplasting til DataverseNO. Dersom du ønskjer å ta vare på den opphavlege mappestrukturen, må du inkludera mappenamna i dei respektive filnamna. Dersom dette ikkje er mogleg, kan du unngå utpakking ved opplasting ved å pakka inn filene/mappene to gonger. Då vil berre den ytste pakken bli pakka ut. Dersom du er nøydd til å bruka filpakkar, må du følgja desse tilrådingane:

  • Bruk filpakkar med utvidingane .zip eller .tar (ikkje bruk .7z, tar.gz, .rar, m.m.). Tar-formatet er føretrekt til langtidslagring ettersom det er ope dokumentert.
  • Bruk eit av desse verktøya for å pakka inn filene dine:
    • 7-Zip (for Windows)
    • Keka (for Mac, eller bruk funksjonen tar i kommandolina/terminalvindauget)
  • Ikkje bruk komprimering eller kryptering når du pakkar inn filene.

Bilete


  • Komprimering:
    Bilete er ofte komprimerte for å redusera mengda av unødvendig eller irrelevant informasjon. Slik kvalitetsreduksjon kan vera usynleg for det menneskelege auget. Ei PNG-fil t.d. tek vare på all informasjon som ligg i biletet. I JPEG, eit anna mykje brukt format, kan ein velja komprimeringsgraden. Avhengig av bilettype og eventuelle lagringsrestriksjonar må du velja ein komprimeringsgrad som er forsvarleg med tanke på gjenbruk og deling av bileta dine.
  • Konvertering:
    Dersom bileta dine er lagra i eit format som ikkje blir rekna som persistent (sjå avsnittet Kva er persistente filformat? ovanfor), så må dei konverterast til JPEG, PNG eller TIFF. Konvertering kan enkelt utførast i programvare som Paint (Windows), Preview (Mac) eller GIMP Image Editor (Linux). Det finst også ei rekkje (andre) gratis biletekonverteringsprogram. Men før du brukar slike program, bør du lesa bruksvilkåra deira.

Tekst


Rein tekst


Dersom dataa dine er representerte som rein tekst med lita eller inga formatering, tilrår vi at du opprettar og lagrar dataa dine som reine tekstfiler (.txt). Dette kan du gjera i eit enkelt tekstbehandlingsprogram, t.d. gedit, TextEdit eller WordPad. Dersom du brukar eit meir avansert tekstbehandlingsprogram for å strukturera dataa dine, som t.d. Microsoft Word eller LibreOffice Writer, så må du likevel også lagra dei i rein tekstformat. Du kan gjera det ved å velja “Lagra som: Rein tekst (.txt)” i menyen Fil > Lagra som.


Formatert tekst

Dersom dataa dine inneheld formatert tekst inkl. viktige lineskift, tabulatorar, figurar osb., så tilrår vi at du konverterer datafila til ei PDF/A-fil (.pdf). Last opp både originalfila og PDF/A-fila. Dei same reglane gjeld når du brukar eit tekstbehandlingsprogram som Microsoft Word eller LibreOffice Writer når du strukturerer dataa dine, eller når du bruker eit presentasjonsverktøy som Microsoft PowerPoint eller LibreOffice Impress.

Oppretta ei PDF/A-fil i Microsoft Word:
Mac (2011): Skriv ut > PDF > Lagre som Adobe PDF > Adobe PDF-innstillingar: PDF/A-1b: 2005 (CMYK). Dette alternativet krev Adobe Acrobat. Dersom alternativet ikkje er tilgjengeleg, lagre fila som vanleg PDF.

Windows (2013+): Lagre som Adobe PDF > Filtype: PDF > Alternativ: PDF/A-kompatibel

Oppretta ei PDF/A-fil i LibreOffice Writer:
Linux: Fil > Eksporter som > PDF > Archive PDF/A-1a.

Lagra ei PDF-fil som PDF/A-fil i Adobe Acrobat (Pro eller liknande):
Lagre som annet > Arkiverbar PDF (PDF/A).


Tabelltekst

Tabelltekst må lagrast som reine tekstfiler med Unicode-teiknkoding (.csv/.txt). Dersom du har oppretta slike data i reknearkprogram som Microsoft Excel eller LibreOffice Calc, så kan du konvertera dei til eit tilrådd format ved å følgja denne oppskrifta:

Microsoft Excel (Mac, Windows):

  • (På berbar maskin: Klikk på Flere alternativer under filtypenedtrekksmenyen, som viser Excel Workbook (*.xslx))
  • Vel Fil i hovudmenyen > Lagre som > Vel mappe
  • Under Lagre som filtype vel Tekst (tabulatordelt) (*.txt)
    (NB! Ikkje vel Unicode Text (*.txt))
  • Under Verktøy vel Webalternativer
  • Vel fana Koding
  • I feltet Lagre dette dokumentet som vel Unicode (UTF-8)
  • Vel fana Skrifter
  • I ruta Tegnsett vel Flerspråklig/Unicode/Annet skript, og klikk på OK
  • Klikk på Lagre
  • Stadfest ved å klikka på Ja
  • NB! Denne prosedyren må gjentakast for kvart rekneark i Excel-arbeidsboka.

LibreOffice Calc (Linux, Mac, Windows):

  • Klikk på Fil > Lagre som filtype: Tekst, CSV (.csv)
  • Gjer følgjande for kvart rekneark i LibreOffice Calc-arbeidsboka:
    • Linux og Windows: Vel følgjande i fileksporttruta
      • Teiknsett: Unicode (UTF-8)
      • Feltavgrensar: {Tabulator} (= recommended)
      • Strengskiljeteikn: ingen (slett det som står i feltet)
    • Mac: I feltet Filtype vel “Tekst CSV (.csv)”. Vel følgjande i dataeksportruta:
      • Tegnsett: Unicode (UTF-8)
      • Feltavgrenser: {Tab}
      • Skilletegn: ” (doble hermeteikn)

Dersom det grafiske oppsettet på tabelldataa dine er avgjerande for å kunna forstå dei, så må du også lasta opp ein PDF/A-versjon av dokumentet. Det same gjeld dersom reknearket inneheld figurar, diagram eller andre grafiske element som er nødvendig for å kunna forstå dataa. Ei oppskrift på PDF/A-konvertering finn du ovanfor i avsnittet om formatert tekst.


Transkripsjon


  • Font:
    For all transkripsjon må ein bruka font med Unicode-koding, t.d. IPA Doulos SIL.[1] For fonetisk transkripsjon kan ein alternativt bruka SAMPA (Speech Assessment Methods Phonetic Alphabet, ASCII characters)[2] i staden for IPA. Dersom ingen tilrådd font er tilgjengeleg for transkripsjonen som er nødvendig for dataa dine, så må du leggja ved ei separat ReadMe-fil der du forklarer korleis ein skal gå fram for å opna/lesa transkripsjonen.[3] NB! Sjølve fontpakken skal ikkje lastast opp dersom det gjeld opphavsrettslege restriksjonar.
    [1] Last ned SIL-fontar her: http://scripts.sil.org/cms/scripts/page.php?cat_id=FontDownloads.
    [2] Her finn du eit oversyn over SAMPA-symbol: https://www.phon.ucl.ac.uk/home/sampa/.
    [3] Eit døme på dette finn du i fila “To read the Church Slavonic transcriptions.pdf” i Eckhoff (2015), sjå http://hdl.handle.net/10037.1/10190.
  • Konvertering:
    Dersom videoane dine er lagra i eit format som ikkje er rekna som persistent (sjå avsnittet Kva er persistente filformat? ovanfor), så må dei konverterast til MPEG-4-format. Dersom du ikkje har tilgang til profesjonell konverteringsprogramvare, så tilrår vi at du bruker VLC Media Player (standard programvare i Mac og Windows), eller eit gratis konverteringsprogram som kan lastast ned frå nettet. Før du bruker eit slikt program, bør du setja deg inn i bruksvilkåra.

Datapakke


  • Matlab, R, S-Plus, SPSS eller liknande:
    I dei fleste programvarene for statistisk analyse er det mogleg å lagra grunndata i (eller eksportera dei til) rein tekstformat (.txt). I tillegg må du kopiera skriptet og lagra det som rein tekst i eit tekstbehandlingsprogram.
  • Programvare for massespektrometri:
    Ei rettleiing på korleis du kan konvertera .mid-filer til .mzML finn du her. Dersom du ikkje er vand med å bruka kommandolina i Windows, ta kontakt med brukarstøtta på institusjonen din.

3 Korleis beskriva dataa dine

For at andre skal kunna forstå og gjenbruka dataa dine er det viktig at du beskriv dei på ein konsistent og forståeleg måte. Det finst mange ulike typar data, og for dei fleste typane er det ingen felles standard for beskrivelse. I dette avsnittet gjev vi nokre retningsliner for korleis du må leggja til rette og beskriva dataa dine før du arkiverer dei i DataverseNO.

Du må beskriva dataa dine i ei fil med namnet “ReadMe” som du skal lasta opp saman med datafilene dine. ReadMe-fila må lagrast i rein tekstformat med Unicode UTF-8-koding (.txt). Dersom du har behov for illustrasjonar eller spesialteikn, så kan du lagra ReadMe-fila som PDF/A (sjå avsnittet Kva er persistente filformat? ovanfor for meir informasjon om desse filformata). Bruk gjerne tvungen nummerering på ReadMe-filnamnet (t.d. “00_ReadMe.txt”), slik at fila blir lista opp øvst i filoversikta.

I starten av ReadMe-fila må du gje eit oversyn over og ein kort beskrivelse av filene som inngår i datasettet. Resten av ReadMe-fila vil variera avhengig av kva type data du skal arkivera. Nedanfor følgjer nokre tilrådingar for ReadMe-filer for to vanlege typar av data, tabelldata og kjeldekode/dataskript.

Tabelldata

Det er tilrådd å lasta opp ei ReadMe-fil med ein utførleg beskrivelse av datafilene. Du må beskriva dataa i kvar kolonne, og kva dataformat og -standard(ar) som er brukte. Denne informasjonen kan du i tillegg lima inn i feltet Description i bolken Citation Metadata i DataverseNO-arkivet.

  • Kolonnar og kolonneoverskrifter:
    For kvar kolonne i tabelldatafila (.csv or .txt; sjå ovanfor) må du føra opp kva type data han inneheld, og kva format verdiane har. Kolonneoverskrifter må vera forståelege og ikkje for lange. Sjekk at du ikkje har brukt identiske overskrifter i same fila. Bruk berre alfanumeriske teikn, understrek eller bindestrek i kolonneoverskrifter. Det er god praksis å starta overskrifter med ein bokstav. Dersom det er mogleg, før opp måleiningar i kolonneoverskrifter. Bruk berre den øvste rada til kolonneoverskrifter, elles kan rader gå tapte når dataa er lasta inn på rekneark eller andre verktøy. Døme på gode kolonneoverskrifter: vowel_length_ms, record_time, language_name, pos.
  • Dataverdiar og formatering:
    Bruk standard kodar eller namn om mogleg (t.d. ISO-kodar for språknamn) og etablerte taggsett for POS/ordklassar (t.d. CLAWS2 Tagset). Unngå bruken av spesialteikn som komma, semikolon, tabulatorar i sjølve dataa. Slike teikn kan skapa problem når datafila blir lasta inn på eit rekneark eller eit anna verktøy. Dersom slike teikn likevel er nødvendig for å kunna presentera dataa, så må du forklara bruken i ReadMe-fila.
  • Døme på beskrivelse av tabelldata:
    – The column “vowel_length_ms” contains values for the vowel length in milliseconds of the analyzed items in the dataset. Only integer numbers are used, e.g. 45, 32, 11.
    – The column “record_time” contains values for the time when the record was made. The time format used is YYYY-MM-DD hh:mm, e.g. 2014-03-15 17:21.
    – The column “lang_name” contains values for the name of the analyzed languages. The ISO 639-2 Code format is applied:
    dan       Danish
    nob      Norwegian Bokmål
    swe      Swedish

    – The column “pos” contains values for the part of speech of the analyzed items. The applied tag set is the CLAWS2 Tagset:
    NP        proper noun, neutral for number (Indies, Andes)
    NP1      singular proper noun (London, Jane, Frederick)
    NP2      plural proper noun (Browns, Reagans, Koreas)

Kjeldekode/skript

Ein annan vanleg datatype er skript som er brukte i statistiske analysar. Før du arkiverer slike skript, sørg for at du legg til ein beskrivelse av kvart steg i skriptet. Nedanfor ser du eit døme frå TROLLing[1]:

[1] Janda et al. (2014), sjå http://hdl.handle.net/10037.1/10121


4 Filstorleik

Storleiken på kvar enkelt filopplasting skal ikkje overstiga 8 Gb. Viss du ønskjer å lasta opp filer som til saman er større enn 8 Gb, må du lasta dei opp i fleire omgangar. Dette gjer du ved å lagra datasettet etter kvar opplasting. Per i dag er det inga øvre grense for kor stort eit datasett kan vera, men vi tilrår at du tek kontakt med brukarstøtta på institusjonen din dersom du ønskjer å oppretta eit datasett med samla filstorleik på over 50 Gb.


5 Referansar


Delar av retningslinene ovanfor er henta og tilpassa frå fleire kjelder, m.a. desse:

Data Management General Guidance. Curation Center of the California Digital Library, University of California. https://dmptool.org/dm_guidance#types.

Praat beginners’ manual by Sidney Wood. http://www.fon.hum.uva.nl/praat/manualsByOthers.html

Preparing tabular data for description and archiving. Research Data Management Group, Cornell University. http://data.research.cornell.edu/content/tabular-data.

Recommendations for uploading data. ETH-Bibliothek.
http://www.library.ethz.ch/en/content/download/17058/442689/version/2/file/Empfehlungen_Datenupload_en.pdf

Sustainable Formats and Conversion Strategies at the Bentley Historical Library. Version 1.0, November 9th, 2011. http://bentley.umich.edu/dchome/resources/BHL_PreservationStrategies_v01.pdf.

For spørsmål, kommentarar eller innspel sjå informasjonssidene til forskarstøtta på institusjonen din.