Førebu dataa dine

Før du arkiverer data i DataverseNO (inkl. dei ulike samlingane, t.d. UiT Open Research Data, TROLLing, osb.), må du sørgja for at dataa dine er i tråd med retningslinene nedanfor. DataverseNO aksepterer berre forskingsdata i digital form. God praksis for korleis ein skal førebu forskingsdata for arkivering kan oppsummerast slik:

  • Bruk konsistente og forståelege filnamn (sjå bolk 1 nedanfor).
  • Lagre dataa dine i eit føretrekt filformat (sjå bolk 2 nedanfor).
  • Beskriv dataa dine i ei ReadMe-fil (sjå bolk 3 nedanfor).

Meir detaljerte retningsliner finn du nedanfor:

1 Filnamngjeving

Det å følgja god praksis for filnamngjeving og -organisering gjer det mykje lettare å finna fram til rett datafil, ikkje berre for deg sjølv, men også for eventuelle samarbeidspartnar, og seinare for andre forskarar som eventuelt skal gjenbruka dataa dine. Du må følgja desse grunnleggjande tilrådingane når du set namn på filene dine:

  • Bruk konsistente filnamn.
  • Bruk beskrivande, men korte filnamn (< 25 teikn).
  • Unngå mellomrom. I staden kan du bruka understrek (t.d. first_study), bindestrek (t.d. first-study) eller kamelstil (FirstStudy).
  • Unngå teikn som ” / \ : * . ? ‘ < > [ ] ( ) & $ æÆ øØ åÅ äÄ öÖ …
  • Bruk internasjonal datoformat: ÅÅÅÅ-MM-DD (t.d. 2017-10-25).
  • Namnet på ei fil i originalformat bør vera identisk med namnet på tilsvarande fil i føretrekt format (sjå nedanfor).

2 Føretrekte filformat


Kva er føretrekte filformat?

Når du lagrar dataa dine i eit føretrekt filformat, aukar sjansen for at dei skal kunna lesast og brukast også på lengre sikt. Nokre filformat er det meir sannsynleg at skal vera lesbare også på lengre sikt enn andre. Slike format er som regel

  • ikkje-proprietære
  • opne, og dokumenterte innanfor internasjonale standardar
  • brukar standard teiknkoding, helst Unicode (t.d. UTF-8)
  • ukomprimerte

Tabellen nedanfor gjev eit oversyn over føretrekte vs. ikkje-føretrekte filformat for eit utval av dokumenttypar. Lista over filformat i kolonnen “Ikkje-føretrekte filformat” er ikkje uttømande, men inneheld nokre av dei mest vanlege formata. Dersom datasettet ditt inneheld filformat som ikkje er lista opp her, ta kontakt med brukarstøtta på institusjonen din. Arkiver dataa dine i føretrekt format. Sørg også for at alle filene har ei gyldig filutviding, t.d. .txt, .pdf. Dersom det viser seg at dataa dine ikkje kan lagrast i føretrekt format, så kan dei arkiverast i originalformat, men då forpliktar DataverseNO seg ikkje til å bevara dei på lang sikt. Dersom det er føremålstenleg, kan filene også arkiverast i originalformat i tillegg til føretrekt format.

Filtype Føretrekte filformat (døme) Ikkje-føretrekte filformat (døme)
Lyd
  • Ukomprimert utan tap: Wav or AIFF (.wav/.aiff)
  • Komprimert utan tap: FLAC (.flac)
  • Komprimert med tap: Mp3 (.mp3)
  • AAC (.m4a)
  • Monkey’s Audio (.ape)
  • Ogg Vorbis (.ogg)
  • Windows Media Audio (.wma)
Pakkefil Pakkefiler blir automatisk pakka ut ved opplasting og bør berre brukast for å ta vare på mappestruktur; sjå meir i bolken Lasta opp filer. Dersom det er behov for å arkivera pakkefiler som pakkefiler, tilrår vi å bruka .zip. NB! Filene må då pakkast inn to gonger for at den inste pakken skal bli bevart ved opplasting.
Bilete
  • Ukomprimert: TIFF (.tif or .tiff)
  • Komprimert utan tap: PNG (.png)
  • Komprimert med tap: JPEG (.jpg)
  • Adobe Photoshop (.psd)
  • Apple Picture File (.pct)
  • Graphics Interchange Format (.gif)
  • Raw Image Data File (.raw)
  • Windows Bitmap (.bmp)
Tekst (lysbilete, illustrasjonar)
  • PDF/A (.pdf) saman med originalfil
  • PowerPoint (.pptx)
Tekst (tabellar)
  • Tabulatorseparert rein tekstfil i Unicode (.txt)
  • Excel (.xlsx)
Tekst (tekst)
  • Rein tekst (.txt)

Dersom formattering/struktur trengst:

  • XML, PDF/A (.pdf) saman med originalfil
  • Word (.docx)
Markeringsspråk
  • XML (.xml)
  • HTML (.html)
  • Relaterte filer: .css, .xslt, .js, .es
  • SGML (.sgml)
  • Markdown (.md)

 

Transkripsjon Filformat:

  • PDF/A (.pdf) saman med originalfil
  • PDF/A (.pdf) saman med komma-/tabulatorseparert tekstfil (.csv/.txt)

Font:

  • Unicode IPA (t.d. Charis SIL, Doulos SIL, Gentium Plus, Andika), ASCII SAMPA
Filformat:

  • Word (.doxc)
  • Excel (.xlsx)

Font:

  • Eldre fontar for transkripsjon (SIL IPA(93))
Video
  • MPEG-4 (.mp4)
  • AVI (.avi)
  • Flash Video (FLV)
  • Quicktime (.mov)
  • Windows Media Video (WMV)
Data frå statistikkprogramvare
  • R (.R, .RData)
  • SPSS (.dat/.sps)
  • STATA (.dat/.DO)
  • SPSS Portable (.por)
  • SPSS (.sav)
  • STATA (.dta)
  • SAS (.7dat, .sd2, .tpt)
Data frå programvare for kvalitativ analyse, t.d. ATLAS.ti, NVivo
  • Grunndata i føretrekt format, t.d. PDF/A, rein tekst i Unicode (.txt)
  • Analysepakken som REFI-QDA Project (.qdpx)[1]
  • Ulike format for datapakkar, t.d. .nvp, .hpr
Data frå programvare for massespektrometri
  • mzML (.mzML)[2]
  • Agilent D (.D)
  • Bruker BAF (.BAF)
  • Bruker FID (.FID)
  • Chromtech DAT (.DAT)

[1] Les meir om formatet her.
[2] Les meir om formatet her.


Korleis lagra eller konvertera dataa dine til eit føretrekt filformat?

Dette avsnittet dekkjer følgjande dokumenttypar: Lyd, pakkefiler, bilete, tekst, transkripsjon, video og diverse datapakkar. Dersom dataa dine består av dokumenttypar som ikkje er lista opp her, ta kontakt med brukarstøtta på institusjonen din.

Lyd


  • Opptak:
    Valet av kvalitetsnivå på lydfilene er avhengig av formålet med opptaket. Dersom opptaket er av ein slik art at akustiske detaljar er irrelevante, er mp3-formatet tilstrekkeleg. Men ver merksam på at mp3 er eit format som er komprimert med kvalitetstap: Noko av informasjonen om talesignalet går irreversibelt tapt under opptaket, og formatet er derfor mindre eigna for taleanalyse dersom dataa skal gjenbrukast. Ettersom mp3-formatet gjer data mindre gjenbrukbare, er det tilrådd å bruka dei ukomprimerte formata .wav eller .aiff.
  • Konvertering:
    Dersom lagringskapasitet er eit problem, kan du konvertera ukomprimerte .wav- og .aiff-filer etter opptaket. Vi tilrår då å velja eit format som komprimerer utan informasjonstap, som t.d. FLAC (Free Lossless Audio Codec). Konvertering til FLAC er reversibel, dvs. at originalfila vil bli gjenoppretta når du dekomprimerer FLAC-fila. Til filkomprimering kan du bruka open programvare som t.d. Audacity (http://web.audacityteam.org/) eller Praat (http://www.fon.hum.uva.nl/praat/).

Pakkefiler

Pakkefiler blir automatisk pakka ut ved opplasting og bør berre brukast for å ta vare på mappestruktur; sjå meir i bolken Lasta opp filer. Dersom det er behov for å arkivera pakkefiler som pakkefiler, tilrår vi å bruka .zip. NB! Filene må då pakkast inn to gonger for at den inste pakken skal bli bevart ved opplasting. Følg desse tilrådingane for innpakking:

  • Bruk filpakkar med utvidinga .zip.
  • Bruk eit av desse verktøya for å pakka inn filene dine:
  • Ikkje bruk komprimering eller kryptering når du pakkar inn filene.

Bilete


  • Komprimering:
    Bilete er ofte komprimerte for å redusera mengda av unødvendig eller irrelevant informasjon. Slik kvalitetsreduksjon kan vera usynleg for det menneskelege auget. Ei PNG-fil t.d. tek vare på all informasjon som ligg i biletet. I JPEG, eit anna mykje brukt format, kan ein velja komprimeringsgraden. Avhengig av bilettype og eventuelle lagringsrestriksjonar må du velja ein komprimeringsgrad som er forsvarleg med tanke på gjenbruk og deling av bileta dine.
  • Konvertering:
    Dersom bileta dine er lagra i eit format som ikkje blir rekna som føretrekt (sjå avsnittet Kva er føretrekte filformat? ovanfor), så må dei konverterast til JPEG, PNG eller TIFF. Konvertering kan enkelt utførast i programvare som Paint (Windows), Preview (Mac) eller GIMP Image Editor (Linux). Det finst også ei rekkje (andre) gratis biletkonverteringsprogram.

Tekst


Rein tekst


Dersom dataa dine er representerte som rein tekst med lita eller inga formatering, tilrår vi at du opprettar og lagrar dataa dine som reine tekstfiler (.txt). Dette kan du gjera i eit enkelt tekstbehandlingsprogram, t.d. gedit, TextEdit eller WordPad. Dersom du brukar eit meir avansert tekstbehandlingsprogram for å strukturera dataa dine, som t.d. Microsoft Word eller LibreOffice Writer, så må du likevel også lagra dei i rein tekstformat. Du kan gjera det ved å velja “Lagra som: Rein tekst (.txt)” i menyen Fil > Lagra som. Som teiknkoding vel du Unicode UTF-8.


Formatert tekst

Dersom dataa dine inneheld formatert tekst inkl. viktige lineskift, tabulatorar, figurar osb., så tilrår vi at du konverterer datafila til ei PDF/A-fil (.pdf). Last opp både originalfila og PDF/A-fila. Dei same reglane gjeld når du brukar eit tekstbehandlingsprogram som Microsoft Word eller LibreOffice Writer når du strukturerer dataa dine, eller når du bruker eit presentasjonsverktøy som Microsoft PowerPoint eller LibreOffice Impress.

Oppretta ei PDF/A-fil i Microsoft Word:
Mac (2011): Skriv ut > PDF > Lagre som Adobe PDF > Adobe PDF-innstillingar: PDF/A-1b: 2005 (CMYK). Dette alternativet krev Adobe Acrobat. Dersom Adobe Acrobat ikkje er tilgjengeleg, lagre fila som vanleg PDF, og konverter denne til PDF/A ved å bruka eit verktøy av typen PDFTRON (sjå nedanfor).

Windows (2013+): Lagre som Adobe PDF > Filtype: PDF > Alternativ: PDF/A-kompatibel

Oppretta ei PDF/A-fil i LibreOffice Writer:
Linux: Fil > Eksporter som > PDF > Archive PDF/A-1a.

Lagra/konvertera ei PDF-fil som PDF/A-fil i Adobe Acrobat (Pro eller liknande):
Lagre som annet > Arkiverbar PDF (PDF/A).

Lagra/konvertera ei PDF-fil som PDF/A-fil i PDFTRON (eller liknande):
Gå til https://www.pdftron.com/pdf-tools/pdfa-converter/, bla nedover til Drag and drop files-området, vel PDF/A-1A i felt 1, og last opp fila i felt 2.


Tabelltekst

Tabelltekst må lagrast som reine tekstfiler med Unicode-teiknkoding (.csv/.txt). Dersom du har oppretta slike data i reknearkprogram som Microsoft Excel eller LibreOffice Calc, så kan du konvertera dei til eit tilrådd format ved å følgja denne oppskrifta:

Microsoft Excel (Mac, Windows):

  • (På berbar maskin: Klikk på Flere alternativer under filtypenedtrekksmenyen, som viser Excel Workbook (*.xslx))
  • Vel Fil i hovudmenyen > Lagre som > Vel mappe
  • Under Lagre som filtype vel Tekst (tabulatordelt) (*.txt)
    (NB! Ikkje vel Unicode Text (*.txt))
  • Under Verktøy vel Webalternativer
  • Vel fana Koding
  • I feltet Lagre dette dokumentet som vel Unicode (UTF-8)
  • Vel fana Skrifter
  • I ruta Tegnsett vel Flerspråklig/Unicode/Annet skript, og klikk på OK
  • Klikk på Lagre
  • Stadfest ved å klikka på Ja
  • NB! Denne prosedyren må gjentakast for kvart rekneark i Excel-arbeidsboka.

LibreOffice Calc (Linux, Mac, Windows):

  • Klikk på Fil > Lagre som filtype: Tekst, CSV (.csv)
  • Gjer følgjande for kvart rekneark i LibreOffice Calc-arbeidsboka:
    • Linux og Windows: Vel følgjande i fileksporttruta
      • Teiknsett: Unicode (UTF-8)
      • Feltavgrensar: {Tabulator} (= recommended)
      • Strengskiljeteikn: ingen (slett det som står i feltet)
    • Mac: I feltet Filtype vel “Tekst CSV (.csv)”. Vel følgjande i dataeksportruta:
      • Tegnsett: Unicode (UTF-8)
      • Feltavgrenser: {Tab}
      • Skilletegn: ” (doble hermeteikn)

Dersom det grafiske oppsettet på tabelldataa dine er avgjerande for å kunna forstå dei, så må du også lasta opp ein PDF/A-versjon av dokumentet. Det same gjeld dersom reknearket inneheld figurar, diagram eller andre grafiske element som er nødvendig for å kunna forstå dataa. Ei oppskrift på PDF/A-konvertering finn du ovanfor i avsnittet om formatert tekst.


Transkripsjon


  • Font:
    For all transkripsjon må ein bruka font med Unicode-koding, t.d. IPA Doulos SIL.[1] For fonetisk transkripsjon kan ein alternativt bruka SAMPA (Speech Assessment Methods Phonetic Alphabet, ASCII characters)[2] i staden for IPA. Dersom ingen tilrådd font er tilgjengeleg for transkripsjonen som er nødvendig for dataa dine, så må du leggja ved ei separat ReadMe-fil der du forklarer korleis ein skal gå fram for å opna/lesa transkripsjonen.[3] NB! Sjølve fontpakken skal ikkje lastast opp dersom det gjeld opphavsrettslege restriksjonar.
    [1] Last ned SIL-fontar her: http://scripts.sil.org/cms/scripts/page.php?cat_id=FontDownloads.
    [2] Her finn du eit oversyn over SAMPA-symbol: https://www.phon.ucl.ac.uk/home/sampa/.
    [3] Eit døme på dette finn du i fila “To read the Church Slavonic transcriptions.pdf” i Eckhoff (2015), sjå http://hdl.handle.net/10037.1/10190.
  • Konvertering:
    Dersom videoane dine er lagra i eit format som ikkje er rekna som føretrekt (sjå avsnittet Kva er føretrekte filformat? ovanfor), så må dei konverterast til MPEG-4-format. Dersom du ikkje har tilgang til profesjonell konverteringsprogramvare, så tilrår vi at du bruker VLC Media Player (standard programvare i Mac og Windows), eller eit gratis konverteringsprogram som kan lastast ned frå nettet.

Datapakke/analysepakke


  • Statistikkprogramvare, t.d. Matlab, R, S-Plus, SPSS:
    I dei fleste programvarene for statistisk analyse er det mogleg å lagra grunndata i (eller eksportera dei til) rein tekstformat (.txt). I tillegg må du kopiera skriptet og lagra det som rein tekst i eit tekstbehandlingsprogram.
  • Programvare for kvalitativ analyse, t.d. ATLAS.ti, NVivo:
    I nokre programvarer for kvalitativ analyse er det mogleg å lagra grunndata i (eller eksportera dei til) føretrekt filformat, t.d. PDF/A eller rein tekstformat (.txt). I tillegg kan du eksportera analysepakken som såkalla REFI-QDA Project (.qdpx). Slik gjer du dette i NVivo: Klikk på menyfana Share, og så på Export Project. I vindauget som kjem opp, kryss av på REFI-QDA Project, og vel Location, dvs. kor du vil lagra fila, og skriv inn filnamnet.
  • Programvare for massespektrometri:
    Ei rettleiing på korleis du kan konvertera .mid-filer til .mzML finn du her. Dersom du ikkje er vand med å bruka kommandolina i Windows, ta kontakt med brukarstøtta på institusjonen din.

3 Korleis beskriva dataa dine

For at andre forskarar skal kunna forstå og gjenbruka dataa dine er det viktig at du beskriv dei på ein konsistent og forståeleg måte før dei blir publiserte. Det er to plassar i DataverseNO der du skal leggja inn slik dokumentasjon, i metadatafelta og i ei separat ReadMe-fil som skal lastast opp saman med datafilene:

Metadata

Metadata er informasjon om dataa dine som gjer at dei blir gjenfinnbare i søkjetenester. Når du opprettar eit datasett, er det derfor viktig at du legg inn så mykje relevant informasjon som mogleg i metadataskjemaet (sjå avsnitta Leggja inn metadata og Leggja inn meir metadata i arkiveringsguiden).

ReadMe-fil

Ei ReadMe-fil er ei meir detaljert rettleiing på datasettet ditt som gjer det mogleg for andre forskarar å tolka, forstå og gjenbruka dataa dine. ReadMe-fila dokumenterer korleis datasettet er oppretta, kor fullstendig det er, og kva slags begrensningar det har. ReadMe-fila må minimum innehalda dette:

  • Tittel på datasettet, DOI, kontaktinformasjon
  • Metode
  • Data- og filoversikt
  • Filspesifikk informasjon
  • Vilkår for gjenbruk

Bruk gjerne denne generelle malen som utgangspunkt for ReadMe-fila. For datasett som inneheld programkode eller kodebasert data, kan du bruka denne malen for programkode.

ReadMe-fila skal lagrast i rein tekstformat med Unicode UTF-8-teiknkoding (.txt). Dersom du har behov for illustrasjonar eller anna formatering, så kan du lagra ReadMe-fila som PDF/A (sjå avsnittet Kva er føretrekte filformat? for meir informasjon). Bruk helst tvungen nummerering på ReadMe-filnamnet (t.d. «00_ReadMe.txt»), slik at fila blir lista opp øvst i filoversikta.

Her er nokre døme på ReadMe-filer: døme 1 (samfunnsfag); døme 2 (naturvitskap).


4 Filstorleik

Storleiken på kvar enkelt filopplasting skal ikkje overstiga 8 Gb. Viss du ønskjer å lasta opp filer som til saman er større enn 8 Gb, må du lasta dei opp i fleire omgangar. Dette gjer du ved å lagra datasettet etter kvar opplasting. Per i dag er det inga øvre grense for kor stort eit datasett kan vera, men vi tilrår at du tek kontakt med brukarstøtta på institusjonen din dersom du ønskjer å oppretta eit datasett med samla filstorleik på over 50 Gb.


5 Referansar


Delar av retningslinene ovanfor er henta og tilpassa frå fleire kjelder, m.a. desse:

Data Management General Guidance. Curation Center of the California Digital Library, University of California. https://dmptool.org/dm_guidance#types.

Praat beginners’ manual by Sidney Wood. http://www.fon.hum.uva.nl/praat/manualsByOthers.html

Preparing tabular data for description and archiving. Research Data Management Group, Cornell University. http://data.research.cornell.edu/content/tabular-data.

Recommendations for uploading data. ETH-Bibliothek.
http://www.library.ethz.ch/en/content/download/17058/442689/version/2/file/Empfehlungen_Datenupload_en.pdf

Sustainable Formats and Conversion Strategies at the Bentley Historical Library. Version 1.0, November 9th, 2011. http://bentley.umich.edu/dchome/resources/BHL_PreservationStrategies_v01.pdf.

For spørsmål, kommentarar eller innspel sjå informasjonssidene til forskarstøtta på institusjonen din.

 

Print Friendly, PDF & Email