Kuratorguide

Nedanfor finn du retningsliner for korleis støttetenester på DataverseNO-partnarinstitusjonar skal kuratera arkiv i DataverseNO. Viss du utover det treng hjelp med eller har spørsmål kring kuratering, ta kontakt med brukarstøtta på institusjonen din.

Kuratering av datasett

Når ein brukar har oppretta eit datasett og sendt det til vurdering («Review»), så får kuratorane for det gjeldande (sub)dataverset automatisk beskjed om det på e-post. Kuratoren loggar då inn på DataverseNO og klikkar på brukarnamnet sitt øvst til høgre, og så på Notifications:

I Notifications-fana leitar kurator opp rett melding, dvs. meldinga om at det aktuelle datasettet er blitt sendt inn til vurdering («Review»), og klikkar på datasettlenkja:

Kurator kjem då til framsida («landing page») av sjølve datasettet og skal no kuratera det.

Det første du bør sjekka, er om innhaldet og forfattarane av datasettet oppfyller krava i DataverseNO Accession Policy. Du bør også sjekka om datasettet er oppretta i rett arkiv (= (sub)datavers). For ein «vanleg» brukar frå ein DataverseNO-partnarinstitusjon (t.d. UiT) vil det vera det tilhøyrande institusjonsarkivet (t.d. UiT Open Research Data). Men for meir spesielle brukarar kan det vera eit tematisk arkiv. For ein språkforskar vil det som regel vera TROLLing. Dersom datasettet er oppretta i feil arkiv, så kuraterer du det på vanleg måte (sjå nedanfor), men etter at det er blitt publisert, så gjev du beskjed til research-data@support.uit.no om kor datasettet skal flyttast.

Elles går kuratering av eit datasett ut på å sjekka om datasettet er strukturert og dokumentert etter beste praksis, som beskrive i retningslinene (sjå menypunktet Arkivering). Det er fire område som skal sjekkast: filer, metadata, lisens og versjonar. Du kjem til dei fire områda ved å klikka på fanene Files, Metadata, Terms og Versions:

Når ein får beskjed om at eit nytt datasett er sendt inn til vurdering, så står det per i dag dessverre ikkje om det er eit nytt datasett eller ein versjon av eit tidlegare publisert datasett. Derfor er det lurt å byrja med å kika på versjonane først, for då ser ein om det er snakk om eit heilt nytt datasett, eller berre ein ny versjon av eit tidlegare publisert datasett. I det siste tilfellet vil du sjå kva som er blitt endra, og då treng du berre å kuratera endringane. Sjå meir om versjonering nedanfor i avsnittet Ny versjon av publisert datasett.

Er det snakk om eit nytt datasett, er kanskje det enklaste å byrja å sjå på metadataa, for då får ein ei oversikt over kva datasettet handlar om.

Metadata


Klikk på fana Metadata, og så på knappen Add + Edit Metadata.

Sjekkliste for kuratering av metadata:

  • Er felta fylte ut korrekt? Til dømes:
    • Title: Dersom det er snakk om eit datasett som er grunnlag for ein publikasjon, er «Replication data for:» lagt til tittelen på datasettet?
    • Author:
      • Er namnet på forfattaren/forfattarane invertert (etternamn, førenamn)?
      • Er institusjonstilhøyrsle (på engelsk) lagd til (t.d. UiT The Arctic University of Norway)?
      • Forfattarar bør oppfordrast til å oppretta ORCID, og leggja denne inn i feltet Identifier Scheme.
    • Contact:
      • Dersom det er ein eller fleire personar, bør namnet vera invertert (etternamn, førenamn). Dersom det ein institusjon, brukar ein vanleg format.
      • Er det lagt inn institusjonstilhøyrsle (på engelsk) og korrekt e-postadresse?
    • Description:
      • Her bør ein skriva inn ein kort presentasjon av datasett. Ein kan også bruka (delar av) samandraget av den relaterte publikasjonen.
      • Ein bør helst også fyllta ut datofeltet her på formatet ÅÅÅÅ-MM-DD.
    • Keyword:
      • Er det lagt inn passande nøkkelord? Dersom det finst eit synonymt nøkkelord som er meir utbreidd og som allereie er i bruk i (sub)dataverset, bør du gjera brukaren merksam på det.
      • Er det brukt eitt felt per nøkkelord?
    • Related publication:
      • Dersom det er snakk om eit datasett som er grunnlag for ein publikasjon, er det lagt inn referanse til publikasjonen her?
      • Dersom det er snakk om eit manuskript som er sendt inn til vurdering («submitted»), men som ikkje er blitt akseptert eller publisert (enno), så skal ikkje namnet på tidsskriftet vera nemnt nokon stad i datasettet. Ein bør då heller berre skriva «Submitted for review» eller liknande.
    • Language: Dette feltet er mest relevant for datasett som handlar om språk (t.d. i TROLLing). Feltet Language handlar om analysespråket, ikkje objektsspråket. I eit datasett om franske substantiv som er beskrive på engelsk, skal det altså ikkje stå «French» i dette feltet, men «English» eller ingenting.
    • Producer: Er det lagt inn rett Producer? I institusjonsarkiv er dette feltet førehandsutfylt. Men i tematiske arkiv av typen TROLLing bør du sjekka om brukaren har skrive inn rett institusjonsnamn (t.d. UiT The Arctic University of Norway eller namnet på ein annan institusjon/finansiør).
    • Distributor: Dette feltet er som regel førehandsutfylt, og det skal vera namnet på arkivet (t.d. UiT Open Research Data eller TROLLing). Sjekk om innhaldet ikkje er blitt endra.
    • Distribution Date (embargo): Dette feltet blir brukt for å spesifisera filembargo. Dersom forfattaren har lagt tilgangsrestriksjonar på (nokre av) filene i datasettet, så må feltet Distribution Date innehalda datoen (ÅÅÅÅ-MM-DD) for når filene blir tilgjengelege. Elles bør dette feltet vera tomt. Les meir om embargo her. Ein månad før embargoen går ut, sender DataverseNO ei automatisk melding til research-data@support.uit.no, og kuratoren må då minna forfattaren om dette.
    • Geographic Coverage: Mange datasett er relaterte til ein eller fleire geografiske stader eller område. Dersom forfattaren ikkje har lagt inn informasjon om dette i metadatabolken Geospatial Metadata, så bør du føreslå det overfor han/ho.
  • Generelt:
    • Er det lagt inn tilstrekkeleg med informasjon for at dataa kan gjenfinnast?
    • Er metadataa lagde inn på engelsk eller eit anna vanleg kommunikasjonsspråk på det aktuelle fagområdet?
    • NB! Metadatafelt må ikkje innhalda HTML-taggar og andre spesialteikn (t.d. [ og ]). Dette gjeld særleg feltet Description.

Filer


Sjekkliste for kuratering av filer:

  • Er datafilene dokumenterte i ei ReadMe-fil? NB! Dette er eit absolutt krav.
  • Er det brukt tvungen nummerering på ReadMe-fila (t.d. “00_ReadMe.txt”), slik at fila blir lista opp øvst i filoversikta?
  • Sjekk om filene lèt seg opna.
  • Er det brukt konsistente og forståelege filnamn?
  • Er dataa i tillegg til originalformatet også lasta opp i eit føretrekt filformat? Som hjelpemiddel kan vi her bruka informasjonssidene om filformat til Library of Congress og UK National Archive si PRONOM-teneste.
  • Har alle filene ei filutviding, t.d. .txt, .pdf?
  • Dersom det er valt embargo, så må kurator sjekka at informasjon om embargo på filnivå er lagd inn som beskrive her.
  • Filstorleik:
    • Standard øvre grense per opplasting er 8 GB. Viss ein brukar ønskjer å lasta opp filer som til saman er større enn 8 Gb, må han/ho lasta dei opp i fleire omgangar. Dette gjer ein ved å lagra datasettet etter kvar opplasting. Per i dag er det inga øvre grense for kor stort eit datasett i DataverseNO kan vera, men vi tilrår at brukaren tek kontakt med brukarstøtta på institusjonen sin dersom han/ho ønskjer å oppretta eit datasett med samla filstorleik på over 50 Gb.
    • Dersom det er behov for opplasting av fil(er) som samla sett er større enn 20 GB, men mindre enn 50 GB, så må dette avtalast med Obi/Karl Magnus (UiT-eksterne partnarar skal ta kontakt på research-data@support.uit.no). Dei kan då opna opp for dette innanfor eit avtalt tidsrom (normalt 24 timar). Kurator avklarer med forskar om når dette kan gjørast, og avtaler med Obi/Karl Magnus (UiT-eksterne avtaler via research-data@support.uit.no). Etter at tidsperioden har utløpt, så går Dataverse tilbake til standard øvre grense på 20 GB.
    • Dersom det er behov for opplasting av fil(er) som samla sett er større enn 50 GB, så må det gjørast som ein importjobb og ikkje som opplasting via grensesnittet til Dataverse. Kurator avtaler/avklarer med forskar og med Obi/Karl Magnus (UiT-eksterne avtaler via research-data@support.uit.no). Obi lagar eit skript (program) for import av store filer. Etter at import er gjennomført, så må forskar bli tildelt eigarskap/rettigheiter til datasettet (v/admin), og metadata må leggjast på (+ eventuelle mindre filer) (v/kurator). I slike tilfelle må det bereknast ventetid på å få jobben utført.
    • NB! Enkeltforskarar utan institusjonsavtale kan i utgangspunktet arkivera data på opptil 10 GB gratis. Sjekk om det samla datavolumet er innanfor denne grensa ved å summera opp filstorleikane.

Detaljert informasjon om val av filnamn og persistent filformat og dokumentasjon av data finn du i avsnittet Førebu dataa dine. Der finn du òg ei detaljert rettleiing på korleis ein lagrar/konverterer ulike typar dokument til føretrekte filformat. Dersom du har spørsmål rundt dette, ta kontakt med brukarstøtta på institusjonen din.

Det er beste praksis å lagra tabelldata som i tabulatorseparert rein tekst i Unicode UTF-8, utan såkalla BOM («Byte Order Mark»). Dersom det ikkje er mogleg å lagra tabellen/reknearket som utf-8 utan BOM, kan ein gjera det i Notepad++ på følgjande måte:

  1. Opne tekstfila (.txt) i Notepad ++ (Notepad++ er basert på open kjeldekode og kan lastast ned på https://notepad-plus-plus.org/. Spør IT-brukarstøtta på din institusjon om hjelp med å få det installert på datamaskinen din).
  2. Klikk på Teiknkoding (Character Encoding) i toppmenyen, og vel Gjer om til UTF-8 utan BOM (eller tilsvarande på bokmål eller engelsk):
  3. Lagre fila.

 

Statistikkdata (t.d. R og SPSS)

Ei nyttig oversikt over filformat som er nytta i diverse statistikkprogram, finn ein her. Når det gjeld R, konkluderer dei med:

In conclusion, if you are working with R you should provide a .csv* file which includes your data and separate .R- or .Rmd-files which include your syntax to ensure long-term availability. Additionally, you may add Rdata-files for easier access to the same information.

(* Vi tilrår tabulatorseparert Unicode UTF-8 .txt.)

Skriptet ligg i .R-filene. .R-filer er reine tekstfiler (ein kunne også ha brukt ekstensjonen .txt). .Rmd

Rmd RMarkdown files are a great way to combine data documentation, data visualization and data analysis in one single file.

Med andre ord vil vi ha dette:

  • Grunndata i tabulatordelt Unicode UTF-8 (.txt) = føretrekt filformat
  • R-koden i Unicode UTF-8 (.R) = føretrekt filformat
  • .rda = ikkje-føretrekt filformat, men fungerer i R, som er open og dokumentert programvare
  • Eventuelt .rmd

Lisens («Terms»)

Sjekk om forfattaren IKKJE har endra på på Terms of Use = CC0 i Terms-fana. Dersom han/ho har gjort endringar der, bør det diskuterast med superbrukar på den aktuelle DataverseNO-partnarinstitusjonen. (Når ein kryssar av på at ein ikkje aksepterer CC0, så får ein opp lenkje til ein Sample Data Usage Agreement.)

For CC BY har vi blitt samde om teksten nedanfor. Når lisensspørsmålet er avklart med forskingsdatagruppa, så teksten limast inn i feltet Terms of Use (hermeteikna må fjernast):

“This dataset may be reused according to the Creative Commons Attribution 4.0 International (CC BY 4.0) license as described here: <a href=”https://creativecommons.org/licenses/by/4.0/”
title=”TermsOfUse” target=”_blank”>https://creativecommons.org/licenses/by/4.0/</a>.”

NB! DataverseNO aksepterer berre lisensar som gjev tilgang til data. Jamfør DataverseNO Access and Use Policy:

In line with the intention of DataverseNO to provide maximum public access to unrestricted research data, DataverseNO promotes licenses that are recommended for the re-use of research data, and only accepts licenses providing access to deposited data in one form or another.


Senda datasett tilbake til forfattar

Dersom datasettet ikkje er strukturert og beskrive som det skal, så sender kurator datasettet tilbake til forfattaren:

NB! I tillegg sender kurator e-post til brukar med beskjed om kva som må gjerast med datasettet før det kan publiserast. Brukaren bør visast til (dei relevante avsnitta i) arkiveringsguiden (https://site.uit.no/dataverseno/nn/arkivering/) på DataverseNO-infosida. Det er mogleg å lenkja direkte til visse avsnitt i arkiveringsguiden. Slik får du tak i rett lenkjeadresse: Hald musepeikaren over lenkjesymbolet i starten av det aktuelle avsnittet, høgreklikk, og vel “Kopiér linkadressen”:

 

Informer også forfattar om at han/ho på nytt må klikka på Submit for review når han/ho har gjort dei nødvendige endringane. Du kan senda e-post på to måtar:

  1. Når du er i det aktuelle datasettet, klikk på knappen med brevsymbolet, og skriv inn meldinga di i vindauget som kjem opp:
  2. Når du er i det aktuelle datasettet, klikk på Edit > Metadata, og leit opp e-postadressa i feltet Contact > Email:

    og send e-post via e-postprogrammet ditt (t.d. Outlook).

I ein komande versjon av Dataverse vil det vera mogleg å kommunisera med brukarar via Dataverse.

NB! Dersom kuratoren identifiserer grunnleggjande avvik ifrå DataverseNO sine retningsliner og depositor ikkje går med på å gjera nødvendige endringar i datasettet, så skal ikkje datasettet publiserast. Dersom kuratoren er usikker på om datasettet oppfyller DataverseNO sine retningsliner, så bør dette bli teke opp med DataverseNO-administratorgruppa ved UiT Noregs arktiske universitet. Gruppa skal kontaktast på adressa research-data@support.uit.no. I siste instans er det styret for DataverseNO som avgjer slike saker.


Publisera datasett

Når alt er OK med datasettet, blir det publisert av kurator:

Brukar får då tilsendt på e-post ei automatisk melding frå Dataverse om at datasettet er publisert.

 

Promotering i sosiale medium

Visse arkiv brukar å promotera arkivet ved å leggja ut informasjon om nye datasett på sosiale medium. Når det gjeld TROLLing, brukar UB UiT å leggja ut ei melding på Twitter og på TROLLing-Facebook-gruppa om at eit nytt datasett har blitt publisert. Dei brukar også å senda ein e-post til forfattaren av datasettet med følgjande beskjed:

I have now published your dataset. Thanks for sharing your data! You can find an announcement of the upload on our Facebook and Twitter page, and we encourage you to like this in order to get updates about the archive: https://www.facebook.com/TromsoRepositoryofLanguageandLinguistics/.


Ny versjon av publisert datasett (inkl. fjerning av embargo)

Når ein forfattar gjer endringar i eit publisert datasett, blir det oppretta eit nytt utkast (DRAFT), som så må sendast inn til vurdering før den nye versjonen kan bli publisert. Kurator får då melding om at eit nytt datasett ventar på kuratering. NB! Per i dag går det ikkje fram av denne meldinga om det dreiar seg om eit heilt nytt datasett eller ein ny versjon av eit tidlegare publisert datasett. Ofte kan det gå lang tid mellom nye versjonar, og då hugsar ein gjerne ikkje at datasettet er blitt publisert før. Det er derfor lurt å starta kvar kurateringsprosess ved å undersøkja om datasettet har versjonar. Klikk på fana Versions:

Når du klikkar på View Details, får du opp ei oversikt over endringar mellom versjonar. Du bør etterpå sjå nærare på endringane som er gjorde i metadata og/eller filer, og då følgjer du oppskrifta i avsnitta ovanfor. Når du etter kurateringa publiserer den nye versjonen, får du spørsmål om versjonsnummer:

Hovudregelen er at dersom endringane berre gjeld metadata, så er det ein Minor Release. Dersom det er gjort endringar i filene, så er det ein Major Release. NB! Ved publisering av ny versjon etter fjerning av embargo/hengjelås på fil(er), så bør ein velja Minor Release, for då vil vi ikkje at versjonsnummeret i datasettreferansen skal endrast.

Frå tid til anna bør ein sjekka om det ligg upubliserte datasett i arkivet som ikkje er blitt sende inn til vurdering (In Review). Dersom eit datasett har hatt status Unpublished i meir enn tre månader, bør ein ta kontakt med forfattar og gjera han/ho merksam på at dei må klikka på Submit for review for at datasettet skal kunna publiserast.


Lesetilgang til upublisert datasett


Scenario: Forfattar ønskjer å gje lesetilgang til datasettet sitt til samarbeidspartnar, fagfelle, tidsskriftsredaktør e.l. før det er blitt publisert.

Oppskrift:

  • Log inn, og gå til det upubliserte datasettet.
  • Klikk på Edit-knappen til høgre, og vel Private URL:
  • Kopier den private URL-en, og send lenkja til forfattaren ev. han/ho som skal ha tilgang til datasettet.

Lesetilgang til låst fil i publisert datasett


Scenario:

  • Forfattar ønskjer å gje lesetilgang til låst fil (= fil med embargo) i det publiserte datasettet sitt til samarbeidspartnar, fagfelle e.l.
  • Ein forskar spør om tilgang til låst fil ved å klikka på Request Access-knappen (dersom denne er aktivert).

Oppskrift:

  • Den som skal ha tilgang til den låste fila, må ha ein brukarkonto i DataverseNO. Dersom det ikkje er tilfellet, må han/ho oppretta ein konto. Vis den nye brukaren til avsnittet Step 1: Create a user account / Log in i arkiveringsguiden. Når brukarkontoen er på plass:
  • Log inn på DataverseNO, og gå til det aktuelle datasettet.
  • Klikk på Edit-knappen til høgre, og vel Permissions og så File:
  • Klikk på Grant Access to Users/Groups:
  • Søk på og legg til brukaren som skal ha tilgang til fila/filene i feltet Users/Groups, hak av på fila/filene som brukaren skal ha tilgang til, og klikk på Grant:

(Kontakten for eit datasett eller eit datavers er den/dei som får e-posten som blir send når ein klikkar på Contact-knappen. Når ein derimot spør om tilgang til ei låst fil, så går e-posten ikkje til kontakten for datasettet/dataverset, men til den/dei personane som har rolla ManageDatasetPermissions. I DataverseNO er dette som regel kuratoren/kuratorane av det aktuelle dataverset.)


Redigeringstilgang

Når ein brukar opprettar eit datasett i Dataverse, får han/ho sjølvsagt automatisk redigeringstilgang til det datasettet. Men i visse tilfelle kan det bli aktuelt å tildela redigeringstilgang manuelt. Moglege scenario:

  • Scenario 1: Ein kurator har oppretta eit datasett på vegner av ein forskar (jf. t.d. pilotprosjektet ved UiT i 2016). Forskaren vil no sjå over datasettet før det blir publisert.
  • Scenario 2: Ein forskar har oppretta eit datasett og ønskjer at fleire i forskingsgruppa skal få redigera datasettet.
  • Scenario 3: Ein forskar har oppretta eit eller fleire datasett i eit institusjonsarkiv (t.d. UiT Open Research Data), men ikkje fått publisert det enno. Forskaren sluttar på institusjonen og får ikkje logga på via Feide lenger. Vi må oppretta lokal brukarkonto for forskaren. Når denne kontoen er oppretta, må forskaren få tilgang til sine «gamle» datasett.

Ta kontakt med Dataverse-administratoren på din institusjon for å få endra/tildelt tilgangsrettar på datasettnivå.


Flytting av datasett

Per i dag er det ikkje mogleg å flytta eit datasett frå eitt datavers til eit anna via brukargrensesnittet. Dersom t.d. ein språkvitar frå UiT har oppretta eit språkdatasett i UiT Open Research Data i staden for TROLLing, så er per i dag den enklaste løysinga at datasettet blir kuratert og publisert der det er oppretta, og at og kurator etter publisering gjev beskjed til research-data@support.uit.no om kor datasettet skal flyttast.


Sletting av publiserte datasett

Når eit datasett er publisert, er DOI-en blitt aktivert. Gjennom DOI-avtalen og DataverseNO Preservation Policy er arkivet forplikta til å sikra varig tilgang til datasettet i minst 10 år etter publiseringstidspunktet. Dersom det etter publiseringa likevel viser seg at eit datasett av etiske, juridiske eller andre grunnar ikkje burde ha blitt publisert, så kan vi fjerna tilgang til filene i datasettet. Sjølve metadataposten vil derimot framleis vera synleg. Ta kontakt på research-data@support.uit.no) for å få fjerna filtilgangen i eit datasett.