Kuratorguide

Nedanfor finn du retningsliner for korleis støttetenester på DataverseNO-partnarinstitusjonar skal kuratera samlingar i DataverseNO. Viss du utover dette treng hjelp med eller har spørsmål kring kuratering, ta kontakt med brukarstøtta på institusjonen din.

Kuratering av datasett



Generelt

Når ein brukar har oppretta eit datasett og sendt det til vurdering («Review»), så får kuratorane for den gjeldande samlinga/(sub)dataverset automatisk beskjed om det på e-post. Kuratoren loggar då inn på DataverseNO og klikkar på brukarnamnet sitt øvst til høgre, og så på Notifications:

I Notifications-fana leitar kurator opp rett melding, dvs. meldinga om at det aktuelle datasettet er blitt sendt inn til vurdering («Review»), og klikkar på datasettlenkja:

Kurator kjem då til framsida («landing page») av sjølve datasettet og skal no kuratera det.

Det første du som kurator bør sjekka, er om innhaldet og forfattarane av datasettet oppfyller krava i DataverseNO Accession Policy. Her er ei kort oppsummering av dei viktigaste punkta:

  • Minst ein av forfattarane av datasettet er eller har vore knytt til den aktuelle partnarinstitusjon. For spesialsamlingar kan det gjelda andre reglar.
  • Datasettet må kunna gjerast ope tilgjengeleg.

Du bør også sjekka om datasettet er oppretta i rett samling (= (sub)datavers). For ein «vanleg» brukar frå ein DataverseNO-partnarinstitusjon (t.d. UiT) vil det vera den tilhøyrande institusjonssamlinga (t.d. UiT Open Research Data). Men for meir spesielle brukarar kan det vera ei spesialsamling. For ein språkforskar vil det som regel vera TROLLing. Dersom datasettet er oppretta i feil samling, så kuraterer du det på vanleg måte (sjå nedanfor), men etter at det er blitt publisert, så gjev du beskjed til research-data@support.uit.no om kor datasettet skal flyttast.

Elles går kuratering av eit datasett ut på å sjekka om datasettet er strukturert og dokumentert etter beste praksis, som beskrive i retningslinene (sjå menypunktet Arkivering). Det er fire område som skal sjekkast: filer, metadata, lisens og versjonar. Du kjem til dei fire områda ved å klikka på fanene Files, Metadata, Terms og Versions når du er inne i datasettet:

Når ein får beskjed om at eit nytt datasett er sendt inn til vurdering, så står det per i dag dessverre ikkje om det er eit nytt datasett eller ein versjon av eit tidlegare publisert datasett. Derfor er det lurt å byrja med å kika på versjonane først, for då ser ein om det er snakk om eit heilt nytt datasett, eller berre ein ny versjon av eit tidlegare publisert datasett. I det siste tilfellet vil du sjå kva som er blitt endra, og då treng du berre å kuratera endringane. Sjå meir om versjonering nedanfor i avsnittet Ny versjon av publisert datasett.

Er det snakk om eit nytt datasett, er kanskje det enklaste å byrja å sjå på metadataa, for då får ein ei oversikt over kva datasettet handlar om.


Metadata


Klikk på fana Metadata, og så på knappen Add + Edit Metadata.

Sjekkliste for kuratering av metadata:

  • Er felta fylte ut korrekt? Til dømes:
    • Title: Dersom det er snakk om eit datasett som er grunnlag for ein publikasjon, kan «Replication data for:» leggjast til tittelen på datasettet.
    • Author:
      • Er namnet på forfattaren/forfattarane invertert (etternamn, førenamn)?
      • Er institusjonstilhøyrsle (på engelsk) lagd til (t.d. UiT The Arctic University of Norway)?
      • Forfattarar bør oppfordrast til å oppretta ORCID, og leggja denne inn i feltet Identifier Scheme.
    • Contact:
      • Dersom det er ein eller fleire personar, bør namnet vera invertert (etternamn, førenamn). Dersom det ein institusjon, brukar ein vanleg skrivemåte.
      • Er det lagt inn institusjonstilhøyrsle (på engelsk) og korrekt e-postadresse?
    • Description:
      • Her bør ein skriva inn ein kort presentasjon av datasett. Ein kan også bruka (delar av) samandraget av den relaterte publikasjonen.
      • Datofeltet må fyllast ut på formatet ÅÅÅÅ-MM-DD.
    • Keyword:
      • Er det lagt inn passande nøkkelord? Dersom det finst eit synonymt nøkkelord som er meir utbreidd og som allereie er i bruk i (sub)dataverset, bør du gjera brukaren merksam på det.
      • Er det brukt eitt felt per nøkkelord?
    • Related publication:
      • Dersom det er snakk om eit datasett som er grunnlag for ein publikasjon, er det lagt inn referanse til publikasjonen her?
      • Dersom det er snakk om eit manuskript som er sendt inn til vurdering («submitted»), men som ikkje er blitt akseptert eller publisert (enno), så skal ikkje namnet på tidsskriftet vera nemnt nokon stad i datasettet. Ein bør då heller berre skriva «Submitted for review» eller liknande. Sjå også avsnittet Lesetilgang til upublisert datasett nedanfor.
    • Language:  Feltet Language handlar om analysespråket, ikkje objektsspråket. I eit  TROLLing-datasett om franske substantiv som er beskrive på engelsk, skal det altså ikkje stå «French» i dette feltet, men «English» eller ingenting. «French» skal derimot leggjast inn som Keyword.
    • Producer: Er det lagt inn rett Producer? I institusjonssamlingar er dette feltet førehandsutfylt. Men i spesialsamlingar av typen TROLLing bør du sjekka om brukaren har skrive inn rett institusjonsnamn (t.d. UiT The Arctic University of Norway eller namnet på ein annan institusjon/finansiør).
    • Distributor: Dette feltet er som regel førehandsutfylt, og det skal vera namnet på samlinga (t.d. UiT Open Research Data eller TROLLing). Sjekk om innhaldet ikkje er blitt endra.
    • Distribution Date (embargo): Dette feltet blir brukt for å spesifisera filembargo. Dersom forfattaren har lagt tilgangsrestriksjonar på (nokre av) filene i datasettet, så må feltet Distribution Date innehalda datoen (ÅÅÅÅ-MM-DD) for når filene skal gjerast tilgjengelege. Elles bør dette feltet vera tomt. Les meir om embargo her. Ein månad før embargoen går ut, blir kurator varsla og må då minna forfattaren om dette.
    • Geographic Coverage: Mange datasett er relaterte til ein eller fleire geografiske stader eller område. Dersom forfattaren ikkje har lagt inn informasjon om dette i metadataavsnittet Geospatial Metadata, så bør du tilrå han/ho å gjera det.
    • I tillegg bør du tilrå forfattar å leggja inn relevante fagspesifikk metadata i avsnitta som følgjer etter Geographic Coverage.
  • Generelt:
    • Er det lagt inn tilstrekkeleg med informasjon for at dataa kan gjenfinnast?
    • Er metadataa lagde inn på engelsk eller eit anna vanleg kommunikasjonsspråk på det aktuelle fagområdet?
    • NB! Metadatafelt må ikkje innhalda visse HTML-taggar og andre spesialteikn (t.d. [ og ]). Dette gjeld særleg feltet Description. For å laga mellomrom mellom to avsnitt, kan ein leggja til HTML-taggane <p> og </p> rundt kvart avsnitt.

Filer


Sjekkliste for kuratering av filer:

  • Er datafilene dokumenterte i ei ReadMe-fil? NB! Dette er eit absolutt krav. ReadMe-fila skal innehalda strengen «readme» (i store og/eller små bokstavar) i filnamnet (og ikkje delt opp mellom filnamn og ekstensjon, t.d. “Read.me”).
  • Er det brukt tvungen nummerering på ReadMe-fila (t.d. “00_ReadMe.txt”), slik at fila blir lista opp øvst i filoversikta?
  • Sjekk om filene lèt seg opna. Viss det er mange filer, ta nokre stikkprøver.
  • Er det brukt konsistente og forståelege filnamn?
  • Filnamn skal ikkje innehalda mellomrom, komma og andre spesialteikn.
  • Har alle filene ei filutviding (filtype), t.d. .txt, .pdf?
  • Er dataa lasta opp i eit føretrekt filformat? Som hjelpemiddel kan vi her bruka informasjonssidene om filformat til Library of Congress og UK National Archive si PRONOM-teneste. Viss det viser seg at dei arkiverte dataa ikkje kan lagrast eller konverterast til eit føretrekt filformat, så kan dataa likevel publiserast i originalformatet, men med dei begrensingane dette medfører for langtidsbevaring (jf. DataverseNO Preservation Policy: «Datasets in non-preferred format(s) will not be migrated to new formats to avoid format obsolescence»). Nye føretrekte filformat bør diskuteratst i kuratorgruppa. Ta kontakt med UiT på research-data@support.uit.no dersom du vil at eit nytt format skal leggjast til DataverseNO si liste over føretrekte filformat.
  • Dersom det er føremålstenleg, kan filene lastast opp i originalformatet i tillegg til føretrekt format.
  • Dersom data er lasta opp både i originalformat og i føretrekt format, så må filnamnet i originalformatet vera identisk med filnamnet i føretrekt format. (Elles blir det vanskeleg å henta ut samanstillingar når vi skal planleggja langtidsbevaring.)
  • Dersom det er valt embargo, så må kurator sjekka at informasjon om embargo på filnivå er lagd inn som beskrive her.
  • Filstorleik:
    • Det er inga øvre grense for kor stort eit datasett i DataverseNO kan vera. Men nedanfor er det sett opp nokre råd og framgangsmåtar for å handsama store filer.
    • I ei opplasting kan det inngå fleire filer. Dersom ein brukar må lasta opp filene i fleire omgangar, så gjer ein det ved å lagra datasettet etter kvar opplasting.
    • Følgjande råd, grenser og framgangsmåtar gjeld for enkeltfiler, opplastingar og datasett:
      • Storleiken på individuelle filer bør ikkje overstiga 5 GB. Store filer kan skapa problem for andre når det gjeld nedlasting og gjenbruk av data.
      • Ei opplasting av fil(er) bør ikkje overstiga 10 GB av omsyn til problemfri overføring av data over internettprotokollen (http).
      • Opplasting av fil(er) der kvar fil har ein storleik større enn 20 GB, men mindre enn 50 GB må avtalast på førehand med UiT. Kurator avtaler/avklarer med forskar og med UiT via research-data@support.uit.no.
      • Datasett der enkeltfiler eller filene i sum har ein storleik på meir enn 50 GB skal avtalast på førehand med UiT. Kurator avtaler/avklarer med forskar og med UiT via research-data@support.uit.no.

Detaljert informasjon om val av filnamn og føretrekt filformat og dokumentasjon av data finn du i avsnittet Førebu dataa dine. Der finn du òg ei detaljert rettleiing på korleis ein lagrar/konverterer ulike typar dokument til føretrekte filformat. Dersom du har spørsmål rundt dette, ta kontakt med brukarstøtta på institusjonen din.

Det er beste praksis å lagra tabelldata som i tabulatorseparert rein tekst i Unicode UTF-8, utan såkalla BOM («Byte Order Mark»). Dersom det ikkje er mogleg å lagra tabellen/reknearket som utf-8 utan BOM, kan ein gjera det i Notepad++ på følgjande måte:

  1. Opne tekstfila (.txt) i Notepad ++ (Notepad++ er basert på open kjeldekode og kan lastast ned på https://notepad-plus-plus.org/. Spør IT-brukarstøtta på din institusjon om hjelp med å få det installert på datamaskinen din).
  2. Klikk på Teiknkoding (Character Encoding) i toppmenyen, og vel Gjer om til UTF-8 utan BOM (eller tilsvarande på bokmål eller engelsk):
  3. Lagra fila.

Statistikkdata (t.d. R og SPSS)

Ei nyttig oversikt over filformat som er nytta i diverse statistikkprogram, finn ein her. Når det gjeld R, konkluderer dei med:

In conclusion, if you are working with R you should provide a .csv* file which includes your data and separate .R- or .Rmd-files which include your syntax to ensure long-term availability. Additionally, you may add Rdata-files for easier access to the same information.

(* Vi tilrår tabulatorseparert Unicode UTF-8 .txt.)

Skriptet ligg i .R-filene. .R-filer er reine tekstfiler (ein kunne også ha brukt ekstensjonen .txt). .Rmd

Rmd RMarkdown files are a great way to combine data documentation, data visualization and data analysis in one single file.

Med andre ord vil vi ha dette:

  • Grunndata i tabulatordelt Unicode UTF-8 (.txt) = føretrekt filformat
  • R-koden i Unicode UTF-8 (.R) = føretrekt filformat
  • .rda = ikkje-føretrekt filformat, men fungerer i R, som er open og dokumentert programvare
  • Eventuelt .rmd

Lisens («Terms»)

Sjekk om forfattaren har endra på på Terms of Use = CC0 i Terms-fana. Dersom han/ho har gjort endringar der, bør det diskuterast med superbrukar på den aktuelle DataverseNO-partnarinstitusjonen. (Når ein kryssar av på at ein ikkje aksepterer CC0, så får ein opp lenkje til ein Sample Data Usage Agreement.)

For CC BY har vi blitt samde om teksten nedanfor. Når lisensspørsmålet er avklart med forskingsdatagruppa, så teksten limast inn i feltet Terms of Use (hermeteikna må fjernast):

“This dataset may be reused according to the Creative Commons Attribution 4.0 International (CC BY 4.0) license as described here: <a href=”https://creativecommons.org/licenses/by/4.0/”
title=”TermsOfUse” target=”_blank”>https://creativecommons.org/licenses/by/4.0/</a>.”

NB! DataverseNO aksepterer berre lisensar som gjev tilgang til data. Jamfør DataverseNO Access and Use Policy:

In line with the intention of DataverseNO to provide maximum public access to unrestricted research data, DataverseNO promotes licenses that are recommended for the re-use of research data, and only accepts licenses providing access to deposited data in one form or another.


Senda datasett tilbake til forfattar

Dersom datasettet ikkje er strukturert og beskrive som det skal, så sender kurator datasettet tilbake til forfattaren:

NB! I tillegg sender kurator e-post til brukar med beskjed om kva som må gjerast med datasettet før det kan publiserast. Brukaren bør visast til (dei relevante avsnitta i) arkiveringsguiden (https://site.uit.no/dataverseno/nn/arkivering/) på DataverseNO-infosida. Det er mogleg å lenkja direkte til visse avsnitt i arkiveringsguiden. Slik får du tak i rett lenkjeadresse: Hald musepeikaren over lenkjesymbolet i starten av det aktuelle avsnittet, høgreklikk, og vel “Kopiér linkadressen”:

 

Informer også forfattar om at han/ho på nytt må klikka på Submit for review når han/ho har gjort dei nødvendige endringane. Du kan senda e-post på to måtar:

  1. Når du er i det aktuelle datasettet, klikk på knappen med brevsymbolet, og skriv inn meldinga di i vindauget som kjem opp:
  2. Når du er i det aktuelle datasettet, klikk på Edit > Metadata, og leit opp e-postadressa i feltet Contact > Email:

    og send e-post via e-postprogrammet ditt (t.d. Outlook).

NB! Dersom kuratoren identifiserer grunnleggjande avvik ifrå DataverseNO sine retningsliner og depositor ikkje går med på å gjera nødvendige endringar i datasettet, så skal ikkje datasettet publiserast. Dersom kuratoren er usikker på om datasettet oppfyller DataverseNO sine retningsliner, så bør dette bli teke opp med DataverseNO-administratorgruppa ved UiT Noregs arktiske universitet. Gruppa skal kontaktast på adressa research-data@support.uit.no. I siste instans er det styret for DataverseNO som avgjer slike saker.


Publisera datasett

Når alt er OK med datasettet, publiserer kurator det ved å klikka på knappen Publish:

Brukar får då tilsendt på e-post ei automatisk melding frå Dataverse om at datasettet er publisert.

 

Promotering i sosiale medium

Visse arkiv brukar å promotera arkivet ved å leggja ut informasjon om nye datasett på sosiale medium. Når det gjeld TROLLing, brukar UB UiT å leggja ut ei melding på Twitter og på TROLLing-Facebook-gruppa om at eit nytt datasett har blitt publisert. Dei brukar også å senda ein e-post til forfattaren av datasettet med følgjande beskjed:

I have now published your dataset. Thanks for sharing your data! You can find an announcement of the upload on our Facebook and Twitter page, and we encourage you to like this in order to get updates about the archive: https://www.facebook.com/TromsoRepositoryofLanguageandLinguistics/.


Ny versjon av publisert datasett (også ved fjerning av embargo)

Når ein forfattar gjer endringar i eit publisert datasett, blir det oppretta eit nytt utkast (DRAFT), som så må sendast inn til vurdering før den nye versjonen kan bli publisert. Kurator får då melding om at eit nytt datasett ventar på kuratering. NB! Per i dag går det ikkje fram av denne meldinga om det dreiar seg om eit heilt nytt datasett eller ein ny versjon av eit tidlegare publisert datasett. Ofte kan det gå lang tid mellom nye versjonar, og då hugsar ein gjerne ikkje at datasettet er blitt publisert før. Det er derfor lurt å starta kvar kurateringsprosess ved å undersøkja om datasettet har versjonar. Klikk på fana Versions:

Når du klikkar på View Details, får du opp ei oversikt over endringar mellom versjonar. Du bør etterpå sjå nærare på endringane som er gjorde i metadata og/eller filer, og då følgjer du oppskrifta i avsnitta ovanfor. Når du etter kurateringa publiserer den nye versjonen, får du spørsmål om versjonsnummer:

Hovudregelen er at dersom endringane berre gjeld metadata, så er det ein Minor Release. Dersom det er gjort endringar i filene, så er det ein Major Release. NB! Ved publisering av ny versjon etter fjerning av embargo/hengjelås på fil(er), så bør ein velja Minor Release, for då vil vi ikkje at versjonsnummeret i datasettreferansen skal endrast.

Frå tid til anna bør ein sjekka om det ligg upubliserte datasett i arkivet som ikkje er blitt sende inn til vurdering (In Review). Dersom eit datasett har hatt status Unpublished i meir enn tre månader, bør ein ta kontakt med forfattar og gjera han/ho merksam på at dei må klikka på Submit for review for at datasettet skal kunna publiserast.


Lesetilgang til upublisert datasett


Scenario: Forfattar ønskjer å gje lesetilgang til datasettet sitt til samarbeidspartnar, fagfelle, tidsskriftsredaktør e.l. før det er blitt publisert.

Oppskrift:

  • Log inn, og gå til det upubliserte datasettet.
  • Klikk på Edit-knappen til høgre, og vel Private URL:
  • Kopier den private URL-en, og send lenkja til forfattaren ev. han/ho som skal ha tilgang til datasettet.
  • Private URL-ar kan lagast til datasett som har status DRAFT, også når det finst tidlegare publiserte versjonar av datasettet – sjølv om sistnemnde dømet truleg ikkje er aktuelt for deling med tidsskriftsredaktør i samband med fagfellevurdering av ein publikasjon.

Lesetilgang til låst fil i publisert datasett


Scenario:

  • Forfattar ønskjer å gje lesetilgang til låst fil (= fil med embargo) i det publiserte datasettet sitt til samarbeidspartnar, fagfelle e.l.
  • Ein forskar spør om tilgang til låst fil ved å klikka på Request Access-knappen (dersom denne er aktivert).

Oppskrift:

  • Den som skal ha tilgang til den låste fila, må ha ein brukarkonto i DataverseNO. Dersom det ikkje er tilfellet, må han/ho oppretta ein konto. Vis den nye brukaren til avsnittet Step 1: Create a user account / Log in i arkiveringsguiden. Når brukarkontoen er på plass:
  • Log inn på DataverseNO, og gå til det aktuelle datasettet.
  • Klikk på Edit-knappen til høgre, og vel Permissions og så File:
  • Klikk på Grant Access to Users/Groups:
  • Søk på og legg til brukaren som skal ha tilgang til fila/filene i feltet Users/Groups, hak av på fila/filene som brukaren skal ha tilgang til, og klikk på Grant:

(Kontakten for eit datasett eller eit datavers er den/dei som får e-posten som blir send når ein klikkar på Contact-knappen. Når ein derimot spør om tilgang til ei låst fil, så går e-posten ikkje til kontakten for datasettet/dataverset, men til den/dei personane som har rolla ManageDatasetPermissions. I DataverseNO er dette som regel kuratoren/kuratorane av det aktuelle dataverset.)


Redigeringstilgang

Når ein brukar opprettar eit datasett i Dataverse, får han/ho sjølvsagt automatisk redigeringstilgang til det datasettet. Men i visse tilfelle kan det bli aktuelt å tildela redigeringstilgang manuelt. Moglege scenario:

  • Scenario 1: Ein kurator har oppretta eit datasett på vegner av ein forskar (jf. t.d. pilotprosjektet ved UiT i 2016). Forskaren vil no sjå over datasettet før det blir publisert.
  • Scenario 2: Ein forskar har oppretta eit datasett og ønskjer at fleire i forskingsgruppa skal få redigera datasettet.
  • Scenario 3: Ein forskar har oppretta eit eller fleire datasett i eit institusjonsarkiv (t.d. UiT Open Research Data), men ikkje fått publisert det enno. Forskaren sluttar på institusjonen og får tilgang til datasettet sitt lenger. Forskaren må oppretta ny brukarkonto, anten via Feide (viss han/ho no jobbar ved ein annan institusjon som bruker Feide) eller lokalt. Når denne kontoen er oppretta, må forskaren få tilgang til sine «gamle» datasett.

Ta kontakt med Dataverse-administratoren på din institusjon for å få endra/tildelt tilgangsrettar på datasettnivå.


Flytting av datasett

Per i dag er det ikkje mogleg å flytta eit datasett frå eitt datavers til eit anna via brukargrensesnittet. Dersom t.d. ein språkvitar frå UiT har oppretta eit språkdatasett i UiT Open Research Data i staden for TROLLing, så er per i dag den enklaste løysinga at datasettet blir kuratert og publisert der det er oppretta, og at og kurator etter publisering gjev beskjed til research-data@support.uit.no om kor datasettet skal flyttast.


Sletting av publiserte datasett

Når eit datasett er publisert, er DOI-en blitt aktivert. Gjennom DOI-avtalen og DataverseNO Preservation Policy er arkivet forplikta til å sikra varig tilgang til datasettet i minst 10 år etter publiseringstidspunktet. Dersom det etter publiseringa likevel viser seg at eit datasett av etiske, juridiske eller andre grunnar ikkje burde ha blitt publisert, så kan vi fjerna tilgang til filene i datasettet. Sjølve metadataposten vil derimot framleis vera synleg. Ta kontakt på research-data@support.uit.no) for å få fjerna filtilgangen i eit datasett.


Oppgåver i samband med langtidsbevaring

DataverseNO forpliktar seg til å sikra at data som er publiserte i arkivet, også kan brukast på lang sikt. Som eit ledd i dette arbeidet har DataverseNO-kuratorar fleire oppgåver som er spesifiserte i Preservation Policy og Preservation Plan, og som dei vil få tildelt av samlingsforvaltar.


Print Friendly, PDF & Email