Kurateringsguide

Målgruppe: Kuratorar på DataverseNO-partnarinstitusjonar

Nedanfor finn du retningsliner for korleis støttetenester på DataverseNO-partnarinstitusjonar skal kuratera samlingar i DataverseNO. Viss du utover dette treng hjelp med eller har spørsmål kring kuratering, ta kontakt med brukarstøtta på institusjonen din. Dersom du ønskjer å testa ut (delar av) kurateringsarbeidsflyten, kan du gjera det i sandkassa vår på demo.dataverse.no. Ta kontakt på support@dataverse.no dersom du manlgar kuratortilgang til demo.dataverse.no.

Kuratering av datasett



Generelt

Når ein brukar har oppretta eit datasett og sendt det til vurdering («Review»), så får kuratorane for den gjeldande samlinga/(sub)dataverset automatisk beskjed om det på e-post. Kuratoren loggar då inn på DataverseNO og klikkar på brukarnamnet sitt øvst til høgre, og så på Notifications:

I Notifications-fana leitar kurator opp rett melding, dvs. meldinga om at det aktuelle datasettet er blitt sendt inn til vurdering («Review»), og klikkar på datasettlenkja:

Kurator kjem då til framsida («landing page») av sjølve datasettet og skal no kuratera det.

Det første du som kurator bør sjekka, er om innhaldet og forfattarane av datasettet oppfyller krava i DataverseNO Accession Policy. Her er ei kort oppsummering av dei viktigaste punkta:

  • Minst ein av forfattarane av datasettet er eller har vore knytt til den aktuelle partnarinstitusjon. For spesialsamlingar kan det gjelda andre reglar.
  • Datasettet må kunna gjerast ope tilgjengeleg.

Du bør også sjekka om datasettet er oppretta i rett samling (= (sub)datavers). For ein «vanleg» brukar frå ein DataverseNO-partnarinstitusjon (t.d. UiT) vil det vera den tilhøyrande institusjonssamlinga (t.d. UiT-samlinga). Men for meir spesielle brukarar kan det vera ei spesialsamling. For ein språkforskar vil det som regel vera TROLLing. Dersom datasettet er oppretta i feil samling, så kuraterer du det på vanleg måte (sjå nedanfor), men etter at det er blitt publisert, så gjev du beskjed til support@dataverse.no om kor datasettet skal flyttast.

Elles går kuratering av eit datasett ut på å sjekka om datasettet er strukturert og dokumentert etter beste praksis, som beskrive i retningslinene (sjå menypunktet Arkivering). Det er fire område som skal sjekkast: filer, metadata, lisens og versjonar. Du kjem til dei fire områda ved å klikka på fanene Files, Metadata, Terms og Versions når du er inne i datasettet:

Når ein får beskjed om at eit nytt datasett er sendt inn til vurdering, så står det per i dag dessverre ikkje om det er eit nytt datasett eller ein versjon av eit tidlegare publisert datasett. Derfor er det lurt å byrja med å kika på versjonane først, for då ser ein om det er snakk om eit heilt nytt datasett, eller berre ein ny versjon av eit tidlegare publisert datasett. I det siste tilfellet vil du sjå kva som er blitt endra, og då treng du berre å kuratera endringane. Sjå meir om versjonering nedanfor i avsnittet Ny versjon av publisert datasett.

Er det snakk om eit nytt datasett, er kanskje det enklaste å byrja å sjå på metadataa, for då får ein ei oversikt over kva datasettet handlar om.

NB! Dersom det er tydeleg at forskar ikkje har sett på arkiveringsguiden (t.d. når det manglar ReadMe-fil), er det like greitt å venta med å kuratera datasettet, og heller senda det tilbake til forskar (Return to Author), og senda dei ein e-post der du ber dei om å sjå på arkiveringsguiden (på norsk | på engelsk) og senda datasettet inn på nytt når det er organisert og dokumentert i tråd med guiden.

Kurateringsstatustaggar kan saman med dei automatisk handterte taggane brukast for å indikera ulike kurateringsstatusar til datasett.


Metadata


Klikk på fana Metadata, og så på knappen Add + Edit Metadata.

Sjekkliste for kuratering av vanlege metadatafelt (fleire detaljar og informasjon om fleire felt finn du i Word-dokumentet «Dataverse_North_metadata_best_practices_guide_v2.0_ENG.docx» i kanalen Metadata og dokumentasjon i DvNO-brukarforum-teamet):

  • Er felta fylte ut korrekt? Til dømes:
    • Title: Hermeteikn rundt tittel bør helst ikkje brukast, for slike vil bli lagde til automatisk når referansen blir generert av systemet. Dersom det er snakk om eit datasett som er grunnlag for ein publikasjon, kan «Replication data for: » leggjast til tittelen på datasettet. I staden for «Replication Data for: » kan ein også bruka «Background Data for: », «Supporting Data for: » eller eit liknande tillegg.
    • Author:
      • Er namnet på forfattaren/forfattarane invertert (etternamn, førenamn)?
      • Er institusjonstilhøyrsle (på engelsk) lagd til (t.d. UiT The Arctic University of Norway)?
      • Forfattarar bør oppfordrast til å oppretta ORCID, og leggja denne inn i feltet Identifier Scheme, på forma 0000-0001-0003-0004 (utan «https://orcid.org/»).
    • Contact:
      • Dersom det er ein eller fleire personar, bør namnet vera invertert (etternamn, førenamn). Dersom det ein institusjon, brukar ein vanleg skrivemåte.
      • Er det lagt inn institusjonstilhøyrsle (på engelsk) og korrekt e-postadresse?
    • Description:
      • Her bør ein skriva inn ein kort presentasjon av datasett. For å laga mellomrom mellom to avsnitt, kan ein leggja til HTML-taggane <p> og </p> rundt kvart avsnitt. Denne beskrivinga inngår som regel også i ReadMe-fila. Ein kan også bruka (delar av) samandraget av den relaterte publikasjonen. Dette samandraget skal då leggjast inn i eit separat “Description”-felt, som ein får opp ved å klikka på plussteiknet på høgresida. NB! Dersom artikkelen er send inn til vurdering, men ikkje har blitt godkjend (enno), så må IKKJE namnet på tidsskriftet (eller forlaget) førast opp.
      • Datofeltet må fyllast ut på formatet ÅÅÅÅ-MM-DD.
    • Keyword:
      • Er det lagt inn passande nøkkelord? Dersom det finst eit synonymt nøkkelord som er meir utbreidd og som allereie er i bruk i (sub)dataverset, bør du gjera brukaren merksam på det.
      • Er det brukt eitt felt per nøkkelord?
    • Related publication:
      • Dersom det er snakk om eit datasett som er grunnlag for ein publikasjon, er det lagt inn referanse til publikasjonen her?
      • Dersom det er snakk om eit manuskript som er sendt inn til vurdering («submitted»), men som ikkje er blitt akseptert (enno), så skal ikkje namnet på tidsskriftet vera nemnt nokon stad i datasettet. Ein bør då heller berre skriva «Submitted for review» eller liknande. Sjå også avsnittet Lesetilgang til upublisert datasett nedanfor.
      • Du bør også høyra med forskar om manuskriptet skal fagfellevurderast i ein såkalla «double-blind review» (både forfattar og fagfellar er anonyme) og redaktøren har spurt om at også datasettet skal gjerast tilgjengeleg i anonymisert form for denne prosessen. Dersom det er tilfellet, opprettar kurator ein anonymisert versjon av datasettutkastet som forklart på denne sida.
      • Language:  Feltet Language handlar om analysespråket, ikkje objektsspråket. I eit  TROLLing-datasett om franske substantiv som er beskrive på engelsk, skal det altså ikkje stå «French» i dette feltet, men «English» eller ingenting. «French» skal derimot leggjast inn som Keyword.
      • Producer: Er det lagt inn rett Producer? I institusjonssamlingar er dette feltet førehandsutfylt. Men i spesialsamlingar av typen TROLLing bør du sjekka om brukaren har skrive inn rett institusjonsnamn (t.d. UiT The Arctic University of Norway eller namnet på ein annan institusjon/finansiør). Dersom forskaren ikkje er knytt til nokon forskingsinstitusjon lenger, kan namnet på forskaren (i invertert form) leggjast inn i Name-feltet, og då kan dei andre felta stå tomme. For datasett som er arkiverte av bachelor-/masterstudentar er det to alternativ: a) Dersom studenten har vore tilsett eller betalt på annan måte av ein institusjon for å produsera datasettet, så skal namnet på institusjonen stå i Name-feltet. b) Dersom studenten ikkje har vore tilsett/betalt for å produsera datasettet, så skal namnet på studenten i invertert form stå i Name-feltet. Dersom datasettet er produsert medan dei var student på ein lærestad, så kan namnet på denne leggjast inn i Affiliation-feltet.
      • Contributor: Her bør ein kreditera dei som har bidrege til datasettet, også dei som ikkje står som forfattarar. I feltet Type kan ein velja kva slags rolle dei har hatt (t.d. Data Collector).
      • Grant Information: Dersom ting tyder på at dei arkiverte dataa stammar frå eit prosjekt med ekstern finansiering, bør du spørja forfattar om det og be dei leggja inn informasjon dersom aktuelt. Bruk fullt namn på finansiør, t.d. «The Research Council of Norway».
      • Distributor: Dette feltet er som regel førehandsutfylt, og det skal vera det engelske namnet på partnarinstitusjonen (t.d. UiT The Arctic University of Norway). Sjekk om innhaldet ikkje er blitt endra.
      • Distribution Date (embargo): Dette feltet blir brukt for å spesifisera filembargo. Dersom forfattaren har lagt tilgangsrestriksjonar på (nokre av) filene i datasettet, så må feltet Distribution Date innehalda datoen (ÅÅÅÅ-MM-DD) for når filene skal gjerast tilgjengelege. Elles bør dette feltet vera tomt. Les meir om embargo her. Ein månad før embargoen går ut, blir kurator varsla og må då minna forfattaren om dette.
      • Time Period Covered: Kva tidsperiode er dataa ifrå eller handlar om?
      • Date of Collection: Når er dataa blitt samla inn / genererte?
      • Data Type: Kva slags data er det? Forfattar kan få opp forslag ved å halda musepeikaren over spørjeteiknet til høgre for feltnamnet, t.d. survey data, experimental data, observation data.
      • Data Sources: Dersom forfattar ikkje sjølv har generert eller samla inn dataa, bør det leggjast inn informasjon her om kva kjelder som er brukte. Det kan t.d. vera eit arkiv, eit korpus eller ei nettside som dataa er blitt lasta ned ifrå. Her bør ein også spesifisera kva lisens eller bruksvilkår som gjeld for dei brukte kjeldene.
      • Geographic Coverage: Mange datasett er relaterte til ein eller fleire geografiske stader eller område. Dersom forfattaren ikkje har lagt inn informasjon om dette i metadataavsnittet Geospatial Metadata, så bør du tilrå dei å gjera det.
      • I tillegg kan du be forfattar om å ta ein titt på dei fagspesifikke metadataskjemaa følgjer etter Geographic Coverage og leggja inn relevant informasjon dersom det er aktuelt.
      • Generelt:
        • Er det lagt inn tilstrekkeleg med informasjon for at dataa kan gjenfinnast?
        • Er metadataa lagde inn på engelsk eller eit anna vanleg kommunikasjonsspråk på det aktuelle fagområdet?
        • NB! Metadatafelt må ikkje innhalda visse HTML-taggar og andre spesialteikn (t.d. [ og ]). Dette gjeld særleg feltet Description. For å laga mellomrom mellom to avsnitt, kan ein leggja til HTML-taggane <p> og </p> rundt kvart avsnitt.

Filer


Sjekkliste for kuratering av filer:

  • Tal på filer: Datasett som inneheld meir enn 300 filer kan ikkje publiserast, pga. kapasitetsproblem rundt aktivering av fil-DOI-ar hos DataCite. Viss det er behov for å arkivera fleire filer, kan ein velja blant desse alternativa:
    • Pakka inn filene i éi eller fleire (maks. 300) pakkefiler.
    • Dela datasettet opp i fleire (del)datasett.
  • Er datasettet dokumentert i ei ReadMe-fil? NB! Dette er eit absolutt krav. Vi tilrår forskarar å bruka/ta utgangspunkt i ReadMe-filmalen vår. Namnet på ReadMe-fila skal innehalda strengen «readme» (i store og/eller små bokstavar), og ikkje delt opp mellom filnamn og ekstensjon (altså t.d. «ReadMe.txt», og ikkje «Read.me»).
  • Er det brukt tvungen nummerering på ReadMe-fila (t.d. “0_ReadMe.txt”), slik at fila blir lista opp øvst i filoversikta?
  • Sjekk om filene lèt seg opna. Viss det er mange filer, ta nokre stikkprøver.
  • Er det brukt konsistente og forståelege filnamn?
  • Filnamn skal ikkje innehalda mellomrom, komma og andre spesialteikn.
  • Har alle filene ei filutviding (filtype), t.d. .txt, .pdf?
  • Er dataa lasta opp i eit føretrekt filformat? Sjekk oversikta over føretrekte filformat i arkiveringsguiden. Dersom filtypen/-formatet ikkje er på oversikta, sjekk først i mappa Filformat i kanalen Langtidsbevaring på Teams-området til DataverseNO-brukarforum om det er laga ei filformatvurdering for filtypen. Dersom du ikkje finn filformatet der, kan du ta i bruk andre hjelpemiddel, som t.d. DANS si filformatlisteinformasjonssidene om filformat til Library of Congress og UK National Archive si PRONOM-teneste. Dersom du er usikker, ta kontakt med DataverseNO på support@dataverse.no. Viss det viser seg at dei arkiverte dataa ikkje kan lagrast eller konverterast til eit føretrekt filformat, så kan dataa likevel publiserast i originalformatet, men med dei begrensingane dette medfører for langtidsbevaring (jf. DataverseNO Preservation Policy: «Datasets in non-preferred format(s) will not be migrated to new formats to avoid format obsolescence»). Nye føretrekte filformat bør diskuteratst i kuratorgruppa. Ta kontakt med DataverseNO på support@dataverse.no dersom du vil at eit nytt format skal leggjast til DataverseNO si liste over føretrekte filformat.
  • Dersom det er føremålstenleg, kan filene lastast opp i originalformatet i tillegg til føretrekt format.
  • Dersom data er lasta opp både i originalformat og i føretrekt format, så må filnamnet i originalformatet vera identisk med filnamnet i føretrekt format. (Elles blir det vanskeleg å henta ut samanstillingar når vi skal planleggja langtidsbevaring.)
  • Dersom ein embargo blir brukt på éi eller fleire datafiler, må kuratoren sikra at:
    • ReadMe-fila ikkje er under embargo, sidan ho alltid skal vera ope tilgjengeleg.
    • Embargoen er skikkeleg grunngjeven, ettersom DataverseNO er eit arkiv for opne forskingsdata. Ein gyldig grunn for embargo er at datafila/-filene inneheld kommersielt verdifull informasjon, slik at open tilgang med éin gong kan skada dei kommersielle interessene til deponenten og gjera det vanskeleg å verna om immaterielle rettar. Dersom deponenten spesifiserer ein annan grunn, bør kuratoren rådføra seg med DataverseNO-brukarforum. Merk at embargo er ei mellombels avgrensing, ikkje ei erstatning for permanent avgrensa eller kontrollert tilgang. Dersom deponenten si grunngjeving for embargo krev permanent avgrensa eller kontrollert tilgang (t.d. fordi filene inneheld personopplysningar), skal filene ikkje publiserast i DataverseNO.
    • Deponenten har forstått at embargoen automatisk vil opphevast på den oppgjevne sluttdatoen, og at dersom endringar er naudsynt, må dei kontakta brukarstøtta på institusjonen sin. Embargoar kan vara i maksimalt to år.
  • Filstorleik:
    • Det er inga øvre grense for kor stort eit datasett i DataverseNO kan vera. Men nedanfor er det sett opp nokre råd og framgangsmåtar for å handsama store filer.
    • I ei opplasting kan det inngå fleire filer. Dersom ein brukar må lasta opp filene i fleire omgangar, så gjer ein det ved å lagra datasettet etter kvar opplasting.
    • Følgjande råd, grenser og framgangsmåtar gjeld for enkeltfiler, opplastingar og datasett:
      • Storleiken på individuelle filer bør ikkje overstiga 100 GB. Store filer kan skapa problem for andre når det gjeld nedlasting og gjenbruk av data.
      • Ei opplasting av fil(er) bør ikkje overstiga 200 GB av omsyn til problemfri overføring av data.
      • Datasett der enkeltfiler eller filene i sum har ein storleik på meir enn 200 GB skal avtalast på førehand med UiT. Kurator avtaler/avklarer med forskar og med UiT via support@dataverse.no.

Detaljert informasjon om val av filnamn og føretrekt filformat og dokumentasjon av data finn du i avsnittet Førebu dataa dine. Der finn du òg ei detaljert rettleiing på korleis ein lagrar/konverterer ulike typar dokument til føretrekte filformat. Dersom du har spørsmål rundt dette, ta kontakt med brukarstøtta på institusjonen din.

Det er beste praksis å lagra tabelldata som i tabulatorseparert rein tekst i Unicode UTF-8, utan såkalla BOM («Byte Order Mark»). Dersom det ikkje er mogleg å lagra tabellen/reknearket som utf-8 utan BOM, kan ein gjera det i Notepad++ på følgjande måte:

  1. Opne tekstfila (.txt) i Notepad ++ (Notepad++ er basert på open kjeldekode og kan lastast ned på https://notepad-plus-plus.org/. Spør IT-brukarstøtta på din institusjon om hjelp med å få det installert på datamaskinen din).
  2. Klikk på Teiknkoding (Character Encoding) i toppmenyen, og vel Gjer om til UTF-8 utan BOM (eller tilsvarande på bokmål eller engelsk):
  3. Lagra fila.

Statistikkdata (t.d. R og SPSS)

Ei nyttig oversikt over filformat som er nytta i diverse statistikkprogram, finn ein her. Når det gjeld R, konkluderer dei med:

In conclusion, if you are working with R you should provide a .csv* file which includes your data and separate .R- or .Rmd-files which include your syntax to ensure long-term availability. Additionally, you may add Rdata-files for easier access to the same information.

(* Vi tilrår tabulatorseparert Unicode UTF-8 .txt.)

Skriptet ligg i .R-filene. .R-filer er reine tekstfiler (ein kunne også ha brukt ekstensjonen .txt). .Rmd

Rmd RMarkdown files are a great way to combine data documentation, data visualization and data analysis in one single file.

Med andre ord vil vi ha dette:

  • Grunndata i tabulatordelt Unicode UTF-8 (.txt) = føretrekt filformat
  • R-koden i Unicode UTF-8 (.R) = føretrekt filformat
  • .rda = ikkje-føretrekt filformat, men fungerer i R, som er open og dokumentert programvare
  • Eventuelt .rmd

Lisens («Terms»)

Dersom ingen av standardlisensane i nedtrekksmenyen passar for datasettet, må ein velja Custom Dataset Terms frå nedtrekksmenyen og skriva inn lisensen eller bruksvilkåra som fritekst i feltet Terms of Use, som då dukkar opp. Ta kontakt i DataverseNO-brukarforumet eller med DataverseNO-arkivforvaltninga på support@dataverse.no for å avklara ordlyden som skal leggjast inn.

Dersom ein har valt ein standardlisens av typen Creative Commons, så er det ikkje tillate å leggja til andre/fleire bruksvilkår, t.d. i feltet Citation Requirements. Meir informasjon om bakgrunnen for korfor CC0 er ein eigna lisens/frigjevingserklæring for forskingsdata finn du i avsnittet «License Selection and Professional Norms» i Dataverse User Guide. I Word-dokumentet «Grunngjeving_for_CC0_og_mot_friteksttillegg_til_standardlisensar.docx» i Teams (sjå mappa Lisensar i kanalen Metadata og dokumentasjon) finn du nokre argument som du kan bruka overfor forskarar dersom dei ønskjer å bruka lisensar/bruksvilkår som ikkje er i tråd med tilrådingane til DataverseNO.

NB! DataverseNO aksepterer berre lisensar som gjev tilgang til data. Jamfør DataverseNO Access and Use Policy:

In line with the intention of DataverseNO to provide maximum public access to unrestricted research data, DataverseNO promotes licenses that are recommended for the re-use of research data, and only accepts licenses providing access to deposited data in one form or another.

Dersom det aktuelle datasettet er (delvis) basert på data frå andre kjelder, så må ein undersøkja kva bruksvilkår desse dataa har, velja ein passande lisens, og spesifisera lisensen/bruksvilkåra til dei brukte kjeldene i metadatafeltet Data Sources.

Dersom det aktuelle datasettet er basert på fleire kjelder, så er det dei mest restriktive bruksvilkåra som avgjer kva lisens det aktuelle datasettet kan publiserast under. Døme: Eit datasett som er basert på eitt datasett med CC-BY og eitt med CC-BY-NC, kan publiserast under CC-BY-NC.

Dersom bruksvilkåra i originaldatasettet er formulerte som standardlisens (t.d. CC-BY), så er det som regel beintfram å velja ein lisens for det deriverte datasettet i og med at lisensen til originaldatasettet som regel spesifiserer under kva lisens ein kan publisera eit derivert datasett.

Dersom bruksvilkåra er formulerte som ein skreddarsydd tekst, så må ein først avklara kva lisens for gjenbruk bruksvilkåra opnar for. Om det t.d. står at dataa kan gjenbrukast fritt og utan restriksjonar så lenge ein viser til kjelda, så er det som regel foreinleg med ein CC-BY-lisens.

Dersom ei kjelde spesifiserer uklare bruksvilkår, så bør ein avklara med rettigheitshavaren kva standardlisens desse bruksvilkåra er foreinlege med. Svaret frå rettigheitshavaren bør leggjast til som PDF/A i datasettet, og avklaringa bør oppsummerast i metadatafeltet Data Source.

Dersom ei kjelde ikkje spesifiserer nokon bruksvilkår, så må ein avklara om det er andre forhold som kan avgjera om gjenbruken er tillaten eller ikkje. Avklaringa bør oppsummerast i metadatafeltet Data Source:

Dersom ikkje noko av dette er tilfellet, bør ein kontakta rettigheitshavaren for å avklara kva det er for vilkår som gjeld for gjenbruk av dataa. Ein bør få ei skriftleg stadfesting på kva standardlisens ein kan gjenbruka dataa under. Svaret frå rettigheitshavaren bør leggjast til som PDF/A i datasettet.

Her er to datasett som er baserte på ei rekkje kjelder: https://doi.org/10.18710/NMKI2B, https://doi.org/10.18710/VMUP44. Rettigheitsavklaringane som er dokumenterte i metadatafeltet Data Source og i dei vedlagde PDF-ane i desse to datasetta, kan vera til hjelp når kurator skal gje rettleiing på dette til forskar. Ved spørsmål ta kontakt med DataverseNO eller i DataverseNO-brukarforumet.


Senda datasett tilbake til forfattar

Dersom datasettet ikkje er strukturert og beskrive som det skal, så sender kurator datasettet tilbake til forfattaren: Klikk på Publish Dataset-knappen, og vel Return to Author.

NB! I tillegg sender kurator e-post til brukar med beskjed om kva som må gjerast med datasettet før det kan publiserast. Vi tilrår å bruka kuratorrapportmalen (sjå kanalen Kuratorrapportar på Teams-området til DataverseNO-brukarforumet). Brukaren bør visast til (dei relevante avsnitta i) arkiveringsguiden (https://site.uit.no/dataverseno/nn/arkivering/) på DataverseNO-infosida. Det er mogleg å lenkja direkte til visse avsnitt i arkiveringsguiden. Slik får du tak i rett lenkjeadresse: Hald musepeikaren over lenkjesymbolet i starten av det aktuelle avsnittet, høgreklikk, og vel «Kopiér linkadressen»:

Informer også forfattar om at dei på nytt må klikka på Submit for review når dei har gjort dei nødvendige endringane. Du kan senda e-post på to måtar:

  1. Når du er i det aktuelle datasettet, klikk på knappen med brevsymbolet, og skriv inn meldinga di i vindauget som kjem opp:
  2. Når du er i det aktuelle datasettet, klikk på Edit > Metadata, og leit opp e-postadressa i feltet Contact > Email:

    og send e-post via e-postprogrammet ditt (t.d. Outlook).

NB! Dersom kuratoren identifiserer grunnleggjande avvik ifrå DataverseNO sine retningsliner og depositor ikkje går med på å gjera nødvendige endringar i datasettet, så skal ikkje datasettet publiserast. Dersom kuratoren er usikker på om datasettet oppfyller DataverseNO sine retningsliner, så bør dette bli teke opp med DataverseNO-administratorgruppa ved UiT Noregs arktiske universitet. Gruppa skal kontaktast på adressa support@dataverse.no. I siste instans er det styret for DataverseNO som avgjer slike saker.


(Oppretta anonymisert versjon av datasett)

Dersom eit datasettutkast skal inngå i dobbelt-blind fagfellevurdering («double-blind peer review»), lagar kurator ein anonymisert versjon av det etter oppskrifta på denne sida.


Publisera datasett

Når alt er OK med datasettet, publiserer kurator det: Klikk på Publish Dataset-knappen, og vel Publish.

Brukar får då tilsendt på e-post ei automatisk melding frå Dataverse om at datasettet er publisert.

Promotering i sosiale medium

Visse delsamlingar brukar å promotera arkivet ved å leggja ut informasjon om nye datasett på sosiale medium. Når det gjeld TROLLing, brukar UB UiT å leggja ut ei melding på Twitter og på TROLLing-Facebook-gruppa om at eit nytt datasett har blitt publisert. Dei brukar også å senda ein e-post til forfattaren av datasettet med følgjande beskjed:

I have now published your dataset. Thanks for sharing your data! You can find an announcement of the upload on our Facebook and Twitter page, and we encourage you to like this in order to get updates about the archive: https://www.facebook.com/TromsoRepositoryofLanguageandLinguistics/.


Ny versjon av publisert datasett

Når ein forfattar gjer endringar i eit publisert datasett, blir det oppretta eit nytt utkast (DRAFT), som så må sendast inn til vurdering før den nye versjonen kan bli publisert. Kurator får då melding om at eit nytt datasett ventar på kuratering. NB! Per i dag går det ikkje fram av denne meldinga om det dreiar seg om eit heilt nytt datasett eller ein ny versjon av eit tidlegare publisert datasett. Ofte kan det gå lang tid mellom nye versjonar, og då hugsar ein gjerne ikkje at datasettet er blitt publisert før. Det er derfor lurt å starta kvar kurateringsprosess ved å undersøkja om datasettet har versjonar. Klikk på fana Versions:

Når du klikkar på View Details, får du opp ei oversikt over endringar mellom versjonar. Du bør etterpå sjå nærare på endringane som er gjorde i metadata og/eller filer, og då følgjer du oppskrifta i avsnitta ovanfor. Når du etter kurateringa publiserer den nye versjonen, får du spørsmål om versjonsnummer:

Hovudregelen er at dersom endringane berre gjeld metadata, så er det ein Minor Release. Dersom det er gjort endringar i filene, så er det ein Major Release.

Frå tid til anna bør ein sjekka om det ligg upubliserte datasett i arkivet som ikkje er blitt sende inn til vurdering (In Review). Dersom eit datasett har hatt status Unpublished i meir enn tre månader, bør ein ta kontakt med forfattar og gjera dei merksam på at dei må klikka på Submit for review for at datasettet skal kunna publiserast.


Lesetilgang til upublisert datasett og eventuell anonymisering


Scenario: Forfattar ønskjer å gje lesetilgang til datasettet sitt til samarbeidspartnar, fagfelle, tidsskriftsredaktør e.l. før det er blitt publisert.

Oppskrift:

  • Log inn, og gå til det upubliserte datasettet.
  • Klikk på Edit Dataset-knappen til høgre, og vel Preview URL.
  • Vel alternativet Create Preview URL. (Inntil vidare bruker vi ikkje Create URL for Anonymized Access, men følgjer eit eige opplegg for anonymisering dersom nødvendig; sjå meir informasjon under Related publication i avsnittet Metadata lenger oppe eller via denne lenkja.)
  • Kopier førehandsvisings-URL-en, og send lenkja til forfattaren ev. dei som skal ha tilgang til datasettet.
  • Førehandsvisings-URL-ar kan lagast til datasett som har status DRAFT, også når det finst tidlegare publiserte versjonar av datasettet – sjølv om sistnemnde dømet truleg ikkje er aktuelt for deling med tidsskriftsredaktør i samband med fagfellevurdering av ein publikasjon.

Redigeringstilgang

Når ein brukar opprettar eit datasett i Dataverse, får dei sjølvsagt automatisk redigeringstilgang til det datasettet. Men i visse tilfelle kan det bli aktuelt å tildela redigeringstilgang manuelt. Moglege scenario:

  • Scenario 1: Ein kurator har oppretta eit datasett på vegner av ein forskar (jf. t.d. pilotprosjektet ved UiT i 2016). Forskaren vil no sjå over datasettet før det blir publisert.
  • Scenario 2: Ein forskar har oppretta eit datasett og ønskjer at fleire i forskingsgruppa skal få redigera datasettet.
  • Scenario 3: Ein forskar har oppretta eit eller fleire datasett i ei institusjonssamling (t.d. UiT-samlinga), men ikkje fått publisert det enno. Forskaren sluttar på institusjonen og får tilgang til datasettet sitt lenger. Forskaren må oppretta ny brukarkonto, anten via Feide (viss dei no jobbar ved ein annan institusjon som bruker Feide) eller lokalt. Når denne kontoen er oppretta, må forskaren få tilgang til sine «gamle» datasett.

Ta kontakt med samlingsforvaltaren for DataverseNO-institusjonssamlinga til institusjonen din for å få endra/tildelt tilgangsrettar på datasettnivå.


Flytting av datasett

Per i dag er det ikkje mogleg å flytta eit datasett frå eitt datavers til eit anna via brukargrensesnittet. Dersom t.d. ein språkvitar frå UiT har oppretta eit språkdatasett i UiT-samlinga i staden for TROLLing, så er per i dag den enklaste løysinga at datasettet blir kuratert og publisert der det er oppretta, og at og kurator etter publisering gjev beskjed til support@dataverse.no om kor datasettet skal flyttast.


Sletting av publiserte datasett

Når eit datasett er publisert, er DOI-en blitt aktivert. Gjennom DOI-avtalen og DataverseNO Preservation Policy er arkivet forplikta til å sikra varig tilgang til datasettet i minst 10 år etter publiseringstidspunktet. Dersom det etter publiseringa likevel viser seg at eit datasett av etiske, juridiske eller andre grunnar ikkje burde ha blitt publisert, så kan vi fjerna tilgang til filene i datasettet. Sjølve metadataposten vil derimot framleis vera synleg. Ta kontakt på support@dataverse.no for å få fjerna filtilgangen i eit datasett.


Oppgåver i samband med langtidsbevaring

DataverseNO forpliktar seg til å sikra at data som er publiserte i arkivet, også kan brukast på lang sikt. Som eit ledd i dette arbeidet har DataverseNO-kuratorar fleire oppgåver som er spesifiserte i Preservation Policy og Preservation Plan, og som dei vil få tildelt av samlingsforvaltar.