Datakilder i DUCT

Til grunn for alle rapporter i DUCT ligger datakilder, som er spesifikke uttrekk fra Cristin-databasen. Datakildene består av et utvalg variabler fra Cristin-databasen, tematisert etter hva slags objekter man ønsker å analysere. I dagens løsning finnes datakilder for resultater, ansettelser, organisasjonsstruktur og prosjekter. 

Resultater

Vi har siden oppstarten av DUCT lagt til nye datakilder etter hvert som behovene har meldt seg. De ulike kildene består av tematiserte utvalg variabler, avhengig av hva du ønsker å analysere. I oktober 2020 lanserte vi to nye kilder som på sikt kommer til å ta over for de gamle resultat-kildene. Nå kan du gjøre ett valg, i stedet for å velge kilde basert på hvilke variabler du ønsker å analysere. For eksempel om du ønsker å analysere innholdet i Cristin slik det ser ut i dag eller om du ønsker å analysere nvi-resultater slik om de så ut på rapporteringstidspunktet.

Fryste vs live-data

Cristin er et «current»-system. Det innebærer at Cristin representerer virkeligheten slik den ser ut i dag. Institusjoner vises slik de fremstår nå, med dagens organisasjonsstruktur. Dette innebærer f.eks. at historiske institusjoner som har fusjonert ikke representeres i Cristin - alt innhold er flyttet til dagens institusjon. Live-kildene i DUCT tar utgangspunkt i oppdatert informasjon fra Cristin, og vil stemme overens med det som vises i Cristin applikasjonen eller API. Antall publikasjoner og publikasjonspoeng (for nvi-publikasjoner) vil avvike noe fra det som er rapportert i NVI. Avvikene vil typisk være større jo lenger bak i tid man går, og jo flere institusjoner som har fusjonert. I tillegg vil det finnes noen avvik som skyldes at publikasjoner har blitt endret i etterkant av rapportering (f.eks fordi det viste seg at feil person var knyttet til publikasjonen, eller at en publikasjon viste seg å være en dublett). På grunn av disse avvikene finnes det en ekstra kilde for NVI-publikasjoner. I tillegg til live-versjonen, som beskrevet over, tas det vare på en historisk versjon som gjenspeiler hvordan publikasjonen så ut i Cristin på rapporteringstidspunktet. For nøyaktige tall på antall publikasjoner og publikasjonspoeng som ble rapportert hvert år er det disse kildene som må benyttes.

Personinformasjon i DUCT

GDPR krever lovhjemmel for behandling av personinformasjon før vi kan publisere de, og gi tilgang videre i DUCT. Alle institusjoner har derfor kun tilgang til egen institusjons individdata gjennom DUCT. Datakilder finnes derfor typisk i to varianter, med og uten persondata. Kilder uten persondata inneholder all informasjon om publikasjoner med unntak av data knyttet til individer. Skal man se på enkeltforskere eller variabler som er knyttet til disse, må man benytte kilden som kun inneholder informasjon om egen institusjons forfatterandeler.

Liste over datakilder

FOR_data_sted(_person)_total

Disse kildene inneholder samtlige publikasjoner som til enhver tid er registrert i Cristin, uavhengig av kategori, årstall eller institusjon, og oppdateres daglig. Kilden inneholder samtlige forfatterandeler, inkludert utenlandske og kan benyttes til å analysere egen institusjons produksjon, samarbeid med andre institusjoner eller land, open access og mye mer. Kilden inneholder filtre for NVI slik at man kan analysere nvi-publikasjoner med dagens organisasjonsstruktur. Publikasjonspoeng er også tilgjengelig, men i en «simulert» versjon. Det vil si at poengene bergenes direkte på datagrunnlaget, og vil derfor avvike fra det som er rapportert. Kilden finnes i to varianter, med og uten personinformasjon.

NVI_data_sted_(person_)historisk

Disse kildene inneholder kun rapporterte NVI-publikasjoner, og oppdateres årlig. Kilden vil speile virkeligheten slik den så ut ved hvert års rapporteringstidspunkt, og er bl.a. eneste «riktige» kilde til publikasjonspoeng. Kilden inneholder alle forfatterandeler for publikasjoner publisert i 2017 og senere. I perioden 2011-2016 finnes kun informasjon om de rapporterende institusjonene. Kilden finnes i to varianter, med og uten personinformasjon.

Eldre datakilder (fases ut etterhvert)

Disse kildene er tilgjengelig i DUCT, men kommer ikke til å oppdateres, og vil på sikt utfases. Rapporter som er basert på disse bør konverteres til en av de nye kildene.

NVI_data_sted( _person)

Inneholder kun rapporterte nvi-publikasjoner og kun forfatterandeler fra institusjoner som rapporterer i Cristin. Publikasjonspoeng er «som rapportert», men organisasjonsstrukturen er «current».

OA_data_sted(_person)

Som NVI_data_sted, men inneholder i tillegg informasjon om alle nvi-kandidater.  Det vil si at også publikasjoner som er underkjent i nvi-rapporteringen, samt årets kandidater som ikke ennå er kontrollert er med i datagrunnlaget. Inkluderer også mange variabler knyttet til Open Access

NVI_data_sted_samarbeid

Inneholder kun NVI-publikasjoner, men inkluderer informasjon om alle involverte institusjoner, ikke bare de som rapporterer til NVI.

FIN_data_sted

Kilde som inneholder vitenskapelige (NVI)-publikasjoner som er knyttet til minst en finansieringskilde, samt informasjon om finansieringskildene.

FOR_data_sted_person

Inneholder informasjon om alle institusjonens resultater, uavhengig av nvi og kategorier.

NVI_data_RAPPORTERT_sted(_person)

Gammel kilde for historisk informasjon om rapporterte nvi-publikasjoner. Basert på en sammensatt statisk fil. Den nye versjonen er knyttet til tabeller i Cristin

PUB_data_sted_BETA

Inneholder alle institusjonsandeler fra alle institusjoner for alle kategorier. Opprinnelig tenkt å bli en «master-kilde» for resultater.

RYDD_data_sted

Inneholder en rekke variabler som er nyttige for bl.a. ryddelister og administrativ oppfølging av NVI-rapportering

 

Administrative data

I tillegg til informasjon om resultater finnes det kilder der du kan finne informasjon fra Cristin om ansettelser og organisasjonsstruktur. Fordi resultatkildene tar utgangspunkt i publiserte resultater vil de ikke inneholde informasjon om personer/organisasjonsenheter som ikke har vært knyttet til noe resultat. Kildene under inneholder komplett oversikt over sted og persondata.

ADMIN_ansettelse_person

Denne kilden tar utgangspunkt i de registrerte ansettelsene i Cristin. Inneholder informasjon om alle institusjonens ansatte i Cristin i tillegg til lister over publikasjoner og prosjekter som forskeren har vært med på ved den gitte institusjonen.

ADMIN_sted

Kilde som inneholder informasjon om alle institusjoners organisasjonsstruktur, som representert i Cristin. Viser hele organisasjonsstrukturen, uavhengig av om det er publisert ved enhetene eller ikke.

 

Prosjekter (kommer)

Det jobbes med å lage datakilder for prosjekter.

Publisert 17. nov. 2020 12:30 - Sist endret 17. nov. 2020 12:30