Bibliotek
2/2021

Noen må holde orden på den økende datamengden

Lars Egeland

er direktør for Universitetsbiblioteket, OsloMet og skriver på egne vegne i Bok og Bibliotek.

For første gang er åpen tilgang større enn abonnementsbasert tilgang, sa Kenneth Ruud på den digitale Bibsys-konferansen i mars. Ruud er prorektor ved Universitetet i Tromsø og har viktige verv i både Universitets- og høgskolerådet og i Norges Forskningsråd.

Ruud takket de mange bibliotekarene som gjennom år har sloss for åpen tilgang. Ruuds kilde for at åpen tilgang er størst, var typisk nok en Twitter-melding fra Samuel Moore, som er en informasjonsteori-forsker som har spesialisert seg på vitenskapelig publisering (Bio - Samuel Moore) .

Slik jeg leser dataene Ruud refererte til, dreier det seg om at det nå kommer flere åpne publikasjoner enn abonnementspublikasjoner – det dreier seg ikke nødvendigvis om lesning. Der kan det være at OA har vært større over lengre tid. Det interessante er imidlertid at begge deler har hatt en kraftig økning. Mens det i 2000 var litt under 2 millioner publikasjoner i lukkete kanaler og under 500.000 i åpne, har de to i 2020 passert hverandre med ca 3 millioner publikasjoner i hver kanal. Altså en seksdobling av åpne publikasjoner, men også og en 50 % økning i lukkede publikasjoner. Og samlet over en dobling i antall publikasjoner på 10 år.

Kan ikke huske sist jeg var på biblioteket for å få en bok

Jeg kan ikke huske sist jeg var på biblioteket for å finne litteratur, sa Ruud. Som forsker er Ruud opptatt av forskningsbiblioteket, men han mente samtidig at det fysiske biblioteket er viktig for studentene. Ikke bare som arbeidsplasser for dem, men som læringsarenaer der man kombinerer studentenes nye måter å jobbe, med tilgang til kunnskap – og tilgang til kompetanse. Hvis vi gjør dette til et attraktivt tilbud, vil ansatte også legge deler av arbeidet sitt til de fysiske biblioteklokalene, mente Ruud.

Økningen i antall publikasjoner sier noe om veksten i kunnskapsproduksjon

og publisering, som synliggjør behovet for organisering av kunnskapen og kuratering og formidling av kunnskapskildene.

Publikasjoner vokser, forskningsdata eksploderer

Veksten er enda større når det gjelder forskningsdata. Data kan bli den nye tidsskriftsartikkelen, mente Ruud – og viste hvordan man gjennom tilgang til forskningsdataene kan få interaktive artikler. I framtida er kanskje ikke artikkelen det viktigste å få tilgang til, men forskningsdataene.

Ruud viste en graf som anslo at vi kan få en vekst i datamengden opp mot 175 zetabyte i 2025, fra et nesten usynlig startpunkt i 2020. Zetabyte er en trilliard byte, et 1-tall med 23 nuller bak. Bare for kort tid siden målte man datamengder i exabyte – en trillion byte – 1-tall med 18 nuller bak. I 1999 regnet man med at summen av all menneskeskapt media, - dvs audio, video, tekst - i verden utgjorde 12 exabyte. Men allerede i 2020 var produksjonen oppe i 5 nye exabyte. Det sies at summen av alle ord som menneskeheten gjennom denne klodens eksistens har uttalt, utgjør 5 exabyte. Her kan man altså bli svimmel. Det er ikke så urimelig å etterlyse en bibliotekar som kan bidra til å holde orden på dette. Da hjelper det ikke med katalogkort, men nye automatiserte verktøy. Ruud viste til gründerbedriften Keenious i Tromsø, som arbeider med å utvikle intelligente søkemaskiner som kan finne meningsfylt innhold i store mengder data. Det kan skje også uten at du behøver å spørre, f eks basert på din egen tekst. Keenious jobber sammen med dyktige referanse-bibliotekarer på UH-institusjonene som hjelper gründerne med å utvikle tjenesten. Det vil komme mange nye slike verktøy, og funksjonaliteten vil bli innebygd i eksisterende systemer.

Ruud mente at man trenger bibliotekene til kuratering, visualisering av data, bibliometri – og til plattformer for publisering av vitenskapelige artikler. Universitetsbiblioteket i Tromsø har tatt ansvar for lagring av forskningsdata og drifter Dataverse, som de fleste norske universiteter og høgskoler i dag benytter til datalagring.

Stemmestyring vokser

Vi har en tendens til å overvurdere hva som skjer de neste to årene og undervurdere hva som skjer de neste ti – det er et sitat av Bill Gates som Tarjei Vassbotn tok i bruk i sin presentasjon om kunstig intelligens på Bibsys-møtet. Vassbotn jobber nå i Google, men har bakgrunn fra bl.a. selskapet Disruptive Technology og Nofence som lager digitale gjerder for husdyr. Han er også en av de første som var med i S-OL og Kvasir, om noen ennå husker de selskapene. Nå snakket han om «Internet of Things» og AI – kunstig intelligens.

I hvert fall i et par år har selskaper som Google og Amazon tenkt at stemmestyring er teknologi som vil utvikle seg. Sjøl har jeg Amazons assistent Alexa, som jeg bruker til å fortelle meg når maten er klar, fortelle meg nyheter, spille musikk – men også til å slå av lysene når vi legger oss. Det illustrerer Gates sitt utsagn. Til nå har Alexa ikke vært nyttig, men det er selvsagt bare begynnelsen.

Assistenten kan også holde orden på bilen, kalenderen, været – og da kombinere viten fra ulike kilder slik som at du får beskjed om at du i dag må reise tidligere på jobb fordi det er kø (trafikkinfo), dårlig vær osv. Neste skritt er å utføre tjenester som å bestille varer, mat, taxi, frisør. Litt komisk vil det bli når din stemmestyrte assistent ringer for å bestille frisør-time og da får snakke med en annen stemmestyrt assistent.

Vassbotn anbefalte bibliotekarer som vil vite mer om AI i forhold til oppgaver som kan være relevante for oss, å se videoer om GPT3 på YouTube. Jeg trodde han sa GDP3, men det hadde ingen betydning, YouTube fant emnet for meg, det var nok med en rett bokstav. Sannsynligvis skyldtes det enkel AI-teknologi.

GPT-3 ble lansert i 2019, utviklet av OpenAI som eies av Elon Musk. Videoene jeg har sett viser hvordan du kan designe din egen webside bare ved å gi beskjed om hvilken tekst og elementer du vil ha på nettsida. Men bearbeiding av tekst er enda mer interessant. Du skriver: «The landlord did not maintain the property». GPT3 skriver den juridiske versjonen av utsagnet: “The defendants have permitted the real property to fall into disrepair and have failed to comply with state and local health safety codes and regulations.” Du kan selvsagt velge ulike typer vinkling på teksten du vil ha skrevet. Basert på kunnskap trukket ut av alle Shakespeares bøker, kan du selvsagt også be om å få se hvordan din tekst ville vært om Shakespeare skulle ha skrevet den. Dette kan også brukes den andre veien: En beskrivelse fra advokat eller lege overføres til enkelt, forståelig språk. Ønsker du et sammendrag av en bok, konstrueres det av GTP3 ut fra den opprinnelige teksten.

Det er vanskelig å spørre Shakespeare om han er fornøyd med de nye tekstene som konstrueres i hans uttrykk. Men GPT3 har spurt en rekke fagfolk og nålevende vitenskapsfolk om de er fornøyd. Det er de etter sigende. Ofte er svaret mer presist enn de selv kunne ha formulert det.

Dette har selvsagt mange mulige implikasjoner. Det kan være dårlig nytt for jurister hvis vi kan få generert automatiske tekster som endatil er mer juridisk presise enn juristene kan formulere det. Det har selvfølgelig også framtidig betydning for bibliotekaryrket. Innføringen av internett-søkemaskiner har ikke overflødiggjort gode søk fra bibliotekarer, men avansert AI-teknologi vil kunne utkonkurrere bibliotekaren. Men det betyr sannsynligvis bare en forskyving av oppgaver for bibliotekspersonalet: I stedet for «manuelle» søk vil bibliotekarene jobbe med tilpasning og systemarbeid knytta til søkesystemene, og ikke minst vil de jobbe med opplæring av folk til å ta systemene i bruk.

Alt blir bra – det blir til og med bedre!

Vi har vært gjennom et års nedstengning som følge av pandemien. Bibsys-konferansen i fjor rakk akkurat å bli gjennomført før landet gikk i lock-down. I år var konferansen digital, men resultatet var en rekordoppslutning høyere enn noen annen tidligere Bibsys-konferanse.

Alt vil ikke bare bli bra, det blir bedre – hevdet bibliotekdirektør Anna Løken ved Høgskolen i Innlandet i sitt innlegg på årets konferanse. Hun mente at digitaliseringsgevinstene som ble skapt under pandemien, vil vi ta med oss videre når vi nå øyner slutten etter den siste bratte bakken.

Bibliotekdirektør Hanne Graver Møvig fortalte om den digitale satsinga som Universitetsbiblioteket ved UiO har fått midler til. Det viser at institusjonsledelsen skjønner betydningen av at biblioteket kan gjøre store mengder digitale data fra institusjonen tilgjengelig. Jeg hadde også et innlegg der jeg framholdt at bibliotekene har lang historie, men en stor framtid foran seg ved at det er et økende behov for det som er kjerneideen bak bibliotekene – det å gjøre kunnskap tilgjengelig for brukerne. At vi trenger økt åpenhet, deling og gjenbruk – som er sentrale verdier for bibliotekene. Dette var også tema på konferansens første dag, da Emma Vestli snakket om hvordan fremtidens bibliotek kan være den utløsende brikken for UH-sektorens digitale transformasjon.

Det to-delte biblioteket

Prorektor Kenneth Ruud snakket om forskningsbiblioteket. Viserektor for utdanning, Oddrun Samdal fra UiB, snakket om læringsbiblioteket. Vi ser tydeligere og tydeligere en todeling av forventningene til bibliotekene: Forskerne trenger en rekke tjenester, men er ikke opptatt av det fysiske biblioteket. Studentene trenger biblioteket som læringsarena og arbeidsplass.

Presentasjonene fra konferansen blir lagt ut på nett og vil være tilgjengelige her: Den digitale BIBSYS-konferansen 2021 | Unit