Hva kan Wikipedia fortelle oss om kaffe? Wikipedia som terminologisk ressurs

Authors

  • Magnus Breder Birkenes Nasjonalbiblioteket
  • Lars Johnsen Nasjonalbiblioteket

DOI:

https://doi.org/10.7557/5.4984

Keywords:

Open Science, Wikipedia

Abstract

Presentasjon frå Wikipedia-akademiet 2015

I foredraget ønsker vi å se på Wikipedias nytteverdi som språkressurs: Denne er ved første øyekast åpenbar. Wikipedia representerer en av de største samlingene av fri tekst som er tilgjengelig på både bokmål og nynorsk (hhv. 405.000 og 119.000 artikler). I tillegg er artiklene lenket sammen og knyttet til kategorier. Wikipedia er med andre ord ingen hvilken som helst tekstsamling - den nevnte organiseringen av tekstene gir oss muligheten til å utvikle nye og frie digitale resurser. For eksempel kan sammenlenkingen mellom artikler på bokmål og nynorsk være utgangspunkt for en fritt tilgjengelig parallellordbok/-termbank, noe som ikke finnes i dag: Et søk på "kjennelse" på bokmål, vil gi tilslag på "orskurd" på nynorsk – artiklene er koplet sammen i Wikimedias "langlinks"-tabell. Materialet som ligger i Wikipedia kan også brukes for å lage en synonymordbok. Et utgangspunkt kan her for eksempel være omdirigeringsdatabasen som leder om søk: Et søk på "øretelefoner" eller "høretelefoner" leder brukeren til artikkelen "hodetelefoner". Til slutt kan også kategoriseringen som er gjort i Wikipedia danne grunnlag for spesialordbøker og språkvitenskapelige undersøkelser.

I foredraget skal vi se nærmere på sistnevnte, altså på kategoriseringen som er gjort i Wikipedia, og sammenhengen mellom ordbruk og bestemte temaområder, og hvordan temaområdene som representerer semantiske klasser kan vise frem betydningsforskjeller mellom ord.

For å oppnå dette, har vi som en liten pilotstudie lastet ned siste dump av bokmålsversjonen til Wikipedia og konvertert markup til ren tekst med Java-verktøyet gwtwiki.[1] Vi ble da sittende igjen med et tekstmateriale på i underkant av 80 millioner ord. Samtidig ekstraherte vi alle kategoriene de ulike sidene er knyttet til fra Wikimedia-databasen: Siden mange av disse kategoriene er svært spesifikke, valgte vi å konsentrere oss om alle ettordskategorier som hverken inneholder spesialtegn (for eksempel bindestrekbegreper) eller tall og som har vært brukt i mer enn 60 artikler. Alle stubber ble også utelatt. Slik endte vi opp med ca. 700 kategorier (av totalt ca. 180.000 oppføringer i kategoridatabasen) der kategorien «menn» var den mest brukte, etterfulgt av «kvinner». Vi talte så frekvensene for hver ordform opp på hver kategori slik at vi fikk frekvensene for enkeltord fordelt på hver av kategoriene og en stor «restkatgori». Ved hjelp av et statistisk mål, såkalt PMI («Pointwise Mutual Information»), har vi til slutt regnet oss frem til hvilke av kategoriene ordene har størst affinitet til. PMI beregnes ut fra frekvensdata ved å se på den forventede forekomsten av ordet i en bestemt kategori sammen med den faktiske, slik at ord som klumper seg sammen under et bestemt emne vil gi høy score, mens ord som fordeler seg jevnt over ulike emner gir lavere score.

Første stikkprøver vi har gjort, viser at opptellingen gir interessante resultater. Et søk på "melk" gir høy PMI på kategoriene "drikkestell" og "melkestell", altså melk både som drikk og som landbruksprodukt. Aller mest knyttes melk til ost, og i begge kategorier er forbindelsen til husdyrhold tydelig. Det er også mulig å gå den andre veien, altså fra emne til enkeltbegrep: For eksempel får vi i kategorien "kaffe" relevante oppslag som "nespresso", "starbucks", "arabica", "robusta", "latte", "kjeldsberg" som alle på sin måte er med på å prege kaffekulturen i Norge i 2015. Selv om vi ikke har hatt muligheten til å gå dypere inn i materialet ennå, tyder mye på at metoden er godt anvendbar på Wikipedia-materialet. I foredraget ønsker vi ved siden av presentasjon av relevante funn også å trekke inn mer tekstmateriale: Vi vil gjøre det samme vi her har gjort for bokmålsversjonen av Wikipedia for nynorskutgaven. Et annet mål er å sammenlikne ordfordelingen i Wikipedia med tekster fra en enda større ressurs, nemlig alle norske bøker utgitt frem til og med år 2000. Her kommer vi til å bruke Dewey-systemet som utgangspunkt for opptelling. Bøker som er katalogisert i norske bibliotek fra og med 1950-tallet har for det meste en slik kategorisering.

Undersøkelsen har en klar relevans for Wikipedia-samfunnet da den blant annet sier noe om hvor god kategoriseringen på nåværende tidspunkt er og hvor den kan forbedres. Den er også med på å understreke betydningen av slik kategorisering: Wikipedia-ressursene er av stor interesse for oversettere som er opptatt av nyanser i språket og er også svært nyttig i oppbyggingen av termbaser, tesauruser og søkemotorer der for eksempel disambiguering av søketermer står sentralt.

Fotnoter:
[1] Fremgangsmåten vi brukte, er beskrevet her: http://trulymadlywordly.blogspot.no/2011/03/creating-text-corpus-from-wikipedia.html [sist besøkt: 28.01.2015].

Metrics

Metrics Loading ...

Downloads

Published

2019-10-03

How to Cite

Birkenes, M. B., & Johnsen, L. (2019). Hva kan Wikipedia fortelle oss om kaffe? Wikipedia som terminologisk ressurs. Septentrio Conference Series, (2). https://doi.org/10.7557/5.4984

Issue

Section

Presentations