Samtaler i korpusformat

Repræsentation af talesprog i LANCHARTs korpus-infrastruktur

Authors

DOI:

https://doi.org/10.7557/12.7084

Keywords:

korpusinfrastruktur, talesprogsdata, samtaledata, annotation

Abstract

LANCHART-korpusset udgøres dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960’erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret på Københavns Universitet mellem 2005 og 2015. Geografisk dækker korpusset en række lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muliggør en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel annotation af ord og længere tekstpassager. Korpusset er for nylig blevet relanceret i en ny søgeinfrastruktur baseret på Corpus Workbench (CWB) og den brugervenlige søgegrænseflade Korp, som udover hurtige og fleksible søgninger udmærker sig ved at være open source software der frit kan udvides med ny funktionalitet. Indlæsning af korpusdata i konkordansværktøjer som Korp kræver data i lineært format, hvilket medfører særlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og præsenterer vores løsning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.

References

Bornholmsk ordbog (BO). 1908. København: Det Kgl. Danske Videnskabernes Selskab.

Ømålsordbogen - en sproglig-saglig ordbog over dialekterne på Sjælland, Lolland-Falster, Fyn og omliggende øer (ØMO). 1992–. København: Institut for Dansk Dialektforskning.

Retskrivningsordbogen (RO). 2012. 4. udg. København: Dansk Sprognævn.

Den danske ordbog (DDO). u.å. København: Det Danske Sprog- og Litteraturselskab. Tilgængelig på https://ordnet.dk/ddo

Jysk Ordbog (JO). u.å. Århus: Peter Skautrup Centret for Jysk Dialektforskning, Aarhus Universitet. Tilgængelig på http://jyskordbog.dk

Barras, Claude, Edouard Geoffrois, Zhibiao Wu & Mark Liberman. 1998. Transcriber: a Free Tool for Segmenting, Labeling and Transcribing Speech. I First International Conference on Language Resources and Evaluation (LREC). 28.–30. maj, 1998, pp. 1373–1376.

Boersma, Paul & David Weenink. 2023. Praat: doing phonetics by computer [Computer program]. Version 6.3.09. Tilgængelig på http://www.praat.org/

Borin, Lars, Markus Forsberg & Johan Roxendal. 2012. Korp – the corpus infrastructure of Språkbanken. I Proceedings of LREC 2012, pp. 474–478.

Evert, Stefan & Andrew Hardie. 2011. Twenty-first century Corpus Workbench: Updating a query architecture for the new millennium. I Proceedings of the Corpus Linguistics 2011 conference, pp.

Gregersen, Frans. 2009. The data and design of the LANCHART study. Acta Linguistica Hafniensia 41: 3–29. https://doi.org/10.1080/03740460903364003 DOI: https://doi.org/10.1080/03740460903364003

Gregersen, Frans, Jon Albris & Inge Lise Pedersen. 1991. Data and design of the Copenhagen study. I The Copenhagen study in urban sociolinguistics, redigeret af Frans Gregersen & Inge Lise Pedersen. C. A. Reitzels Forlag, København.

Gregersen, Frans & Tore Kristiansen. 2015. Indledning. Sprogforandring i virkelig tid. I Hvad ved vi nu - om danske talesprog, redigeret af Frans Gregersen & Tore Kristiansen. Sprogforandringscentret, København.

Henrichsen, Peter Juel. 2009. The CBS Text-to-Speech Workbench. Working Paper / Internationale Sprogstudier og Vidensteknologi No. 2009-1, Tilgængelig på https://research-api.cbs.dk/ws/portalfiles/portal/58999553/2009_1.pdf.

Henrichsen, Peter Juel. 2011. Program Phonix. DGCSS' redskab til fono-morfo-syntaktisk annotation.

Jurafsky, Dan & James H. Martin. 2023. Speech and Language Processing, 3. (draft) udg. Tilgængelig på https://web.stanford.edu/~jurafsky/slp3 (tilgået 23.3.2023).

Jørgensen, Jens Norman. 2003. Bilingualism in the Køge project. International Journal of Bilingualism 7(4): 333–352. https://doi.org/10.1177/13670069030070040101 DOI: https://doi.org/10.1177/13670069030070040101

Jørgensen, Jens Normann & Kjeld Kristensen. 1994. Moderne sjællandsk. C.A. Reitzel, København.

Keson, Britt. 1999. Vejledning til det danske morfosyntaktisk taggede PAROLE-korpus. Det Danske Sprog- og Litteraturselskab, Tilgængelig på https://korpus.dsl.dk/documentation/PAROLE-dokumentation/paroledoc_da.pdf (tilgået 23.08.2023).

Kristensen, Kjeld. 1977. Variationen i vestjysk stationsby-mål. Dialektstudier 4(1): 29–109.

Kristensen, Kjeld. 1980. Situationsafhængig sprogbrug hos vestjyske skoleelever. Danske Folkemål 22(2): 29–124.

Kristiansen, Tore. 1991. Sproglige normidealer på Næstvedegnen. Ph.d.-afhandling, Københavns Universitet, København.

Kühl, Karoline, Jan Heegård Petersen, Gert Foget Hansen & Frans Gregersen. 2017. CoAmDA. Et nyt dansk talesprogskorpus. Danske talesprog 17: 131–160.

Maegaard, Marie. 2020. Introduction: Standardization as Sociolinguistic Change. I Standardization as Sociolinguistic Change, redigeret af Marie Maegaard, Malene Monka, Kristine Køhler Mortensen & Andreas Candefors Stæhr. Routledge, New York. https://doi.org/10.4324/9780429467486 DOI: https://doi.org/10.4324/9780429467486

Nielsen, Bent Jul & Magda Nyberg. 1992. Talesprogsvariation i Odder kommune. I. Lokalsprog og rigsmål i sociolingvistisk belysning. Danske Folkemål 34: 45–202.

Nielsen, Bent Jul & Magda Nyberg. 1993. Talesprogsvariation i Odder kommune. II. Yngre og ældre rigsmålsformer i sociolingvistisk belysning. Danske Folkemål 35: 249–348.

Pedersen, Inge Lise. 1994. Linguistic Variation and Composite Life Modes. I The Socioloinguistics of Urbanization. The Case of the Nordic Countries, redigeret af Bengt Nordberg. de Gruyter, Berlin/New York. https://doi.org/10.1515/9783110852622.87 DOI: https://doi.org/10.1515/9783110852622.87

Quist, Pia. 2020. Sprog og sted: En undersøgelse af sproglig variation i forstaden og landsbyen. Danske talesprog 20: 175–194.

Ramshaw, Lance A. & Mitchell P. Marcus. 1999. Text Chunking Using Transformation-Based Learning. I Natural language processing using very large corpora, redigeret af Armstrong Susan, Kenneth Church, Isabelle Pierre, Sandra Manzi, Evelyne Tzoukermann & David Yarowsky. Springer, Dordrecht. https://doi.org/10.1007/978-94-017-2390-9_10 DOI: https://doi.org/10.1007/978-94-017-2390-9_10

Downloads

Published

2023-12-21