Google als corpus

30 04 2007

Op Taalkoeien maak ik wel eens gebruik van Google om aan te tonen dat een bepaald fenomeen (vaak) voorkomt in de Nederlandse taal. Inderdaad, als iets voorkomt op Google, wil dat zeggen dat er nog mensen zijn die de een of andere constructie of het een of andere woord gebruiken. Zolang je niet naar de frequentie kijkt die rechtsboven wordt weergegeven, is er helemaal geen probleem.

Maar meestal ben ik niet tevreden met het gevoel “ach er zeggen nog mensen dat”. Ik wil dan weten hoeveel mensen dat zeggen, en hoeveel mensen het anders zeggen en hoeveel hier en hoeveel daar. En dan heb je die frequentie daar rechtsboven wel nodig. Op dat moment wil ik dus Google gebruiken als een Corpus.

Eerst eens kijken wat de mensheid zo onder een corpus verstaat:

  • A collection of texts, spoken and/or written, which has been designed and compiled based on a set of clearly defined criteria. (CORPUS [13c: from Latin corpus body. The plural is usually corpora].)
  • A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. Plural also corpuses. In linguistics and lexicography, a body of texts, utterances, or other specimens considered more or less representative of a language, and usually stored as an electronic database. Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus. (The Oxford Companion to the English Language, ed. McArthur & McArthur, 1992)
  • A collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic description or as a means of verifying hypotheses about a language. (David Crystal, A Dictionary of Linguistics and Phonetics, Blackwell, 3rd Edition, 1991)
  • A collection of naturally occurring language text, chosen to characterize a state or variety of a language. (John Sinclair, Corpus Concordance, Collocation, OUP, 1991)

Het belangrijkste uit al die definities is echter dat de keuze van de teksten bewust is gebeurd en dat meestal al die teksten voorzien worden van extra informatie, bijvoorbeeld woordsoorten. Dat krijg je natuurlijk niet voorgeschoteld als je een eenvoudige zoekopdracht uitvoert in Google. Op het eerste gezicht kan je dit zien als enkel een paar ‘definitie’-probleempjes. Het is echter zo dat het zoeken zonder de mogelijkheid om de woordsoort te kiezen erg moeilijk is. Een belangrijker aspect gaat over de frequentie, en daar maakte ik me al zorgen over. Er is immers geen enkele mogelijkheid om de grootte van het internet te meten. Daardoor kan je nooit een zekere kwantitatieve uitspraak doen.

Zo betrouwbaar is Google dus niet voor kwantitatieve uitspraken. Dat bleek ook al uit de volgende commentaar van professor Dirk Speelman:

“Zelf gebruik ik Google-frequenties namelijk enkel ter verkenning of voor anecdotische informatie. In de context van grotere, ‘ernstigere’ analyses moet je een beetje voorzichtig zijn met Google-frequenties. Ten eerste is het internet uiteraard een niet gebalanceerd corpus waarvan de structuur (bv. de vertegenwoordiging van genres, registers, regio’s, …) ontoegankelijk is, zodat het conceptueel niet duidelijk is waar een Google-frequentie linguïstisch voor staat. Ten tweede komen daar nog heel wat technische complicaties bij die de tellingen nog eens extra vertroebelen. Bv.

  • van bepaalde teksten of stukken tekst bestaan talloze kopieën op het web; de uitdrukkingen in die teksten krijgen dan misschien een geflatteerde frequentie in Google

Nu is het wel zo dat niemand precies weet hoe groot in het algemeen de invloed van dergelijke vertekeningen is, maar voor de meeste linguïstische toepassingen bestaat er toch een consensus dat Google-frequenties niet deugen. “

Er zijn echter ook een aantal niet te vergeten positieve punten aan Google als corpus. Robb (2003) geeft ook een aantal positieve punten:

  • Google is makkelijker toegangelijk dan een ‘normaal’ corpus
  • Google heeft een veel grotere verzameling dan de andere corpora
  • Google heeft ook blogs en fora in zijn index, en daarmee benader je de gesproken taal

Voor een informeel blog als Taalkoeien wegen die positieve punten veel harder door als de negatieve punten. Die negatieve punten draaien allemaal immers om de nauwkeurigheid. Op Taalkoeien willen we enkel wat observaties doen. Voor een ‘ernstige analyse’ zoals Professor Speelman al zei, is Google inderdaad niet zo geschikt. Jammer!

Literatuur





Stephen Fry & Hugh Laurie: The Subject of Language

27 04 2007

 

altijd lachen





Knefleek?

24 04 2007

Wim Govaert heeft een prangende vraag gesteld via de mail:

Een mooie om over na te denken, over “look”. Niet de Engelse look uit look&feel, maar over de groente. Hoewel, nu ik erover nadenk: is dat wel een echte groente?. Hoedanook, er is alleszins een geurtje aan. Want wat is “knof”? “Bies” lijkt me duidelijk, want bieslook bestaat uit biesvormige stengels. Maar “knof”?

Onze taal (http://taal.web-log.nl/taaladviesdienst/2007/02/knoflook_knof_l.html) suggereert de verklaring, maar is dat dan in het Duits ook zo? Knoblauch? Waarschijnlijk wel.

Pollepel is nog zo eentje; komt van potlepel.

Ik vraag me af in welk jaar we voor het eerst over kneefletters zullen horen spreken …

De taalkoeredactie sprong erop en kwam met hetvolgende:

Op de taaladviesdienst melden ze: “knoflook is een verbastering van kloflook, dat moeilijk uit te spreken was vanwege de twee l’en die zo vlak na elkaar staan.” Klinkt prima, maar ze zijn een kleinigheidje vergeten. Ook de klinker heeft wat in de pap te brokken. Zoals Wim in zijn vraag al aantoont, is er ook iets aan de hand met “pot/llepel”. De klinkeromgeving van de “l” is een “o”. Daarom zullen we nooit over “kneefletters” (kleefletters) spreken, want de “e” is geen “o”.

Maar deze verklaring geldt tot het tegendeel bewezen is…





Pas uit

23 04 2007

Alweer bevreemdend nieuws uit Limburgersland, en o verrassing: het heeft alweer iets met voorzetsels te maken! Blijkbaar zeggen Limburgers algemeen “Die is pas uit!” En nee, dan gaat het niet over een film, een cd, een boek, een bloem of een vogeltje. Het betekent: “die is pas afgestudeerd.” Tom kan uitleggen of het enkel gaat om hogere studies, of ook om het afsluiten van de middelbare school. Limburgers blijven verbazen!





Leer ‘Lichaam’ te spreken.

20 04 2007

Dit filmpje wil ik graag met de taalkoegemeenschap delen. Lichaamstaal is zeker een taaleigenaardigheid.

Het is natuurlijk niet ernstig bedoeld.








Volg

Get every new post delivered to your Inbox.