Google als corpus

Op Taalkoeien maak ik wel eens gebruik van Google om aan te tonen dat een bepaald fenomeen (vaak) voorkomt in de Nederlandse taal. Inderdaad, als iets voorkomt op Google, wil dat zeggen dat er nog mensen zijn die de een of andere constructie of het een of andere woord gebruiken. Zolang je niet naar de frequentie kijkt die rechtsboven wordt weergegeven, is er helemaal geen probleem.

Maar meestal ben ik niet tevreden met het gevoel “ach er zeggen nog mensen dat”. Ik wil dan weten hoeveel mensen dat zeggen, en hoeveel mensen het anders zeggen en hoeveel hier en hoeveel daar. En dan heb je die frequentie daar rechtsboven wel nodig. Op dat moment wil ik dus Google gebruiken als een Corpus.

Eerst eens kijken wat de mensheid zo onder een corpus verstaat:

  • A collection of texts, spoken and/or written, which has been designed and compiled based on a set of clearly defined criteria. (CORPUS [13c: from Latin corpus body. The plural is usually corpora].)
  • A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. Plural also corpuses. In linguistics and lexicography, a body of texts, utterances, or other specimens considered more or less representative of a language, and usually stored as an electronic database. Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus. (The Oxford Companion to the English Language, ed. McArthur & McArthur, 1992)
  • A collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic description or as a means of verifying hypotheses about a language. (David Crystal, A Dictionary of Linguistics and Phonetics, Blackwell, 3rd Edition, 1991)
  • A collection of naturally occurring language text, chosen to characterize a state or variety of a language. (John Sinclair, Corpus Concordance, Collocation, OUP, 1991)

Het belangrijkste uit al die definities is echter dat de keuze van de teksten bewust is gebeurd en dat meestal al die teksten voorzien worden van extra informatie, bijvoorbeeld woordsoorten. Dat krijg je natuurlijk niet voorgeschoteld als je een eenvoudige zoekopdracht uitvoert in Google. Op het eerste gezicht kan je dit zien als enkel een paar ‘definitie’-probleempjes. Het is echter zo dat het zoeken zonder de mogelijkheid om de woordsoort te kiezen erg moeilijk is. Een belangrijker aspect gaat over de frequentie, en daar maakte ik me al zorgen over. Er is immers geen enkele mogelijkheid om de grootte van het internet te meten. Daardoor kan je nooit een zekere kwantitatieve uitspraak doen.

Zo betrouwbaar is Google dus niet voor kwantitatieve uitspraken. Dat bleek ook al uit de volgende commentaar van professor Dirk Speelman:

“Zelf gebruik ik Google-frequenties namelijk enkel ter verkenning of voor anecdotische informatie. In de context van grotere, ‘ernstigere’ analyses moet je een beetje voorzichtig zijn met Google-frequenties. Ten eerste is het internet uiteraard een niet gebalanceerd corpus waarvan de structuur (bv. de vertegenwoordiging van genres, registers, regio’s, …) ontoegankelijk is, zodat het conceptueel niet duidelijk is waar een Google-frequentie linguïstisch voor staat. Ten tweede komen daar nog heel wat technische complicaties bij die de tellingen nog eens extra vertroebelen. Bv.

  • van bepaalde teksten of stukken tekst bestaan talloze kopieën op het web; de uitdrukkingen in die teksten krijgen dan misschien een geflatteerde frequentie in Google

Nu is het wel zo dat niemand precies weet hoe groot in het algemeen de invloed van dergelijke vertekeningen is, maar voor de meeste linguïstische toepassingen bestaat er toch een consensus dat Google-frequenties niet deugen. “

Er zijn echter ook een aantal niet te vergeten positieve punten aan Google als corpus. Robb (2003) geeft ook een aantal positieve punten:

  • Google is makkelijker toegangelijk dan een ‘normaal’ corpus
  • Google heeft een veel grotere verzameling dan de andere corpora
  • Google heeft ook blogs en fora in zijn index, en daarmee benader je de gesproken taal

Voor een informeel blog als Taalkoeien wegen die positieve punten veel harder door als de negatieve punten. Die negatieve punten draaien allemaal immers om de nauwkeurigheid. Op Taalkoeien willen we enkel wat observaties doen. Voor een ‘ernstige analyse’ zoals Professor Speelman al zei, is Google inderdaad niet zo geschikt. Jammer!

Literatuur

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s