Advanced

Antonyms in Context : A Corpus-Based Semantic Analysis of Swedish Descriptive Adjectives

Willners, Caroline LU (2001) In Travaux de l'Institut de Linguistique de Lund 40.
Abstract (Swedish)
Popular Abstract in Swedish

Antonymer är motsatsord, t.ex. stor-liten, kort-lång, och varm-kall. Den här avhandlingen handlar om antonymer och om vilken typ av lexikal information som man kan lagra i ett elektroniskt lexikon (Svenskt Ordnät) samt hur man kan få fram lexikal information ur stora textmassor med datorns hjälp. Baserat på hur vanliga ord är kan man beräkna hur ofta man kan förvänta sig att finna två ord i samma mening under antagandet att alla ord i en textmassa är slumpmässigt fördelade. Antonymer förekommer ofta i samma mening, oftare än förväntat under nyss nämna antagande. Det har tidigare visats för engelska, och motsvarande resultat för svenska presenteras i denna bok. Men det finns många anledningar till... (More)
Popular Abstract in Swedish

Antonymer är motsatsord, t.ex. stor-liten, kort-lång, och varm-kall. Den här avhandlingen handlar om antonymer och om vilken typ av lexikal information som man kan lagra i ett elektroniskt lexikon (Svenskt Ordnät) samt hur man kan få fram lexikal information ur stora textmassor med datorns hjälp. Baserat på hur vanliga ord är kan man beräkna hur ofta man kan förvänta sig att finna två ord i samma mening under antagandet att alla ord i en textmassa är slumpmässigt fördelade. Antonymer förekommer ofta i samma mening, oftare än förväntat under nyss nämna antagande. Det har tidigare visats för engelska, och motsvarande resultat för svenska presenteras i denna bok. Men det finns många anledningar till att ord samförekommer, det är ju naturligt att använda ord som är närbesläktade när man pratar om ett visst ämne. I en text som handlar om svensk husmanskost hittar man ord som är relaterade till mat, råvaror och tillagningsmetoder och man skulle bli förvånad om man råkade på t.ex. ordet dieselaggregat. På samma vis förväntar man sig inte att hitta ordet kroppkakor i en bilmanual. Ord som ligger nära varandra i betydelse samförekommer också oftare än förväntat under antagandet att alla ord i en textmassa är slumpmässigt fördelade. Motsatsord som inte är riktiga antonymer, t.ex. slapp-kraftfull, samförekommer i samma mening i genomsnitt 1.45 gånger oftare än förväntat. Dock visar det sig att antonyma ordpar samförekommer betydligt oftare, i genomsnitt 3.12 gånger oftare än förväntat. Vad innebär nu detta? Varför samförekommer antonymer? Det har föreslagits att samförekomst av antonymer är en förutsättning för inlärning av antonyma relationer mellan ord. Resultaten i denna bok varken bevisar eller motbevisar detta, men det finns andra särdrag som effektivare framhäver den starka relationen mellan antonymer. I de flesta meningar där antonymer samförekommer står orden i parallella grammatiska konstruktioner, t.ex. den snabbaste användaren-den långsammaste användaren. I boken föreslås att intonationen utgör en starkare markör: att de samförekommande orden är särskilt framhävda med intonationens hjälp, så kallad fokal accent. Om man räknar ut hur många gånger oftare än förväntat alla adjektivpar samförekommer och sorterar dem fallande, så visar det sig att bland det första 100 ordparen är majoriteten antonymer. De ordpar bland dessa 100 som inte är antonymer har andra starka betydelserelationer, t.ex. synonymi. Detta är användbar information för till exempel en lexikograf. Adjektiv kännetecknas av att de bestämmer substantiv, dvs. ger ytterligare information om ett substantiv, t.ex. ny bil. Vanligtvis bestämmer ett adjektiv bara vissa typer av substantiv; ett ord som storvuxen bestämmer oftast levande väsen som människor och djur, t.ex. en storvuxen karl, en storvuxen katt. I ett traditionellt lexikon anges endast betydelsen av ett ord, men i ett datorbaserat lexikon kan man lagra betydligt mer information, t.ex. vilka typer av substantiv ett adjektiv bestämmer och till och med specifika substantiv som ofta bestäms av ett specifikt adjektiv. De typer av substantiv ett adjektiv bestämmer utgör dess semantiska räckvidd. Semantisk räckvidd kan användas då man vill avgöra om två ord har samma betydelse eller ej. För att två ord ska vara synonymer måste deras semantiska räckvidd stämma överens; detsamma gäller för antonymer. I en fallstudie av full och tom beskrivs och jämförs ordens semantiska räckvidd baserat på material från textkorpusen Parole. Det visar sig att full har mycket vidare semantisk räckvidd än tom, och att de överlappar endast i de fall då full modifierar olika typer av behållare, t.ex. en korg full med frukt. Men full används också i konstruktioner som full poäng och full sysselsättning, där full bestämmer substantiv som tom inte kan bestämma. I dessa fall finns det ingen behållare vare sig i konkret eller abstrakt bemärkelse utan snarare en sorts "måttstock" eller "mätsticka" där motsatsen till full snarare är ingen eller låg. Man kan också uttrycka motsatsen till full i "måttstocksbetydelsen" med suffixen -fri och -lös, t.ex. poänglös och benfri. Full och tom är alltså antonymer i en betydelse, "behållarbetydelsen", medan full även används i betydelsen "mycket" på en mätsticka. Ytterligare en fallstudie visar hur man kan använda semantisk räckvidd för att gruppera synonymer efter betydelse. Stor och 28 synonymer till stor grupperades med denna metod. Det visar sig att stor används i fyra olika betydelser: (1) om konkret storlek, t.ex. ett stort hus, (2) om viktiga personer eller händelser, t.ex. den store arkitekten, den stora nyheten, (3) om mätbara kvantiteter, t.ex. de stora barnkullarna, ett stort avstånd, och (4) om icke mätbara kvantiteter, t.ex. stort allvar, det stora äventyret. Man brukar anta att den vanligaste användningen av ett ord och det första man lär sig är dess kärnbetydelse, i detta fall betydelse (1) om konkret storlek. Oväntat visade materialet att stor oftast användes om mätbara och icke mätbara kvantiteter. En studie av barns tidiga användning av stor visar dock att de uteslutande använder stor i betydelse (1); den högfrekventa användningen av stor i betydelse (3) och (4) beror förmodligen på att materialet inte är riktigt representativt för det svenska språket. De 28 synonymerna till stor grupperades sedan runt ovanstående fyra betydelser baserat på respektive semantisk räckvidd. Orden kodades i Svenskt Ordnät baserat på resultaten. Avhandlingen beskriver vilken typ av information som man kan koda i ett datorbaserat lexikon samt hur man kan utvinna denna information ur stora textmassor. Genom de olika fallstudierna får man också inblick i olika ords beteende, t.ex. att de samförekommer oväntat ofta med andra specifika ord och framför allt med substantiv från olika semantiska kategorier. Detta är nyttig information då man vill skapa ett lexikon eller analysera en text. Vissa delar av avhandlingen är även intressant ur ett språkinlärningsperspektiv. (Less)
Abstract
How are antonym relations acquired? What types of lexical information can be extracted from corpora and how? How can this information be encoded in a lexicon? The work in this book was developed within the framework of WordNet. A further elaborated lexical model is suggested, as well as methods for implementing it. The first part of the book is a study of adjectives co-occurring with adjectives. English direct antonyms, e.g. short-long, have previously been shown to co-occur in the same sentence significantly more often than expected according to the null hypothesis that the words of a corpus are randomly distributed. Using further elaborated methods that account for variation in sentence length, the studies in this book show that this is... (More)
How are antonym relations acquired? What types of lexical information can be extracted from corpora and how? How can this information be encoded in a lexicon? The work in this book was developed within the framework of WordNet. A further elaborated lexical model is suggested, as well as methods for implementing it. The first part of the book is a study of adjectives co-occurring with adjectives. English direct antonyms, e.g. short-long, have previously been shown to co-occur in the same sentence significantly more often than expected according to the null hypothesis that the words of a corpus are randomly distributed. Using further elaborated methods that account for variation in sentence length, the studies in this book show that this is true also for Swedish direct antonyms, e.g. kort-long 'short'-'long'. However, there are various reasons why words co-occur; most word pairs from the same semantic scale co-occur more often than expected according to the null hypothesis. It is further shown that so called indirect antonyms, such as småväxt-reslig 'short of stature'-'stately' co-occur sententially less often than the direct antonyms of the same scales. It is also shown that the vast majority of the co-occurring antonyms appear in parallel context. These characteristics may facilitate the acquisition of antonym relations, and can also be used to find semantically related words in corpora. The second part of the book focus on the co-occurrence of adjectives and nouns, i.e. the semantic range of adjectives, which can be used to distinguish the various meanings of an adjective. The semantic ranges of full 'full' and tom 'empty' are described and compared in a case study. It is found that the semantic ranges of the words overlap only in the so-called container sense while only full is used in the so-called rod sense. The polysemy of the words and their diverging semantic ranges may explain why the two words do not co-occur significantly more often than expected, as other direct antonyms do. A case study of stor 'large' and 28 synonyms of stor describes the semantic ranges of the 29 words. The words were organised according to the most frequently modified semantic category of each word. This grouping was used as a basis to distinguish groups of synonyms, so called synsets, and to code the words in the Swedish WordNet. Four meanings of stor were distinguished: concrete dimension, importance, countable quantity, and uncountable quantity. The most frequent meaning found in corpora was not the core meaning, concrete dimension, which was outnumbered by both countable quantity and uncountable quantity. A study of the early use of stor in children shows that they in fact only use stor in the concrete-dimension sense, validating that this is the core meaning of stor. An explanation of the semantic shift of stor from the central meaning to importance, countable quantity, and uncountable quantity is suggested within a cognitive semantic framework. Various computer programs facilitating research such as presented in this book is also described. (Less)
Please use this url to cite or link to this publication:
author
opponent
  • Malmgren, Sven-Göran
organization
publishing date
type
Thesis
publication status
published
subject
keywords
Nordiska språk (språk och litteratur), Scandinavian languages and literature, WordNet, semantic frameword, semantic network, sentential co-occurrence, semantic range, adjectives, antnoymy, lexical semantics, corpus-based methods, Lexicology, Lexikologi, Grammar, semantics, semiotics, syntax, Grammatik, semantik, semiotik
in
Travaux de l'Institut de Linguistique de Lund
volume
40
pages
178 pages
defense location
N/A
defense date
2001-06-07 10:15
ISSN
0347-2558
ISBN
91-974116-1-2
language
English
LU publication?
yes
id
a38ff0a0-adbb-4161-b01d-30b1045d5045 (old id 20316)
date added to LUP
2007-05-28 11:03:05
date last changed
2016-09-19 08:45:00
@phdthesis{a38ff0a0-adbb-4161-b01d-30b1045d5045,
  abstract     = {How are antonym relations acquired? What types of lexical information can be extracted from corpora and how? How can this information be encoded in a lexicon? The work in this book was developed within the framework of WordNet. A further elaborated lexical model is suggested, as well as methods for implementing it. The first part of the book is a study of adjectives co-occurring with adjectives. English direct antonyms, e.g. short-long, have previously been shown to co-occur in the same sentence significantly more often than expected according to the null hypothesis that the words of a corpus are randomly distributed. Using further elaborated methods that account for variation in sentence length, the studies in this book show that this is true also for Swedish direct antonyms, e.g. kort-long 'short'-'long'. However, there are various reasons why words co-occur; most word pairs from the same semantic scale co-occur more often than expected according to the null hypothesis. It is further shown that so called indirect antonyms, such as småväxt-reslig 'short of stature'-'stately' co-occur sententially less often than the direct antonyms of the same scales. It is also shown that the vast majority of the co-occurring antonyms appear in parallel context. These characteristics may facilitate the acquisition of antonym relations, and can also be used to find semantically related words in corpora. The second part of the book focus on the co-occurrence of adjectives and nouns, i.e. the semantic range of adjectives, which can be used to distinguish the various meanings of an adjective. The semantic ranges of full 'full' and tom 'empty' are described and compared in a case study. It is found that the semantic ranges of the words overlap only in the so-called container sense while only full is used in the so-called rod sense. The polysemy of the words and their diverging semantic ranges may explain why the two words do not co-occur significantly more often than expected, as other direct antonyms do. A case study of stor 'large' and 28 synonyms of stor describes the semantic ranges of the 29 words. The words were organised according to the most frequently modified semantic category of each word. This grouping was used as a basis to distinguish groups of synonyms, so called synsets, and to code the words in the Swedish WordNet. Four meanings of stor were distinguished: concrete dimension, importance, countable quantity, and uncountable quantity. The most frequent meaning found in corpora was not the core meaning, concrete dimension, which was outnumbered by both countable quantity and uncountable quantity. A study of the early use of stor in children shows that they in fact only use stor in the concrete-dimension sense, validating that this is the core meaning of stor. An explanation of the semantic shift of stor from the central meaning to importance, countable quantity, and uncountable quantity is suggested within a cognitive semantic framework. Various computer programs facilitating research such as presented in this book is also described.},
  author       = {Willners, Caroline},
  isbn         = {91-974116-1-2},
  issn         = {0347-2558},
  keyword      = {Nordiska språk (språk och litteratur),Scandinavian languages and literature,WordNet,semantic frameword,semantic network,sentential co-occurrence,semantic range,adjectives,antnoymy,lexical semantics,corpus-based methods,Lexicology,Lexikologi,Grammar,semantics,semiotics,syntax,Grammatik,semantik,semiotik},
  language     = {eng},
  pages        = {178},
  school       = {Lund University},
  series       = {Travaux de l'Institut de Linguistique de Lund},
  title        = {Antonyms in Context : A Corpus-Based Semantic Analysis of Swedish Descriptive Adjectives},
  volume       = {40},
  year         = {2001},
}