Advanced

Lingvistisk-statistiska metoder för omvärldsanalys

Ek, andreas (2010) MIO920
Production Management
Abstract (Swedish)
Bakgrund: Tillgängligheten på text i elektronisk form har exploderat, framförallt med utvecklingen av internet. Även beräkningskpaciteten hos datorer de senaste 20 åren har haft en otrolig utveckling. Detta tillsammans har gjort det möjligt att analysera textmassor på ett mycket enklare sätt. Kairos Future har i ett joint venture tillsammans med IT-konsultföretaget A3J under det senaste året utvecklat SoMe-analyzer, ett analysverktig för att bevaka vad som skrivs i den svenska bloggosfären, just med metoder från textuell data mining/lingvistisk-statistisk analys. Detta ville man utveckla ytterligare.
Mål: Examensarbetets mål är att utveckla, testa, bedöma och implementera metoder för att samla in stora textmassor, extrahera värdefull... (More)
Bakgrund: Tillgängligheten på text i elektronisk form har exploderat, framförallt med utvecklingen av internet. Även beräkningskpaciteten hos datorer de senaste 20 åren har haft en otrolig utveckling. Detta tillsammans har gjort det möjligt att analysera textmassor på ett mycket enklare sätt. Kairos Future har i ett joint venture tillsammans med IT-konsultföretaget A3J under det senaste året utvecklat SoMe-analyzer, ett analysverktig för att bevaka vad som skrivs i den svenska bloggosfären, just med metoder från textuell data mining/lingvistisk-statistisk analys. Detta ville man utveckla ytterligare.
Mål: Examensarbetets mål är att utveckla, testa, bedöma och implementera metoder för att samla in stora textmassor, extrahera värdefull information ur dessa, bl.a. bloggosfären, på ett automatiserat sätt, och åskådliggöra denna information på ett sådant sätt att det kan bidra till att upptäcka nya trender och/eller tendenser.
Metod: Ett flertal olika vetenskapliga metoder har använts. Programkod har skrivits för att automatiserat samla in analysmaterial; litteraturstudier har gjorts för att skaffa kunskap inom relevanta delar, framförallt inom matematisk statistik; diverse statistiska metoder har använts för att få fram information ur analysmaterialet, t.ex. hierarkisk klustring, linjär regression, sannolikhetsbaserad ranking, etc. En hög grad av experimenterande och testande har präglat projektet och försöken att hitta rätt metoder för att få fram så intressant och relevant information som möjligt.
Induktiva och deduktiva ansatser blandas, kvantitativ och kvalitativ data utnyttjas bådadera.
Slutsatser: Den automatiska datainsamlingen verkar fungera väl.
Sannolikhetsbaserad ranking av ord tillsammans med klustring fungerar bra för att beskriva de viktigaste dragen hos en textmassa jämfört med någon jämförelsetext.
Regressionsmetoderna för trenddetektering fungerar men säger inte så skarpa saker. De behöver troligtvis appliceras på ett något mer avskiljt material för att säga mer intressanta saker. Avskiljning kan göras t.ex. genom att bara välja ut sammanhang som innehåller vissa ledord för det tema man är intresserad av, eller bara studera källor som handlar
iii
om en viss kategori som sport, ekonomi eller teknik. Den enda trend som fångas upp när trenddetekteringsmetoderna används på hela svenska bloggosfären är den ökade engelskanvändningen i detta medium. I stort sett alla andra ord slås ut av de vanligaste engelska orden.
Väldigt mycket mer finns att göra om man kombinerar metoderna med t.ex. olika artificiell intelligens-metoder, eller nätverksanalys. (Less)
Please use this url to cite or link to this publication:
author
Ek, andreas
supervisor
organization
course
MIO920
year
type
M1 - University Diploma
subject
keywords
Eventdetektering., Textuell Data Mining, lingvistisk-statistisk, Automatisering, Beräkningslingvistik, Bloggosfär, Trenddetektering, Trend
other publication id
10/5372
language
Swedish
id
1976093
date added to LUP
2011-09-16 08:25:29
date last changed
2011-09-16 08:25:29
@misc{1976093,
  abstract     = {Bakgrund: Tillgängligheten på text i elektronisk form har exploderat, framförallt med utvecklingen av internet. Även beräkningskpaciteten hos datorer de senaste 20 åren har haft en otrolig utveckling. Detta tillsammans har gjort det möjligt att analysera textmassor på ett mycket enklare sätt. Kairos Future har i ett joint venture tillsammans med IT-konsultföretaget A3J under det senaste året utvecklat SoMe-analyzer, ett analysverktig för att bevaka vad som skrivs i den svenska bloggosfären, just med metoder från textuell data mining/lingvistisk-statistisk analys. Detta ville man utveckla ytterligare.
Mål: Examensarbetets mål är att utveckla, testa, bedöma och implementera metoder för att samla in stora textmassor, extrahera värdefull information ur dessa, bl.a. bloggosfären, på ett automatiserat sätt, och åskådliggöra denna information på ett sådant sätt att det kan bidra till att upptäcka nya trender och/eller tendenser.
Metod: Ett flertal olika vetenskapliga metoder har använts. Programkod har skrivits för att automatiserat samla in analysmaterial; litteraturstudier har gjorts för att skaffa kunskap inom relevanta delar, framförallt inom matematisk statistik; diverse statistiska metoder har använts för att få fram information ur analysmaterialet, t.ex. hierarkisk klustring, linjär regression, sannolikhetsbaserad ranking, etc. En hög grad av experimenterande och testande har präglat projektet och försöken att hitta rätt metoder för att få fram så intressant och relevant information som möjligt.
Induktiva och deduktiva ansatser blandas, kvantitativ och kvalitativ data utnyttjas bådadera.
Slutsatser: Den automatiska datainsamlingen verkar fungera väl.
Sannolikhetsbaserad ranking av ord tillsammans med klustring fungerar bra för att beskriva de viktigaste dragen hos en textmassa jämfört med någon jämförelsetext.
Regressionsmetoderna för trenddetektering fungerar men säger inte så skarpa saker. De behöver troligtvis appliceras på ett något mer avskiljt material för att säga mer intressanta saker. Avskiljning kan göras t.ex. genom att bara välja ut sammanhang som innehåller vissa ledord för det tema man är intresserad av, eller bara studera källor som handlar
iii
om en viss kategori som sport, ekonomi eller teknik. Den enda trend som fångas upp när trenddetekteringsmetoderna används på hela svenska bloggosfären är den ökade engelskanvändningen i detta medium. I stort sett alla andra ord slås ut av de vanligaste engelska orden.
Väldigt mycket mer finns att göra om man kombinerar metoderna med t.ex. olika artificiell intelligens-metoder, eller nätverksanalys.},
  author       = {Ek, andreas},
  keyword      = {Eventdetektering.,Textuell Data Mining,lingvistisk-statistisk,Automatisering,Beräkningslingvistik,Bloggosfär,Trenddetektering,Trend},
  language     = {swe},
  note         = {Student Paper},
  title        = {Lingvistisk-statistiska metoder för omvärldsanalys},
  year         = {2010},
}