1. You appear to be visiting from a country other than Sweden, please visit our English site.

Data mining på webben

När jag studerade data mining i Kalifornien hösten 99 var ett av de papers vi hade som hemläxa en då ett år gammal uppsats med namnet ”The Anatomy of a Large-Scale Hypertextual Web Search Engine”. Tesen var att ett dokument på webben var mer relevant ju fler som hänvisade till det. Författarna hette Sergey Brin och Larry Page och idag är företaget som de grundade på idén, Google, USA:s femte största och har världens starkaste varumärke.

Netflix, världens största prenumererade DVD-uthyrningstjänst, vill förbättra de rekommendationer som sajten ger till kunderna. Och man menar allvar. Den första som lyckas förbättra Netflix rekommendationer med ”ynka” 10% vinner en miljon dollar. Om detta kan man läsa mer i Wired.

Att på ovanstående vis effektivisera allokeringen av nätets mest begränsade resurs, människors uppmärksamhet, är ett exempel på ett användningsområde för data mining. Data mining är läran om att hitta mönster i stora mängder data med hjälp av algoritmer. Ofta är målet att förutsäga vad som kommer att hända utifrån slutsatser som dragits från historiskt data. Det kan, förutom rekommendationer och sök, bland annat handla om att klassificera objekt, dela in en mängd objekt i grupper, beslutsfattande eller att förutspå värdena av en okänd funktion.

Jag läste nyligen boken Programming Collective Intelligence: Building Smart Web 2.0 Applications av Toby Segaran och fick därigenom en uppdatering om vad som hänt inom området sedan sist. Att döma av boken har inte speciellt många nya metoder blivit såpass a) mogna att de används utanför laboratorier eller b) så lättförklarade att de passar i en bok av detta slag. Följande kommentar sammanfattar innehållet ganska bra.

”Bravo! I cannot think of a better way for a developer to first learn these algorithms and methods, nor can I think of a better way for me (an old AI dog) to reinvigorate my knowledge of the details.”

Dan Russell, Senior Research Scientist, Search Quality & User Happiness på Google

Om du är teknik- och eller matematikintresserad är boken en guldgruva för inspiration för hur data mining kan användas på webben.

Rekommenderas!