Informasjonsgjenfinning og tekstutvinning (DAT640)

Emnet tilbyr en innføring i teknikker og metoder for behandling, uthenting og søk i store tekstlige datasamlinger. Emnet tar for seg ulike applikasjoner og gir en "hands-on" eksperimentering med "state-of-the-art" algoritmer ved hjelp av eksisterende programvareverktøy og datasamlinger.


Dette er emnebeskrivelsen for studieåret 2025-2026. Merk at det kan komme endringer.

Fakta

Emnekode

DAT640

Versjon

1

Vekting (stp)

10

Semester undervisningsstart

Høst

Antall semestre

1

Vurderingssemester

Høst

Undervisningsspråk

Engelsk

Innhold

NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.

  • Tekstpreprosessering, indeksering
  • Representasjonslæring (ordinnbygging)
  • Kategorisering av tekst
  • Søkemotorarkitektur
  • Gjenfinningsmetoder (vektor-rom modell, probabilistiske modeller, learning-to-rank, nevrale modeller)
  • Gjenfinningsevaluering
  • Query modellering, relevant tilbakemelding
  • Websøk (lenkeanalyse)
  • Semantisk søk (kunnskapsbaser, enhetsgjenfinning, enhetslenking)
  • Informasjonstilgang med samtaleagenter
  • Transformatorer og store språkmodeller

Læringsutbytte

Kunnskap:

  • Teori og praksis innen datautvinning og informasjonssøk. Ulike metoder og teknikker vil bli gjennomgått.

Ferdigheter:

  • Prosessere og forberede storskala tekstlige datasamlinger for utvinning og søk.
  • Bruke clustering, klassifisering og rangeringsmetoder til en rekke informasjonstilgangsoppgaver.
  • Evaluere resultater og utføre feilanalyse.

Generell kompetanse:

  • Forstå styrker og begrensninger av populære datautvinning- og informasjonssøkteknikker. Kunne identifisere gode forretningsapplikasjoner og være aktiv deltaker og lede slike prosjekter.

Forkunnskapskrav

Ingen

Eksamen / vurdering

Prosjektoppgave og skriftlig eksamen

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Prosjektoppgave 1/2 Bokstavkarakterer
Skriftlig eksamen 1/2 4 Timer Bokstavkarakterer Alle hjelpemidler er tillatt – det er ikke tillatt å samarbeide / få hjelp av andre personer i arbeidet med eksamensoppgaven

Prosjektet er en kombinasjon av individuelle oppgaver og gruppeoppgaver. Prosjektgrupper blir satt opp av faglærer. Det tilbys ikke kontinuasjonsmuligheter på prosjektoppgaven. Studenter som ikke består prosjektoppgaven, kan ta denne delen på nytt neste gang emnet har ordinær undervisning.Digital skriftlig eksamen.Begge vurderingsdeler må være bestått for å oppnå samlet karakter i emnet.

Fagperson(er)

Emneansvarlig:

Krisztian Balog

Instituttleder:

Tom Ryen

Arbeidsformer

6 timer forelesning/laboratorieøvinger pr. uke.

Overlapping

Emne Reduksjon (SP)
Websøk og data mining (DAT630_1) 5

Åpent for

Datateknologi - master i teknologi
Utveksling ved Det teknisk- naturvitenskapelige fakultet

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester.I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Søk etter pensumlitteratur i Leganto