Data-intensive Systems and Engineering (DAT535)

Emnet gir et grunnlag i design- og ingeniøraspekter ved dataintensive systemer.


Dette er emnebeskrivelsen for studieåret 2025-2026. Merk at det kan komme endringer.

Fakta

Emnekode

DAT535

Versjon

1

Vekting (stp)

5

Semester undervisningsstart

Høst

Antall semestre

1

Vurderingssemester

Høst

Undervisningsspråk

Engelsk

Innhold

Fremveksten av Big Data og dataintensive systemer som spesialiserte felt innen databehandling har motivert utviklingen av nye teknikker og teknologier som trengs for å trekke ut kunnskap fra store datasett. Siden Hadoop ble unnfanget i 2005, begynte den populære interessen for dataintensive systemer å vokse. Det resulterte - over tid - i en samling av teknologier, metoder og praksis for å dekke hele datalivssyklusen.

Dette emnet er et første skritt til en rekke roller relatert til dataintensive systemer. Kjerneoppgavene i disse rollene som vi skal ta for oss er: roller i et datateam, datainnsamling og integrasjon (ved hjelp av filer, APIer, etc.), datarensing og augmentering (ofte ved bruk av direkte implementering av MapReduce-jobber), dataanalyse og ML (ofte ved å bruke et av databehandlingsrammeverket, f.eks. SparkSQL, MLlib), forfremming av teknologi anvendelse både i tekniske og ikke-tekniske omgivelser, og gir introduksjonstrening til kolleger.

Læringsutbytte

Kunnskap

  • Forståelse av medaljongarkitektur: Studentene vil få en omfattende forståelse av medaljongarkitekturen, inkludert lagene (bronse, sølv og gull) og hvordan den støtter databehandling og analyse.
  • Apache Spark Fundamentals: Studentene vil lære kjernekonseptene til Apache Spark, inkludert dens arkitektur, komponenter og hvordan den håndterer stordatabehandling.
  • Dataadministrasjon og -styring: Kunnskap om datastyringsprinsipper, datastyring og beste praksis for å sikre datakvalitet og integritet.Big Data Ecosystem: Kjennskap til det bredere big data-økosystemet, inkludert verktøy og teknologier som utfyller Apache Spark, som Hadoop, Kafka, Delta Lake, NOSQL-databaser.

Ferdigheter

  • Databehandling og transformasjon: Ferdighet i å bruke Apache Spark til databehandlingsoppgaver, inkludert batch- og strømbehandling, datarensing og transformasjon.
  • Ytelsesjustering: Ferdigheter i å optimalisere Apache Spark-jobber for ytelse, inkludert ressursadministrasjon, partisjonering og tuning av Spark-konfigurasjoner.
  • Dataintegrasjon: Kompetanse i å integrere data fra ulike kilder og formater til en enhetlig dataplattform ved bruk av Medallion Architecture-prinsipper.Problemløsning: Evne til å feilsøke og løse problemer knyttet til datapipelines, datakvalitet og flaskehalser i ytelse.

Generelle kvalifikasjoner:

  • Samarbeid og kommunikasjon: Effektive kommunikasjons- og samarbeidsevner for å jobbe med tverrfunksjonelle team som implementerer dataintensive løsninger.
  • Etiske hensyn: Bevissthet om etiske hensyn i datateknikk, inkludert personvern, sikkerhet og ansvarlig databruk.

Forkunnskapskrav

Python programmering

Anbefalte forkunnskaper

DAT220 Databaser, DAT320 Operativsystemer og systemprogrammering, DAT515 Nettskyteknologier

Bash-programmering

Administrasjon av sky- og containerbaserte miljøer

Databaser, SQL

Eksamen / vurdering

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Prosjektoppgave 1/1 6 Uker Bokstavkarakterer Alle

Prosjektet gjennomføres i grupper. Prosjektet varer i 6 uker i tillegg til obligatoriske laboratorier som gir grunnlag for prosjektet.Det tilbys ingen kontinuasjonsmuligheter for prosjektoppgaver. Studenter som ikke består prosjektet kan ta det på nytt neste gang kurset holdes.

Vilkår for å gå opp til eksamen/vurdering

Muntlig presentasjon, Obligatoriske øvinger

Tre oppgaver.

Studentene starter med 3 obligatoriske oppgaver som inneholder programmering og systemadministrasjon. Oppgavene skal gjennomføres individuelt. Alle obligatoriske oppgaver må bestås innen fristen slik at studenten har rett til å starte med prosjektet. De obligatoriske oppgavene gir tilgang til prosjektet kun i inneværende semester.

Gjennomføring av obligatoriske laboratorieoppgaver skal gjøres til de tider og i gruppene som tildeles og publiseres. Fravær på grunn av sykdom eller andre årsaker skal snarest meldes til laboratoriepersonellet. Man kan ikke forvente at det foretas bestemmelser om gjennomføring av laboratorieoppgavene på andre tidspunkter med mindre det er avtalt på forhånd med laboratoriepersonellet.

Alle gruppemedlemmer skal delta i prosjektpresentasjonen.

Fagperson(er)

Emneansvarlig:

Tomasz Wiktorski

Laboratorieingeniør:

Jayachander Surbiryala

Instituttleder:

Tom Ryen

Arbeidsformer

Arbeidet vil bestå av 6 timer forelesning, planlagt laboratorium, veiledet gruppearbeid per uke i andre halvdel av semesteret. Studentene forventes å bruke ytterligere 6-8 timer i uken på selvstudier, gruppediskusjoner og utviklingsarbeid (åpent laboratorium).

Overlapping

Emne Reduksjon (SP)
Data-intensive systemer (DAT500_1) 5

Åpent for

Enkeltemner ved Det teknisk-naturvitenskaplige fakultet
Data Science - master i teknologi/siv.ing. Datateknologi - master i teknologi Datateknologi - master i teknologi, deltid
Utveksling ved Det teknisk- naturvitenskapelige fakultet

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester.I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Søk etter pensumlitteratur i Leganto