Data-intensive Systems and Engineering (DAT535)
Emnet gir et grunnlag i design- og ingeniøraspekter ved dataintensive systemer.
Dette er emnebeskrivelsen for studieåret 2025-2026. Merk at det kan komme endringer.
Emnekode
DAT535
Versjon
1
Vekting (stp)
5
Semester undervisningsstart
Høst
Antall semestre
1
Vurderingssemester
Høst
Undervisningsspråk
Engelsk
Innhold
Fremveksten av Big Data og dataintensive systemer som spesialiserte felt innen databehandling har motivert utviklingen av nye teknikker og teknologier som trengs for å trekke ut kunnskap fra store datasett. Siden Hadoop ble unnfanget i 2005, begynte den populære interessen for dataintensive systemer å vokse. Det resulterte - over tid - i en samling av teknologier, metoder og praksis for å dekke hele datalivssyklusen.
Dette emnet er et første skritt til en rekke roller relatert til dataintensive systemer. Kjerneoppgavene i disse rollene som vi skal ta for oss er: roller i et datateam, datainnsamling og integrasjon (ved hjelp av filer, APIer, etc.), datarensing og augmentering (ofte ved bruk av direkte implementering av MapReduce-jobber), dataanalyse og ML (ofte ved å bruke et av databehandlingsrammeverket, f.eks. SparkSQL, MLlib), forfremming av teknologi anvendelse både i tekniske og ikke-tekniske omgivelser, og gir introduksjonstrening til kolleger.
Læringsutbytte
Kunnskap
- Forståelse av medaljongarkitektur: Studentene vil få en omfattende forståelse av medaljongarkitekturen, inkludert lagene (bronse, sølv og gull) og hvordan den støtter databehandling og analyse.
- Apache Spark Fundamentals: Studentene vil lære kjernekonseptene til Apache Spark, inkludert dens arkitektur, komponenter og hvordan den håndterer stordatabehandling.
- Dataadministrasjon og -styring: Kunnskap om datastyringsprinsipper, datastyring og beste praksis for å sikre datakvalitet og integritet.Big Data Ecosystem: Kjennskap til det bredere big data-økosystemet, inkludert verktøy og teknologier som utfyller Apache Spark, som Hadoop, Kafka, Delta Lake, NOSQL-databaser.
Ferdigheter
- Databehandling og transformasjon: Ferdighet i å bruke Apache Spark til databehandlingsoppgaver, inkludert batch- og strømbehandling, datarensing og transformasjon.
- Ytelsesjustering: Ferdigheter i å optimalisere Apache Spark-jobber for ytelse, inkludert ressursadministrasjon, partisjonering og tuning av Spark-konfigurasjoner.
- Dataintegrasjon: Kompetanse i å integrere data fra ulike kilder og formater til en enhetlig dataplattform ved bruk av Medallion Architecture-prinsipper.Problemløsning: Evne til å feilsøke og løse problemer knyttet til datapipelines, datakvalitet og flaskehalser i ytelse.
Generelle kvalifikasjoner:
- Samarbeid og kommunikasjon: Effektive kommunikasjons- og samarbeidsevner for å jobbe med tverrfunksjonelle team som implementerer dataintensive løsninger.
- Etiske hensyn: Bevissthet om etiske hensyn i datateknikk, inkludert personvern, sikkerhet og ansvarlig databruk.
Forkunnskapskrav
Anbefalte forkunnskaper
Bash-programmering
Administrasjon av sky- og containerbaserte miljøer
Databaser, SQL
Eksamen / vurdering
Vurderingsform | Vekting | Varighet | Karakter | Hjelpemiddel |
---|---|---|---|---|
Prosjektoppgave | 1/1 | 6 Uker | Bokstavkarakterer | Alle |
Prosjektet gjennomføres i grupper. Prosjektet varer i 6 uker i tillegg til obligatoriske laboratorier som gir grunnlag for prosjektet.Det tilbys ingen kontinuasjonsmuligheter for prosjektoppgaver. Studenter som ikke består prosjektet kan ta det på nytt neste gang kurset holdes.
Vilkår for å gå opp til eksamen/vurdering
Tre oppgaver.
Studentene starter med 3 obligatoriske oppgaver som inneholder programmering og systemadministrasjon. Oppgavene skal gjennomføres individuelt. Alle obligatoriske oppgaver må bestås innen fristen slik at studenten har rett til å starte med prosjektet. De obligatoriske oppgavene gir tilgang til prosjektet kun i inneværende semester.
Gjennomføring av obligatoriske laboratorieoppgaver skal gjøres til de tider og i gruppene som tildeles og publiseres. Fravær på grunn av sykdom eller andre årsaker skal snarest meldes til laboratoriepersonellet. Man kan ikke forvente at det foretas bestemmelser om gjennomføring av laboratorieoppgavene på andre tidspunkter med mindre det er avtalt på forhånd med laboratoriepersonellet.
Alle gruppemedlemmer skal delta i prosjektpresentasjonen.
Fagperson(er)
Emneansvarlig:
Tomasz WiktorskiLaboratorieingeniør:
Jayachander SurbiryalaInstituttleder:
Tom RyenArbeidsformer
Overlapping
Emne | Reduksjon (SP) |
---|---|
Data-intensive systemer (DAT500_1) | 5 |