En introduktionsvejledning til tidsseriedata

“Tid” er en afgørende variabel, når det kommer til dataakkumulering. I tidsserieanalyse er tid et vigtigt element i data.

Hvad er tidsseriedata?

Tidsseriedata refererer til en række datapunkter, der er ordnet i tid. Det introducerer en rækkefølgeafhængighed mellem et sæt observationer. Tidsserier er allestedsnærværende i nutidens datadrevne verden. Da hver begivenhed følger tidens pil, er vi i konstant interaktion med en række tidsseriedata.

Tidsserier antages generelt at blive genereret med regelmæssige tidsintervaller og omtales som regulære tidsserier. Dataene inden for denne tidsserie behøver dog ikke at blive genereret med regelmæssige intervaller. Sådanne tilfælde omfatter uregelmæssige tidsserier, hvor data følger en tidsmæssigt faset sekvens. Dette indebærer, at målinger muligvis ikke forekommer med regelmæssige intervaller. Data kan dog blive genereret med diskrete tidsintervaller eller som en burst. Hævninger i hæveautomater eller kontoindskud er eksempler på uregelmæssige tidsserier.

Teknisk set ændrer en eller flere variable sig i en tidsserie over en given tidsperiode. Hvis en enkelt variabel varierer over tid, betegnes den som Univariate tidsserier. Overvej for eksempel en sensor, der måler temperaturen i et rum hvert sekund. Her genereres kun en endimensionel temperaturværdi på hvert øjeblik (dvs. sekund). Tværtimod, når mere end én variabel ændres over tid, kaldes det en multivariat tidsserie. Overvej for eksempel bankøkonomi. I sådanne tilfælde bruges multivariate tidsserier til at forstå, hvordan politiske ændringer af en variabel, såsom reporente, kan påvirke andre variabler (dvs. udbetaling af lån til kommercielle banker).

Tidsseriedata finder sin anvendelse i alle discipliner, fra finans, geologi, meteorologi, fremstilling til computing, IoT, fysisk og samfundsvidenskab. Det bruges til at spore vejrændringer, fødselsrate, dødelighed, markedsudsving, netværksydelse og mange andre applikationer. Nogle af dens vigtigste anvendelsesmuligheder omfatter overvågning, prognoser og afsløring af anomalier. For eksempel spiller tidsserieprognoser en afgørende rolle i at bestemme populariteten af ​​databasestyringssystemer. Figuren nedenfor viser den voksende popularitet af DBMS gennem årene (2019-2021) i et tidsserieplot.

https://www.influxdata.com/time-series-database/

Nøglekomponenter i tidsserier

De faktorer, der påvirker værdierne af en observation i en tidsserie, behandles som deres nøglekomponenter. De tre kategorier af komponenter omfatter:

  • Trend eller langsigtede bevægelser
  • Kortvarige bevægelser
  • Årstidsvariationer
  • Cykliske variationer
  • Tilfældige eller uregelmæssige bevægelser
  • Trend

    Tendensen af ​​data til at stige eller falde over en lang periode betegnes som en trend eller en langsigtet komponent. Det er dog vigtigt at bemærke, at den opadgående eller nedadgående bevægelse ikke nødvendigvis behøver at være i samme retning over et givet tidsrum.

    Tendenserne kan enten stige, falde eller forblive stabile over forskellige tidsafsnit. Den overordnede tendens skal dog altid svare til et opadgående, nedadgående eller stabilt mønster. Sådanne bevægelsestendenser er tydelige i eksemplerne, såsom landbrugsproduktivitet, dødsrate, fremstillede enheder, antal fabrikker osv.

    Lineær og ikke-lineær trend

    Plotning af tidsserieværdier mod tid på en graf afslører typen af ​​tendens baseret på mønstret for dataklynger. Hvis dataklyngen er mere eller mindre omkring en lige linje, så betegnes tendensen som en lineær tendens. Ellers viser dataklyngemønsteret en ikke-lineær tendens, da forholdet mellem ændringer mellem to variable ikke er stabilt eller konstant. Derfor kaldes sådanne tendenser også kurvelineære korrelationer.

    Kortsigtede bevægelser

    I en tidsserie har disse komponenter en tendens til at gentage sig selv over en periode. De har uregelmæssige korte udbrud og påvirker de variabler, der undersøges. De to kategorityper under kortvarig bevægelse inkluderer:

    Sæsonvariationer

    Disse versioner fungerer regelmæssigt og periodisk over en periode på mindre end et år. De har tendens til at have et lignende eller næsten det samme mønster i løbet af en 12 måneders periode. Sådanne variationer bliver en del af en tidsserie, hvis dataene registreres regelmæssigt, dvs. hver time, dagligt, ugentligt, månedligt eller kvartalsvis.

    Sæsonvariationer er enten menneskeskabte eller naturligt forekommende. Forskellige årstider eller klimatiske forhold spiller en afgørende rolle i sådanne variationer. For eksempel afhænger afgrødeproduktionen udelukkende på årstider. Tilsvarende afhænger markedet for en paraply eller regnfrakke af regntiden, mens salget af kølere og AC-enheder topper i sommersæsonen.

      Hvad skal du gøre, hvis du modtager en phishing-e-mail?

    Menneskeskabte konventioner omfatter festivaler, fester og lejligheder som ægteskaber. Sådanne kortsigtede begivenheder gentager sig år efter år.

    Cykliske variationer

    Tidsserievariationer, der har tendens til at fungere over en periode på mere end et år, omtales som cykliske variationer. For en virksomhed betragtes en hel periode som “Business Cycle”. Piggen eller faldet i virksomhedens præstation afhænger af forskellige faktorer såsom økonomisk struktur, virksomhedsledelse og andre interagerende kræfter. Disse cykliske forretningsvariationer kan være regelmæssige, men ikke periodiske. Generelt gennemgår virksomheder en fire-faset cyklisk proces, der omfatter velstand, recession, depression og genoplivning.

    Sådanne cykliske variationer er en integreret del af et tidsseriemønster, da forretningsudvikling er stærkt afhængig af de genererede “sekventielle datapunkter”.

    Tilfældige eller uregelmæssige bevægelser

    Tilfældige komponenter forårsager en signifikant variation i den observerede variabel. Disse er rene uregelmæssige udsving uden noget fast mønster. Kræfterne er uforudsete, uforudsigelige og uberegnelige – for eksempel jordskælv, oversvømmelser, hungersnød og andre katastrofer.

    Tilfældige hændelser beskrevet ovenfor analyseres ved hjælp af kildetidsseriedata for bedre at tackle sådanne virkelige scenarier, der kan forekomme i fremtiden.

    Typer af tidsserier

    Tidsseriedata kan opdeles i fire typer, deterministiske, ikke-deterministiske, stationære og ikke-stationære. Lad os se nærmere på hver type.

    #1. Deterministiske tidsserier

    En deterministisk tidsserie kan beskrives med et analytisk udtryk. Det involverer ikke tilfældige eller probabilistiske aspekter. Matematisk kan det udtrykkes nøjagtigt for alle tidsintervaller i form af en Taylor-serieudvidelse. Dette er muligt, hvis alle dets derivater er kendt på et vilkårligt tidspunkt. Disse derivater specificerer eksplicit fortiden og fremtiden på det tidspunkt. Hvis alle betingelserne er opfyldt, er det muligt nøjagtigt at forudsige dens fremtidige adfærd og analysere, hvordan den opførte sig i fortiden.

    #2. Ikke-deterministiske tidsserier

    En ikke-deterministisk tidsserie har et tilfældigt aspekt forbundet med sig, som forhindrer dens eksplicitte beskrivelse. Derfor er analytiske udtryk ikke gennemførlige nok løsninger til at udtrykke en sådan tidsserie. En tidsserie kan være ikke-deterministisk af følgende årsager:

  • De oplysninger, der kræves for at beskrive den, er ikke tilgængelige i sin helhed. Selvom data i princippet kan være til stede, kan de ikke behandles eksplicit som kvantificerbare.
  • Datagenereringsprocessen er tilfældig af natur.
  • På grund af den tilfældige faktor adlyder den ikke-deterministiske tidsserie probabilistiske love. Derfor behandles dataene i statistiske termer – hvilket betyder, at data er defineret ved sandsynlighedsfordelinger og gennemsnit af forskellige former. Dette inkluderer midler og mål for spredning, dvs. varianser.

    #3. Stationær tidsserie

    I en stationær tidsserie er de statistiske egenskaber såsom middelværdi, varians og andre ikke afhængige af tidsaspektet. En stationær tidsserie er lettere at forudsige, da man med sikkerhed kan konstatere, at dens statistiske egenskaber vil forblive de samme, som de er blevet observeret tidligere. Derfor er forskellige statistiske prognosemetoder baseret på argumentet om, at tidsserien er næsten stationær. Dette indebærer, at tidsrækken kan betragtes som stationære i tilnærmelse ved at anvende simple matematiske transformationer.

    #4. Ikke-stationære tidsserier

    I en ikke-stationær serie varierer de statistiske egenskaber med tiden. Derfor falder tidsserierne med trends eller sæsonbestemte under den ikke-stationære kategori, da trenden og sæsonvariationen kan påvirke værdien af ​​tidsserien ved forskellige tidsintervaller. Ikke-stationære tidsserier beskriver uforudsigelige data og forhindrer dem i at blive modelleret eller forudsagt.

    https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

    Tidsserieanalyse og prognose

    Tidsserieanalyse og prognose er praktiske værktøjer til at observere, analysere og studere udviklingen og dynamikken af ​​vitale processer og objekter af forskellig art. Lad os se på hver enkelt i større dybde.

    Tidsserieanalyse

    Tidsserieanalyse er defineret som en proces til at analysere de indsamlede data over en periode. Her registrerer dataanalytikere data i konstante intervaller over et fast tidsrum. Dataobservationshastigheden, dvs. tidsintervallet, kan variere fra sekunder til år.

    Tidsseriedata beskriver variabler under inspektion, da det giver en detaljeret analyse af det fluktuerende mønster over et bestemt tidsrum. De nødvendige parametre til analyse kan variere på tværs af forskellige domæner og discipliner. Nogle af eksemplerne kan omfatte:

    • Videnskabelige instrumenter – Data registreret pr. dag
    • Kommerciel hjemmeside – Kundebesøg pr. dag
    • Aktiemarked – Aktieværdier pr. uge
    • Sæson – Regnfulde dage om året
      12 apps, der betaler dig for at gå

    For at sikre konsistens og pålidelighed opererer tidsserieanalyse på store mængder datapunkter. En god prøvestørrelse er en subtil repræsentation af ægtheden af ​​en opdaget trend eller et mønster.

    Derudover er tidsserieanalyse også velegnet til at forudsige fremtidige hændelser baseret på tidligere registrerede data.

    Tidsserieprognoser

    Tidsserieanalyse giver organisationer mulighed for at identificere årsagen til udsving i tendenser over tid. Med data i hånden kan virksomheder derefter studere og forske yderligere for bedre at forstå, hvordan de kan tackle ukendte tendenser og forudsige kommende begivenheder. Virksomheder anvender generelt datavisualiseringsteknikker til at bestemme sådanne anomalier i data.

    Tidsserieprognoser drejer sig om to væsentlige faktorer:

  • Foregribe fremtidige hændelser baseret på tidligere dataadfærd.
  • Antag, at de kommende tendenser vil have ligheder med det tidligere datamønster.
  • I prognoser er det primære mål i det væsentlige at forudsige, hvordan datapunkterne vil fortsætte med at forblive de samme eller variere i fremtiden. Her er nogle eksempler fra forskellige industrisektorer for bedre at forstå nuancerne af tidsserieanalyse og prognoser.

    • Aktiemarked – Forudsigelse af slutaktiekursen hver dag.
    • Salg – Forudsig produktsalg for en butik hver dag.
    • Prissætning – Forudsigelse af den gennemsnitlige brændstofpris hver dag.

    Nogle af de almindelige statistiske teknikker, der bruges til tidsserieprognoser, inkluderer simpelt glidende gennemsnit (SMA), eksponentiel udjævning (SES), autoregressivt integreret glidende gennemsnit (ARIMA) og neuralt netværk (NN).

    Tidsseriedata i skyen

    For at afsløre værdien af ​​tidsseriedata bør virksomheder være i stand til hurtigt at lagre og forespørge data. Kapitalmarkedsvirksomheder er afhængige af store mængder af historiske data og streamingdata til at anvende dataanalyse i realtid og træffe effektive forretningsbeslutninger. Dette kan involvere forudsigelse af sårbarhed ved aktiekurser, fastlæggelse af nettokapitalkrav eller forudsigelse af valutakurser. For at give fleksibilitet og behandle data problemfrit vælger mange virksomheder migrering af deres tidsseriedatabaser til skyen.

    Med migreringen af ​​tidsseriedatabaser til skyer kan organisationer få adgang til ubegrænsede ressourcer on-demand. Det giver virksomheder mulighed for at bruge hundredvis af kerner til at udføre deres opgave, der maksimerer netværksgennemstrømningen uden problemer med latens.

    Tidsseriedatabaser i cloud-infrastrukturen er velegnede til computerkrævende arbejdsbelastninger. Dette omfatter udførelse af risikoberegninger som reaktion på markedstendenser i realtid. Finansielle virksomheder kan gøre op med datacentrets overhead og nul i at bruge ressourcer til at forbedre produktiviteten af ​​deres arbejdsbyrder.

    Cloud-leverandører som AWS leverer Amazon Timestream, en tidsseriedatabasetjeneste, der tillader nem indlæsning, lagring og analyse af tidsseriedatasæt. De tilbyder lagerplads til at administrere transaktionsintensive arbejdsbelastninger, analyseværktøjer i realtid og datastreamingfunktionalitet til at vise hændelser, når og når de opstår.

    Derfor forstærker og skalerer cloud-infrastruktur fordelene ved tidsseriedata.

    Anvendelser af tidsserier

    Tidsseriemodeller tjener to formål,

  • Forstå de underliggende faktorer, der producerede et bestemt mønster af data.
  • Baseret på analysen, tilpasse en model til at forudsige og overvåge.
  • Lad os se på nogle af anvendelsestilfældene for tidsseriedata.

    #1. Tidsserier i finans- og erhvervsdomæne

    Alle finansielle, forretningsmæssige og investeringsbeslutninger tages baseret på aktuelle markedstendenser og efterspørgselsprognoser. Tidsseriedata bruges til at forklare, korrelere og forudsige det dynamiske finansielle marked. Finansielle eksperter kan undersøge de finansielle data for at give prognoser for applikationer, der hjælper med at reducere risikoen, stabilisere prissætning og handel.

    Tidsserieanalyse spiller en nøglerolle i finansiel analyse. Det bruges i renteforudsigelse, forudsigelse af volatiliteten på aktiemarkederne og mange flere. Virksomhedens interessenter og politiske beslutningstagere kan træffe informerede beslutninger om fremstilling, indkøb, ressourceallokering og optimere deres forretningsdrift.

    Denne analyse bruges effektivt i investeringssektoren til at overvåge værdipapirkurserne og deres udsving over tid. Sikkerhedsprisen kan også observeres på kort sigt (dvs. registrere data pr. time eller dag) eller på lang sigt (dvs. observation strakt over måneder eller år). Tidsserieanalyse er et nyttigt værktøj til at spore, hvordan et værdipapir, et aktiv eller en økonomisk variabel klarer sig over en længere periode.

    #2. Tidsserier i medicinsk domæne

    Sundhedspleje er hurtigt ved at opstå som et datadrevet felt. Ud over finansielle og forretningsmæssige analyser udnytter det medicinske domæne i høj grad tidsserieanalyse.

      Sådan finder du breddegrad og længdegrad i Apple Maps

    Overvej et scenarie, der kræver en synergi af tidsseriedata, medicinsk tilpassede procedurer og data mining-teknikker under behandling af kræftpatienter. En sådan hybrid ramme kan anvendes til at udnytte funktionsudtrækningsfunktioner fra de indsamlede tidsseriedata (dvs. patientens røntgenbilleder) for at spore patientens fremskridt og respons på behandlinger leveret af det medicinske broderskab.

    I sundhedssektoren er det af afgørende værdi at udlede slutninger fra de konstant skiftende tidsseriedata. Derudover kræver avanceret medicinsk praksis, at patientjournaler forbindes over tid for bedre synlighed af patientens helbred. Desuden skal patientens helbredsparametre registreres præcist med jævne mellemrum for at få et klarere billede af patientens helbredstilstand.

    Med avancerede medicinske instrumenter på vej frem, har tidsserieanalyse etableret sig i sundhedsområdet. Overvej eksemplerne nedenfor,

    • EKG-enheder: Enheder opfundet til overvågning af hjertetilstande ved at registrere hjertets elektriske pulser.
    • EEG-enheder: Enheder, der bruges til at kvantificere elektrisk aktivitet i hjernen.

    Sådanne enheder har gjort det muligt for læger at udføre tidsserieanalyse for hurtigere, effektiv og nøjagtig medicinsk diagnose.

    Derudover, med fremkomsten af ​​IoT-enheder såsom bærbare sensorer og bærbare sundhedsenheder, kan folk nu tage regelmæssige målinger af deres sundhedsvariabler over tid med minimale input. Dette fører til en konsekvent dataindsamling af tidsafhængige medicinske data for både syge og raske personer.

    #3. Tidsserie i astronomi

    Astronomi og astrofysik er de to moderne discipliner, hvor tidsseriedata bliver udnyttet betydeligt.

    Grundlæggende involverer astronomi at plotte kosmiske objekters baner og himmellegemer og udføre nøjagtige målinger for bedre at forstå universet ud over jordens atmosfære. På grund af dette krav er astronomiske eksperter dygtige til at håndtere tidsseriedata, mens de kalibrerer og konfigurerer komplekse instrumenter og studerer astronomiske objekter af interesse.

    Tidsseriedata har længe været forbundet med astronomiområdet. I 800 f.Kr. blev solplettidsseriedata indsamlet med jævne mellemrum. Siden blev tidsserieanalyse vant til

    • Oplev fjerne stjerner baseret på stjernernes afstande,
    • Observer kosmiske begivenheder såsom supernovaer for bedre at forstå oprindelsen af ​​vores univers.

    Tidsseriedata relaterer i dette tilfælde til bølgelængder og intensiteter af lys afgivet af stjerner, himmellegemer eller objekter. Astronomer overvåger konstant sådanne livestreamingdata for at detektere kosmiske begivenheder i realtid, når og når de opstår.

    I nyere tid er forskningsområder som astroinformatik og astrostatistik dukket op, som blander forskellige discipliner såsom data mining, machine learning, computational intelligence og statistik. I disse nye forskningsområder er tidsseriedatas rolle at detektere og klassificere astronomiske objekter hurtigt og effektivt.

    #4. Tidsserier i prognoser for vejret

    Aristoteles studerede vejrmønstre grundigt for bedre at forstå årsagerne og virkningerne observeret i vejrændringer i oldtiden. Som dagene skred frem, begyndte forskere at registrere vejrrelaterede data på instrumenter som “barometer” til at beregne atmosfæriske variabler. Dataene blev indsamlet med jævne mellemrum og opbevaret forskellige steder.

    Med tiden begyndte vejrudsigter til sidst at komme i aviserne. Spol frem til dagens dag og alder, er allestedsnærværende vejrudsigtsstationer installeret i forskellige geografier rundt om i verden for at indsamle nøjagtige vejrvariabler.

    Sådanne stationer har avancerede funktionelle enheder, der er forbundet med hinanden for at indsamle og korrelere vejrdata fra forskellige steder. De korrelerede data bruges til at forudsige vejrforhold til enhver tid afhængigt af kravene.

    #5. Tidsserier i forretningsudvikling

    Tidsseriedata gør det muligt for virksomheder at træffe forretningsbeslutninger. Dette opnås, da processen analyserer tidligere data for at udlede fremtidige begivenheder og kaste lys over sandsynlige muligheder. Det tidligere datamønster bruges til at udlede følgende parametre:

    • Forretningsvækst: For at evaluere den overordnede økonomiske og forretningsmæssige ydeevne og måle vækst, er tidsseriedata det mest egnede og pålidelige aktiv.
    • Estimeret tendens: Forskellige tidsseriemetoder kan anvendes til at estimere nye tendenser. Overvej for eksempel, at disse metoder analyserer dataobservationer over en periode for at reflektere over en stigning eller et fald i salget af en bestemt elektronisk enhed.
    • Afsløre sæsonmæssige mønstre: De registrerede datapunkter kan afsløre udsving og sæsonbestemte mønstre, der kan hjælpe med dataprognoser. Den indhentede datainformation spiller en nøglerolle for markeder, hvor produktpriserne svinger sæsonmæssigt. Sådanne data kan hjælpe virksomheder med bedre produktplanlægning og -udvikling.

    Konklusion 👨‍🏫

    Sammenfattende kan tidsseriedata ses som karakteristika for komplekse datapunkter indsamlet over en konstant tidsperiode. Tidsserieanalyse, modellering og prognose er blevet en integreret del af vores hverdag med fremkomsten af ​​IoT-gadgets, smarte husholdningsapparater og bærbare enheder. Desuden finder tidsseriedata sin anvendelse på forskellige områder, herunder sundhedspleje, astrofysik, økonomi, teknik, forretning og mange flere.