Hvad er Azure SQL Data Warehouse?

Microsoft transformerede sine Azure-tjenester til cloud-løsninger i virksomhedskvalitet, der inkorporerer avancerede funktioner såsom datastyring og analyse.

Microsoft lancerede Azure SQL Data Warehouse, da det traf beslutningen om at bruge skyen. Microsoft presser Azure SQL Data Warehouse med stor energi. Det er en fleksibel databasestyringstjeneste, der kombinerer elastiske datavarehusfunktioner med den.

Hvad er Azure SQL Data Warehouse?

Azure SQL Data Warehouse (nu kaldet Azure Synapse Dedicated SQL Pool, et cloud-baseret datavarehus, giver dig mulighed for at oprette og levere et datavarehus på Microsoft Azure. Azure Data Warehouse kan behandle store mængder relationelle og ikke-relationelle data. Det tilbyder SQL data warehouse muligheder og en cloud computing platform.

Det understøtter SQL-servere indbygget og kan migrere eksisterende SQL-servere til SQL Data Warehouse. Du kan også bruge de samme forespørgsler og konstruktioner. Derudover har abonnenter øjeblikkelig adgang til at skalere, sætte på pause og formindske deres datavarehusressourcer.

Det bruges til at levere en komplet SQL-baseret datavarehusløsning i virksomhedsklasse. Det kan også bruges på følgende måder:

  • Migrering af eksisterende datavarehuse (on-premises) til skyen
  • Lever en data warehouse-løsning til applikationer og tjenester, der har brug for datalagring og hentning under kørsel – såsom webapplikationer.
  • En hybrid datavarehusløsning, der forbinder til Azure-hostet Data Warehouse og SQL Server på stedet.

Azure SQL Data Warehouses bedste funktion er dens elastiske natur. Det giver mulighed for skalerbarhed og mulighed for at administrere både lager- og computerressourcer separat. Det skaber en win/win platform, hvor brugerne kun betaler for det, de bruger, og hvornår de bruger det.

Azure SQL Data Warehouse’s computerside er baseret på Data Warehouse Unit (DWU), som sporer beregningsressourcer såsom lager-I/O og hukommelse på tværs af alle deltagende compute-noder.

Azure SQL Data Warehouse tilbyder en forbindelsessikkerhedsfunktion. Dette giver dig mulighed for at begrænse adgangen til specifikke IP-adresser eller IP-områder ved hjælp af firewall-regler. Integration med Azure Active Directory-godkendelse (AAD) gør det muligt for dig at oprette forbindelse til Azure SQL Data Warehouse ved at bruge identiteter fra Azure AD.

  12 ressourcer til at lære Python for begyndere

Flerlagskryptering giver beskyttelse i hvile, i bevægelse og i brug for at beskytte dine data mod at blive misbrugt. Yderligere værktøjer er tilgængelige til at revidere og overvåge data og identificere sikkerhedsbrud.

Når det kombineres med andre Microsoft-værktøjer, tilbyder Azure SQL Data Warehouse uovertruffen ydeevne, hvilket er en stor fordel i forhold til andre sammenlignelige tjenester på markedet.

Azure Synapse Dedikeret SQL Pool

Azure Synapse SQL Pool Dedikeret SQL Pool (tidligere Azure SQL Data Warehouse) er en massivt parallel behandlingsdatabank svarende til kolonnebaserede udskaleringsdatabaseteknologier som Snowflake og Amazon Redshift. Det ligner en traditionel SQL Server for slutbrugeren, men den gemmer og behandler ikke data på én node.

Dette kan dramatisk forbedre ydeevnen af ​​datavarehuse, der er større end et par terabyte i størrelse, men der kan være bedre løsninger til mindre implementeringer.

Den underliggende arkitektur er meget forskellig fra traditionelle SQL-servere. Det betyder, at syntaks og udviklingsmetoder også er forskellige.

Distributionerne kortlægges til Compute-noder i en dedikeret SQL-pool. Puljen omformer dine distributioner til Compute-noderne, efterhånden som du køber flere computerressourcer.

Du kan importere store data ved hjælp af simple PolyBase SQL-forespørgsler og derefter bruge den distribuerede forespørgselsmotor til højtydende analyser.

Den dedikerede SQL-pool, tidligere SQL DW, vil give din virksomhed en enkelt kilde til sandhed, der giver dig mulighed for at integrere og analysere data hurtigere og giver mere robust indsigt.

Hvad er forskellen mellem Azure Synapse dedikerede SQL-puljer og dedikerede SQL-puljer i et Azure Synapse Analytics-arbejdsområde?

PowerShell er et af de mest forvirrende områder i dokumentationen mellem “den dedikerede SQL Pool (tidligere SQLDW) og “Synapse Analytics” dedikerede SQL-puljer.

SQL DWs oprindelige implementering bruger en logisk server, der ligner Azure SQL DB. Et PowerShell-modul ved navn Az.Sql er delt.

Dette modul opretter en ny SQL-pool (tidligere SQLDW) ved hjælp af cmdlet’en New.AzSqlDatabase. Den har en “Edition” parameter, der giver dig mulighed for at angive, at du vil have et DataWarehouse.

Synapse Analytics kom med et nyt PowerShell-modul fra Az.Synapse, da det først blev udgivet. For at oprette en dedikeret SQL-pool i et Synapse Analytics-arbejdsområde skal du bruge New-AzSynapseSqlPool.

Dette PowerShell-modul kræver ikke, at du inkluderer “Edition”-parameteren, da det kun bruges til Synapse-artefakter.

En dedikeret SQL-pool giver T-SQL-baseret databehandling og lagring. Data kan indlæses, modelleres og behandles i Synapse for at give hurtigere indsigt.

Azure Synapse tilbyder serverløse SQL- og Apache Spark-puljer ud over dedikerede SQL-puljer. Du kan vælge den rigtige ud fra dine krav.
En serverløs SQL-pool giver dig mulighed for at forespørge på de data, der er gemt i din datasø.

  Find film efter genre, tema, sted, periode og mere

Hvad gør Azure Synapse Dedicated SQL Pool?

Azure Synapse Dedicated SQL Pool bruger en scale-out-arkitektur til at distribuere databeregningen på tværs af flere noder. Du kan skalere beregning uafhængigt af lager, fordi databehandling er forskellig fra lager.

Serverløse SQL-puljer er serverløse og skaleres automatisk for at opfylde kravene til forespørgselsressourcer. Den tilpasser sig skiftende topologier ved at tilføje, fjerne eller fejle over noder. Dette sikrer, at din forespørgsel har tilstrækkelige ressourcer og kan gennemføres med succes.

Synapse SQL er baseret på en node-baseret arkitektur. Synapse SQL bruger en node-baseret arkitektur. Programmer kan oprette forbindelse til kontrolnoden og udstede T-SQL-kommandoer. Dette er det eneste punkt for Synapse SQL.

Azure Synapse SQL-kontrolnoder bruger en distribueret forespørgselsmotor, der optimerer forespørgsler til parallel behandling og derefter sender operationer videre til Compute-noder, så de kan udføre deres arbejde parallelt.

Den serverløse SQL-pulje Control Node bruger Distributed Query Processing Engine (DQP) til at optimere og orkestrere distribueret udførelse.

Dette gøres ved at opdele brugerforespørgslen i mindre forespørgsler, der kan udføres på Compute noder. Hver opgave er en distribueret udførelsesenhed. Den henter data fra andre opgaver, grupperer filer og læser dem fra lageret.

Compute noder gemmer alle brugerdata og kører parallelle forespørgsler. Data Movement Service (DMS), en intern tjeneste på systemniveau, flytter data mellem noder for at tillade parallelle forespørgsler og returnerer nøjagtige resultater.

Synapse SQL bruger Azure Storage til brugerdatasikkerhed. Azure Storage gemmer og administrerer dine data. Der er et særskilt gebyr for brug af lagerplads.

Funktioner i Azure Synapse Dedicated SQL Pools

Her er de vigtigste funktioner i Azure Synapse SQL Pool:

  • Du kan forespørge om dataene i forskellige formater såsom Parket, JSON og CSV i datasøen.
  • Brugere kan se de seneste data ved at bruge en relationel abstraktion.
  • T-SQL giver dig mulighed for at transformere dataene i søen på en enkel, skalerbar måde
  • Dataforskere kan hurtigt undersøge strukturen og indholdet af sødata ved hjælp af OPENROWSET eller automatiske skemainferensfunktioner.
  • Dataingeniører kan bruge poolen til at udforske søen og transformere, skabe eller forenkle deres datatransformationspipelines.
  • Dataanalytikere kan få adgang til dataene og aktivere eksterne tabeller via T-SQL-sprog og andre velkendte værktøjer. Disse værktøjer kan også forbindes til en serverløs SQL-pool.
  • Generer øjeblikkeligt BI-rapporter af business intelligence-professionelle over Spark-tabeller eller datasø.
  Monica – Personal Relationship Manager

Dedikeret SQL Pool vs. Serverløs SQL Pool

Serverløs SQL Pool

Azure Synapse-arbejdsområder har en serverløs SQL-pool, der fungerer som en forespørgselstjeneste over datasøer. Det kræver ikke yderligere konfiguration for at få adgang til dataene. Det er helt serverløst og kræver ingen infrastruktur at konfigurere eller vedligeholde.

Skalering kan udføres automatisk for at opfylde ressourcekrav. Brugeren betaler kun for de behandlede data og ikke for reserverede ressourcer. Den serverløse SQL-pool opretter også statistik for at optimere udførelse af forespørgsler.

For eksempel, når vi kører en forespørgsel to gange eller kører to forespørgsler med lignende eksekveringsplaner, kan disse statistikker genbruges.
Disse funktioner giver os mulighed for hurtigt at analysere store mængder data uden at kopiere eller indlæse dem i en bestemt butik.

Dedikeret SQL Pool

Den Synapse dedikerede SQL Pool er efterfølgeren til Azure SQL Data Warehouse og tilbyder alle virksomhedens data warehousing funktioner. Der er dog ingen serverløs SQL-pool. I stedet skal brugerne oprette og slette den Synapse-dedikerede SQL-pool. Vi kan også vælge de ressourcer, som den vil bruge.

Disse ressourcer måles ved hjælp af Synapses dedikerede SQL-puljer. De kaldes Data Warehousing Units (DWU’er). En DWU refererer til en kombination af CPU-, hukommelses- og IO-ressourcer.

Antallet af DWU’er bestemmer puljens ydeevne og omkostninger. I stedet for at blive opkrævet pr. forespørgsel, vil vi blive debiteret for enhver tid, puljen er aktiv, uanset hvor meget arbejde den har udført.

For at undgå ekstra omkostninger kan dedikerede pools stoppes og genstartes. Vi oprettede en 100 DWU dedikeret SQL-pulje til vores test.

Efter puljen er oprettet, kan data indlæses i den ved hjælp af COPY-kommandoen, PolyBase med T–SQL-forespørgsler eller en pipeline. Disse data vil blive lagret i kolonnelager i relationelle tabeller.

Dedikeret SQL PoolServerløs SQL Pool.Dette giver dig mulighed for at forespørge datasøen og indtage den.Brugere kan forespørge datasøfiler.Infrastruktur er påkrævet.Det er ikke nødvendigt at etablere infrastruktur eller vedligeholde klynger.Før du kan udføre en operation, er det nødvendigt at anskaffe dedikerede servere.Der kræves ingen infrastruktur til datatransformation eller udforskning.Relationelle tabeller bruges til at lagre data.Data Lake gemmer data.Du kan administrere omkostninger ved at sætte SQL-puljen på pause og nedskalere lageret.Omkostningerne håndteres og faktureres automatisk iht. en betal-per-anmodning-basis.Reserverede ressourcer er underlagt omkostninger.Per-forespørgsel databehandlingsomkostninger debiteres.Betal pr. DWU-leveret.Betal pr. TB behandlet.

Konklusion

Så det handlede om Azure SQL Data Warehouse (nu kaldet Azure Synapse Dedicated SQL Pool). Mens en dedikeret SQL Pool kan ligne en traditionel SQL Server fra mange vinkler, er den underliggende arkitektur (Massively Parallel Processing) helt anderledes. Det betyder, at visse koncepter og teknikker kun er anvendelige til en dedikeret SQL-pool.

Du kan også udforske forskellene mellem Data Lake og Data Warehouse.