Introduktion til Amazon EMR (Elastic MapReduce) for begyndere

Databehandling er på sit højeste i disse dage og fortsætter med at stige. Inden for de sidste 3 årtier har maskiner udviklet sig og forbedret en hel masse, især med hensyn til processorkraft og multitasking.

Kan du overhovedet forestille dig, hvor skørt præstationsboostet kunne være, hvis opgaverne deles mellem flere maskiner og udføres parallelt? Dette kaldes distribueret computing. Det er ligesom teamwork for computere.

Men du undrer dig måske over, hvorfor vi diskuterer denne distribuerede computerting. Fordi distribueret computing og Amazon EMR (Elastic MapReduce) er meget relaterede. Det vil sige, at EMR by AWS bruger distribuerede computerprincipper til at behandle og analysere store mængder data i skyen.

Med Amazon EMR kan du nu analysere og behandle big data ved hjælp af en distribueret behandlingsramme efter eget valg på S3-instanser.

Indholdsfortegnelse

Hvordan virker Amazon EMR?

Kilde: aws.amazon.com

Indtast først dataene til ethvert datalager som Amazon S3, DynamoDB eller andre AWS-lagringsplatforme, da de alle integreres godt med EMR.

Nu har du brug for en big data-ramme til at behandle og analysere disse data. Med forskellige big data-rammer at vælge imellem, såsom Apache Spark, Hadoop, Hive og Presto, kan du vælge den, der passer til dine krav, og uploade den til det valgte datalager.

En EMR-klynge af EC2-instanser oprettes til parallelt at behandle og analysere dataene. Du kan konfigurere antallet af noder og andre detaljer for at oprette klyngen.

Dit primære lager distribuerer data og rammer til disse noder, hvor datastykkerne behandles individuelt, og resultaterne kombineres.

Når resultaterne er ude, kan du afslutte klyngen for at frigive alle de allokerede ressourcer.

Fordele ved Amazon EMR

Virksomheder, enten små eller store, overvejer altid at vedtage omkostningseffektive løsninger. Så hvorfor ikke en overkommelig Amazon EMR? Når det kan forenkle at køre forskellige big data-rammer på AWS, hvilket giver en bekvem måde at behandle og analysere dine data på, mens du sparer nogle penge.

Samsung Galaxy S20: Sådan tænder du mørk tilstand

✅ Elasticitet: Du kan gætte dens natur via udtrykket ‘Elastic MapReduce’. Udtrykket siger – Baseret på kravene giver Amazon EMR dig mulighed for nemt at ændre størrelsen på klyngerne manuelt eller automatisk. For eksempel kan du have brug for 200 forekomster for at behandle dine anmodninger nu, og dette kan gå til 600 forekomster efter en time eller to. Så Amazon EMR er det bedste, når du kun har brug for skalerbarhed for at tilpasse sig hurtige ændringer i efterspørgslen.

✅ Datalagre: Uanset om det er Amazon S3, Hadoop distribuerede filsystem, Amazon DynamoDB eller andre AWS-datalagre, integreres Amazon EMR problemfrit med det.

✅ Databehandlingsværktøjer: Amazon EMR understøtter forskellige big data frameworks, herunder Apache Spark, Hive, Hadoop og Presto. Oven i det kan du køre deep learning og machine learning algoritmer og værktøjer på denne ramme.

✅ Omkostningseffektiv: I modsætning til andre kommercielle produkter giver Amazon EMR dig mulighed for kun at betale for de ressourcer, du bruger på timebasis. Derudover kan du vælge mellem forskellige prismodeller, der passer til dit budget.

✅ Klyngetilpasning: Rammen giver dig mulighed for at tilpasse hver forekomst af din klynge. Du kan også parre en big data-ramme med en perfekt klyngetype. For eksempel er Apache Spark og Graviton2-baserede instanser en dødbringende kombination for optimeret ydeevne i EMR.

✅ Adgangskontrol: Du kan udnytte AWS Identity and Access Management (IAM) værktøjer til at kontrollere tilladelser i EMR. For eksempel kan du tillade bestemte brugere at redigere klyngen, mens andre kun kan se klyngen.

✅ Integration: Integrering af EMR med alle de andre AWS-tjenester er problemfri. Med dette kan du få kraften fra virtuelle servere, robust sikkerhed, udvidelig kapacitet og analysefunktioner i EMR.

Brug tilfælde af Amazon EMR

#1. Maskinelæring

Analyser dataene ved hjælp af maskinlæring og deep learning i Amazon EMR. For eksempel er det afgørende at køre forskellige algoritmer på sundhedsrelaterede data for at spore flere sundhedsmålinger, såsom kropsmasseindeks, puls, blodtryk, fedtprocent osv. for at udvikle en fitness-tracker. Alt dette kan gøres på EMR-instanser hurtigere og mere effektivt.

Sådan får du Redbox-kvitteringer

#2. Udfør store transformationer

Detailhandlere trækker normalt en stor mængde digitale data for at analysere kundeadfærd og forbedre forretningen. På samme måde vil Amazon EMR være effektiv til at trække big data og udføre store transformationer ved hjælp af Spark.

#3. Data Mining

Vil du adressere et datasæt, der tager lang tid at behandle? Amazon EMR er eksklusivt til datamining og prædiktiv analyse af komplekse datasæt, især i ustrukturerede datasager. Desuden er dens klyngearkitektur fantastisk til parallel behandling.

#4. Forskningsformål

Få din forskning udført med denne omkostningseffektive og effektive ramme kaldet Amazon EMR. På grund af dens skalerbarhed ser du sjældent problemer med ydeevnen, mens du kører store datasæt på EMR. Så denne ramme er meget tilpasset i big data-forsknings- og analyselaboratorier.

#5. Realtidsstreaming

En anden stor fordel ved Amazon EMR er dens understøttelse af streaming i realtid. Byg skalerbare realtidsstreamingdatapipelines til onlinespil, videostreaming, trafikovervågning og aktiehandel ved hjælp af Apache Kafka og Apache Flink på Amazon EMR.

Hvordan er EMR forskellig fra Amazon lim og rødforskydning?

AWS EMR vs. Lim

De to kraftfulde AWS-tjenester – Amazon EMR og Amazon Glue har fået en loyal bemærkning i håndteringen af dine data.

At udtrække data fra forskellige kilder, transformere og indlæse dem til datavarehusene er hurtigt og effektivt med Amazon Glue, mens Amazon EMR hjælper dig med at behandle dine big data-applikationer ved hjælp af Hadoop, Spark, Hive osv.

Grundlæggende giver AWS Glue dig mulighed for at indsamle og forberede data til analyse, og Amazon EMR giver dig mulighed for at behandle dem.

EMR vs. rødforskydning

Forestil dig, at du konsekvent navigerer gennem dine data og forespørger efter dem med lethed. SQL er noget du ofte bruger til at gøre dette. På samme linje tilbyder Redshift optimerede online analytiske behandlingstjenester til nemt at forespørge store mængder data ved hjælp af SQL.

Sådan optager du fantastiske iPhone-billeder om natten eller i svagt lys

Når du gemmer data, har du adgang til meget skalerbar, sikker og tilgængelig Amazon EMR bruger tredjeparts lagerudbydere som S3 og DynamoDB. I modsætning hertil har Redshift sit eget datalag, så du kan gemme data i søjleformat.

Amazon EMR Cost Optimization Approaches

#1. Kom med formaterede data

Jo større data, jo længere tid tager det at behandle. Desuden gør feeding af rådata direkte til klyngen det endnu mere komplekst, og det tager længere tid at finde den del, du har til hensigt at behandle.

Så de formaterede data kommer med metadata om kolonner, datatype, størrelse og mere, hvorved du kan spare tid i søgninger og sammenlægninger.

Slip også din datastørrelse ved at udnytte datakomprimeringsteknikker, da det er forholdsvis nemmere at behandle mindre datasæt.

#2. Brug overkommelige lagertjenester

Udnyttelse af omkostningseffektive primære lagertjenester reducerer dine store EMR-udgifter. Amazon s3 er en enkel og overkommelig lagertjeneste til lagring af input- og outputdata. Dens pay-as-you-go-model opkræver kun for den faktiske opbevaring, du brugte.

#3. Størrelse af den rigtige instans

Brug af passende forekomster med de rigtige størrelser kan reducere dit budget brugt på EMR markant. EC2-instanserne opkræves normalt pr. sekund, og prisen skalerer med deres størrelse, men uanset om du bruger en ,7x stor klynge eller en ,36x stor klynge, er omkostningerne ved at administrere dem de samme. Så effektiv udnyttelse af større maskiner er omkostningseffektiv sammenlignet med at bruge flere små maskiner.

#4. Spot Forekomster

Spot-forekomster er en fantastisk mulighed for at købe ubrugte EC2-ressourcer med rabat. Sammenlignet med On-demand-tilfælde kommer disse billigere, men er ikke permanente, da de kan kræves tilbage, når efterspørgslen stiger. Så disse er fleksible for fejltolerance, men ikke egnede til langvarige job.

#5. Automatisk skalering

Dens automatiske skaleringsfunktion er alt hvad du behøver for at undgå overdimensionerede eller underdimensionerede klynger. Dette giver dig mulighed for at vælge det rigtige antal og type forekomster i din klynge baseret på arbejdsbelastning, hvilket optimerer omkostningerne.

Afsluttende ord

Der er ingen ende på skyen og big data-teknologien, hvilket efterlader dig uendelige værktøjer og rammer til at lære og implementere. En sådan enkelt platform til at udnytte både big data og skyen er Amazon EMR, da det forenkler at køre big data-rammer til at behandle og analysere store data.

For at hjælpe dig med at komme i gang med EMR viser denne artikel dig, hvad den er, hvordan den gavner, dens funktion, dens anvendelsesmuligheder og omkostningseffektive tilgange.

Tjek derefter alt, hvad du behøver at vide om AWS Athena.