Apache Hive forklaret på 5 minutter eller mindre [+5 Learning Resources]

Apache Hive er et distribueret, fejltolerant datavarehussystem, der muliggør analyser i massiv skala.

Et datavarehus er et datastyringssystem, der lagrer store mængder historiske data, der stammer fra forskellige kilder med henblik på dataanalyse og rapportering. Dette understøtter igen business intelligence, hvilket fører til mere informeret beslutningstagning.

De data, der bruges i Apache Hive, er gemt i Apache Hadoop, en open source-datalagringsramme til distribueret datalagring og -behandling. Apache Hive er bygget oven på Apache Hadoop og lagrer og udtrækker dermed data fra Apache Hadoop. Andre datalagringssystemer, såsom Apache HBase, kan dog også bruges.

Det bedste ved Apache Hive er, at det giver brugerne mulighed for at læse, skrive og administrere store datasæt og forespørge og analysere dataene ved hjælp af Hive Query Language(HQL), der ligner SQL.

Sådan fungerer Apache Hive

Apache Hive giver en SQL-lignende grænseflade på højt niveau til forespørgsel og styring af store mængder data, der er lagret i Hadoop Distributed File System (HDFS). Når en bruger udfører en forespørgsel i Apache Hive, oversættes forespørgslen til en række MapReduce-job, der udføres af Hadoop-klyngen.

MapReduce er en model til at behandle store mængder data parallelt på tværs af distribuerede klynger af computere. Når MapReduce-jobbene er afsluttet, behandles og kombineres deres resultater til et enkelt endeligt resultat. Det endelige resultat kan gemmes i en Hive-tabel eller eksporteres til HDFS for yderligere behandling eller analyse.

Forespørgsler i Hive kan udføres hurtigere ved at bruge partitioner til at opdele Hive-tabeller i forskellige dele baseret på tabeloplysningerne. Disse partitioner kan nedbrydes yderligere for at tillade meget hurtig forespørgsel i store datasæt. Denne proces er kendt som bucketing.

Apache Hive er et must-have for organisationer, der arbejder med big data. Dette skyldes, at det giver dem mulighed for nemt at administrere store datasæt, behandle dataene på en meget hurtig måde og nemt udføre kompleks dataanalyse på dataene. Dette fører til omfattende og detaljerede rapporter fra tilgængelige data, hvilket giver mulighed for bedre beslutningstagning.

Fordele ved at bruge Apache Hive

Nogle af fordelene ved at bruge Apache Hive inkluderer følgende:

Let at bruge

Ved at tillade forespørgsel efter data ved hjælp af HQL, svarende til SQL, bliver brugen af ​​Apache Hive tilgængelig for både programmører og ikke-programmører. Derfor kan dataanalyse udføres på store datasæt uden at lære noget nyt sprog eller syntaks. Dette har været en vigtig bidragyder til adoption og brug af Apache Hive af organisationer.

  Sådan slår du rumlig lyd til for AirPods på iPhone eller iPad

Hurtig

Apache Hive giver mulighed for meget hurtig dataanalyse af store datasæt gennem batchbehandling. Ved batchbehandling opsamles og behandles store datasæt i grupper. Resultaterne kombineres senere til de endelige resultater. Gennem batchbehandling giver Apache Hive mulighed for hurtig behandling og dataanalyse.

Pålidelig

Hive bruger Hadoop Distributed File System (HDFS) til datalagring. Ved at arbejde sammen kan data replikeres, når de analyseres. Dette skaber et fejltolerant miljø, hvor data ikke kan gå tabt, selv når computersystemer ikke fungerer.

Dette gør det muligt for Apache Hive at være meget pålidelig og fejltolerant, hvilket gør, at den skiller sig ud blandt andre datavarehussystemer.

Skalerbar

Apache Hive er designet på en måde, der gør det nemt at skalere og håndtere stigende datasæt. Dette giver brugerne en datavarehusløsning, der skaleres efter deres behov.

Omkostningseffektiv

Sammenlignet med andre data warehousing-løsninger er Apache Hive, som er open source, relativt billigere at køre og dermed den bedste mulighed for organisationer, der er interesserede i at minimere omkostningerne ved, at driften er rentabel.

Apache Hive er en robust og pålidelig data warehousing løsning, der ikke kun skalerer efter en brugers behov, men også giver en hurtig, omkostningseffektiv og brugervenlig data warehousing løsning.

Apache Hive-funktioner

Nøglefunktioner i Apache-hive inkluderer:

#1. Hive Server 2 (HS2)

Det understøtter godkendelse og multi-klient samtidighed og er designet til at tilbyde bedre support til åbne API-klienter som Java Database Connectivity (JDBC) og Open Database Connectivity (ODBC).

#2. Hive Metastore Server (HMS)

HMS fungerer som et centralt lager for metadata fra Hive-tabeller og partitioner til en relationel database. Metadataene, der er gemt i HMS, gøres tilgængelige for klienter ved hjælp af metastore service API.

#3. Hive SYRE

Hive sikrer, at alle udførte transaktioner er ACID-kompatible. ACID repræsenterer de fire ønskelige træk ved databasetransaktioner. Dette inkluderer atomicitet, konsistens, isolation og holdbarhed.

#4. Hive-datakomprimering

datakomprimering er processen med at reducere datastørrelsen, der lagres og transmitteres uden at kompromittere kvaliteten og integriteten af ​​dataene. Dette gøres ved at fjerne redundans og irrelevante data eller bruge speciel kodning uden at kompromittere kvaliteten og integriteten af ​​de data, der komprimeres. Hive tilbyder out-of-the-box support til datakomprimering.

#5. Hive replikering

Hive har en ramme, der understøtter replikering af Hive-metadata og dataændringer mellem klynger med det formål at skabe sikkerhedskopier og datagendannelse.

#6. Sikkerhed og observerbarhed

Hive kan integreres med Apache Ranger, en ramme, der muliggør overvågning og styring af datasikkerhed, og med Apache Atlas, som gør det muligt for virksomheder at opfylde deres overholdelseskrav. Hive understøtter også Kerberos-godkendelse, en netværksprotokol, der sikrer kommunikation i et netværk. De tre sammen gør Hive sikker og observerbar.

#7. Hive LLAP

Hive har Low Latency Analytical Processing (LLAP), som gør Hive meget hurtig ved at optimere datacache og bruge persistent forespørgselsinfrastruktur.

#8. Omkostningsbaseret optimering

Hive bruger en omkostningsbaseret forespørgselsoptimering og forespørgselsudførelsesramme fra Apache Calcite til at optimere sine SQL-forespørgsler. Apache Calcite bruges til at bygge databaser og datastyringssystemer.

  10 bedste kryptohandelsplatforme til at købe Bitcoin i Tyskland

Ovenstående funktioner gør Apache Hive til et fremragende datavarehussystem

Brug Cases til Apache Hive

Apache Hive er en alsidig datavarehus- og dataanalyseløsning, der giver brugerne mulighed for nemt at behandle og analysere store mængder data. Nogle af anvendelsesmulighederne for Apache Hive inkluderer:

Dataanalyse

Apache Hive understøtter analyse af store datasæt ved hjælp af SQL-lignende sætninger. Dette giver organisationer mulighed for at identificere mønstre i dataene og drage meningsfulde konklusioner ud fra udtrukne data. Dette er nyttigt i designfremstilling. Eksempler på virksomheder, der bruger Apache Hive til dataanalyse og forespørgsler, omfatter AirBnB, FINRA og Vanguard.

Batchbehandling

Dette involverer at bruge Apache Hive til at behandle meget store datasæt gennem distribueret databehandling i grupper. Dette har den fordel, at det muliggør hurtig behandling af store datasæt. Et eksempel på en virksomhed, der bruger Apache Hive til dette formål, er Guardian, et forsikrings- og formueforvaltningsselskab.

Data warehousing

dette involverer at bruge Apache-hive til at gemme og administrere meget store datasæt. Ud over dette kan de lagrede data analyseres, og rapporter genereres fra. Virksomheder, der bruger Apache Hive som en data warehouse-løsning omfatter JPMorgan Chase og Target.

Marketing og kundeanalyse

organisationer kan bruge Apache Hive til at analysere deres kundedata, udføre kundesegmentering og være i stand til at forstå deres kunder bedre og tilpasse deres marketingindsats, så de matcher deres forståelse af deres kunder. Dette er en applikation, som alle virksomheder, der håndterer kundedata, kan bruge Apache Hive til.

ETL (Extract, Transform, Load) behandling

Når man arbejder med mange data i et datavarehus, er det nødvendigt at udføre operationer som datarensning, udtræk og transformation, før data kan indlæses og lagres i et datavarehussystem.

På denne måde vil databehandling og analyse være hurtig, nem og fejlfri. Apache Hive kan udføre alle disse operationer, før data indlæses i et datavarehus.

Ovenstående udgør de vigtigste anvendelsesmuligheder for Apache Hive

Læringsressourcer

Apache hive er et meget nyttigt værktøj til data warehousing og dataanalyse af store datasæt. Organisationer og enkeltpersoner, der arbejder med store datasæt, kan drage fordel af at bruge Apache-hive. For at lære mere om Apache Hive og hvordan man bruger det, kan du overveje følgende ressourcer:

#1. Hive To ADVANCE Hive (realtidsbrug)

Hive to Advance Hive er et bedst sælgende kursus om Udemy skabt af J Garg, en senior big data-konsulent med over ti års erfaring med at arbejde med Apache-teknologier til dataanalyse og træning af andre brugere.

Dette er et enestående kursus, der tager elever fra det grundlæggende i Apache Hive til avancerede koncepter og inkluderer også et afsnit om use cases, der bruges i Apache Hive jobsamtaler. Det giver også datasæt og Apache Hive-forespørgsler, som eleverne kan bruge til at øve sig, mens de lærer.

Nogle af de dækkede Apache Hive-koncepter inkluderer avancerede funktioner i Hive, komprimeringsteknikker i Hive, konfigurationsindstillinger af Hive, arbejde med flere tabeller i Hive og indlæsning af ustrukturerede data i Hive.

  Total sikkerhed 2018 med 61 % rabat (gælder 6. december)

Styrken ved dette kursus ligger i den dybdegående dækning af avancerede Hive-koncepter, der bruges i projekter i den virkelige verden.

#2. Apache Hive for dataingeniører

Dette er et praktisk, projektbaseret Udemy-kursus, der lærer eleverne at arbejde med Apache Hive fra et begynderniveau til et avanceret niveau ved at arbejde på projekter i den virkelige verden.

Kurset starter med en oversigt over Apache Hive og dækker, hvorfor det er et nødvendigt værktøj for dataingeniører. Den udforsker derefter Hive-arkitekturen, dens installation og de nødvendige Apache Hive-konfigurationer. Efter at have lagt fundamentet, fortsætter kurset med at dække hive-forespørgselsflows, hive-funktioner, begrænsninger og den datamodel, der bruges i Apache-hive.

Det dækker også datatype, datadefinitionssprog og datamanipulationssprog i Hive. De sidste afsnit dækker avancerede Hive-koncepter såsom visninger, partitionering, bucketing, joins og indbyggede funktioner og operatører.

For at dække det hele dækker kurset ofte stillede interviewspørgsmål og svar. Dette er et fremragende kursus til at lære om Apache Hive, og hvordan det kan anvendes i den virkelige verden.

#3. Apache Hive Basic for at komme videre

Apache Hive Basic to advance er et kursus af Anshul Jain, en senior dataingeniør med masser af erfaring med at arbejde med Apache Hive og andre Big data-værktøjer.

Dette præsenterer Apache Hive-koncepter på en letforståelig måde og er velegnet til begyndere, der ønsker at lære Apache Hives reb.

Kurset dækker HQL-klausuler, vinduesfunktioner, materialiseret visning, CRUD-operationer i Hive, udveksling af partitioner og ydeevneoptimering for at tillade hurtig dataforespørgsel.

Dette kursus vil give dig en praktisk oplevelse med Apache Hive ud over at hjælpe med at tackle almindelige interviewspørgsmål, du sandsynligvis vil støde på, når du søger job.

#4. Apache Hive Essentials

Denne bog er især nyttig for dataanalytikere, udviklere eller enhver, der er interesseret i at lære at bruge Apache Hive.

Forfatteren har over ti års erfaring med at arbejde som big data practitioner med at designe og implementere big data-arkitektur og -analyse i forskellige brancher.

Bogen dækker, hvordan man opretter og opsætter et Hive-miljø, effektivt beskriver data ved hjælp af Hives definitionssprog og forbinder og filtrerer datasæt i Hive.

Derudover dækker det datatransformationer ved hjælp af Hive-sortering, bestilling og funktioner, hvordan man samler og prøver data, og hvordan man kan booste ydeevnen af ​​Hive-forespørgsler og forbedre sikkerheden i Hive. Endelig dækker det tilpasninger i Apache-hive, der lærer brugerne, hvordan man tilpasser Apache Hive til at opfylde deres big data-behov.

#5. Apache Hive kogebog

Apache Hive Cookbook, tilgængelig i Kindle og paperback, giver et let-at følge, hands-on tag på Apache Hive, så du kan lære og forstå Apache Hive og dets integration med populære rammer i big data.

Denne bog, der er beregnet til læsere med forudgående viden om SQL, dækker, hvordan man konfigurerer Apache Hive med Hadoop, tjenester i Hive, Hive-datamodellen og Hive-datadefinitions- og manipulationssprog.

Derudover dækker det udvidelsesfunktioner i Hive, joins og join-optimering, statistik i Hive, Hive-funktioner, Hive-tuning til optimering og sikkerhed i Hive, og afsluttes med en dybdegående dækning af integrationen af ​​Hive med andre rammer.

Konklusion

Det er værd at bemærke, at Apache Hive bedst bruges til traditionelle data warehousing opgaver og uegnet til behandling af online transaktioner. Apache er designet til at maksimere ydeevne, skalerbarhed, fejltolerance og løs kobling med dets inputformater.

Organisationer, der håndterer og behandler store mængder data, vil have stor gavn af de robuste funktioner, som Apache Hive tilbyder. Disse funktioner er meget nyttige til lagring og analyse af store datasæt.

Du kan også udforske nogle store forskelle mellem Apache Hive og Apache Impala.