Top maskinlæringsmodeller forklaret

Machine Learning (ML) er en teknologisk innovation, der fortsætter med at bevise sit værd i mange sektorer.

Machine learning er relateret til kunstig intelligens og deep learning. Da vi lever i en konstant fremadskridende teknologisk æra, er det nu muligt at forudsige, hvad der kommer næste gang og vide, hvordan vi ændrer vores tilgang ved hjælp af ML.

Således er du ikke begrænset til manuelle måder; næsten alle opgaver i dag er automatiserede. Der er forskellige maskinlæringsalgoritmer designet til forskelligt arbejde. Disse algoritmer kan løse komplekse problemer og spare timevis af arbejdstid.

Eksempler på dette kunne være at spille skak, udfylde data, udføre operationer, vælge den bedste mulighed fra indkøbslisten og mange flere.

Jeg vil forklare maskinlæringsalgoritmer og modeller i detaljer i denne artikel.

Nu sker det!

Hvad er Machine Learning?

Maskinlæring er en færdighed eller teknologi, hvor en maskine (såsom en computer) skal opbygge evnen til at lære og tilpasse sig ved at bruge statistiske modeller og algoritmer uden at være højt programmeret.

Som et resultat af dette opfører maskiner sig på samme måde som mennesker. Det er en type kunstig intelligens, der gør det muligt for softwareapplikationer at blive mere præcise i forudsigelser og udføre forskellige opgaver ved at udnytte data og forbedre sig selv.

Da computerteknologier vokser hurtigt, er nutidens maskinlæring ikke det samme som tidligere maskinlæring. Maskinlæring beviser sin eksistens fra mønstergenkendelse til teorien om at lære at udføre bestemte opgaver.

Med maskinlæring lærer computere af tidligere beregninger for at producere gentagelige, pålidelige beslutninger og resultater. Maskinlæring er med andre ord en videnskab, der har fået frisk fart.

Selvom mange algoritmer har været brugt i lang tid, er muligheden for at anvende komplekse beregninger automatisk på big data, hurtigere og hurtigere, igen og igen, en nylig udvikling.

Nogle offentliggjorte eksempler er som følger:

Online anbefaling rabatter og tilbud, såsom fra Netflix og Amazon
Selvkørende og stærkt hypet Google-bil
Opdagelse af svindel og foreslå nogle måder at springe disse problemer over

Og mange flere.

Hvorfor har du brug for Machine Learning?

Maskinlæring er et vigtigt koncept, som enhver virksomhedsejer implementerer i deres softwareapplikationer for at kende deres kundeadfærd, forretningsdriftsmønstre og mere. Det understøtter udviklingen af de nyeste produkter.

Mange førende virksomheder, som Google, Uber, Instagram, Amazon osv., gør maskinlæring til deres centrale del af driften. Industrier, der arbejder på en stor mængde data, ved dog vigtigheden af maskinlæringsmodeller.

Organisationer er i stand til at arbejde effektivt med denne teknologi. Industrier som finansielle tjenesteydelser, regering, sundhedspleje, detailhandel, transport og olie-gas bruger maskinlæringsmodeller til at levere mere værdifulde kunderesultater.

Hvem bruger Machine Learning?

Maskinlæring bruges i dag i adskillige applikationer. Det mest kendte eksempel er anbefalingsmotoren på Instagram, Facebook, Twitter mv.

Facebook bruger maskinlæring til at tilpasse medlemmernes oplevelser på deres nyhedsfeeds. Hvis en bruger ofte stopper for at tjekke den samme kategori af indlæg, begynder anbefalingsmotoren at vise flere indlæg af samme kategori.

Bag skærmen forsøger anbefalingsmaskinen at studere medlemmernes onlineadfærd gennem deres mønstre. Nyhedsfeedet justeres automatisk, når brugeren ændrer sin handling.

Tilføj den samme lagstil til et lag flere gange i Photoshop CC

I forbindelse med anbefalingsmotorer bruger mange virksomheder det samme koncept til at køre deres kritiske forretningsprocedurer. De er:

Customer Relationship Management (CRM)-software: Den bruger maskinlæringsmodeller til at analysere besøgendes e-mails og tilskynde salgsteamet til at svare med det samme på de vigtigste beskeder først.
Business Intelligence (BI): Analytics- og BI-leverandører bruger teknologien til at identificere væsentlige datapunkter, mønstre og anomalier.
Human Resource Information Systems (HRIS): Den bruger maskinlæringsmodeller i sin software til at filtrere gennem sine applikationer og genkende de bedste kandidater til den ønskede stilling.
Selvkørende biler: Maskinlæringsalgoritmer gør det muligt for bilfabrikanter at identificere objektet eller fornemme førerens adfærd for at advare øjeblikkeligt for at forhindre ulykker.
Virtuelle assistenter: Virtuelle assistenter er smarte assistenter, der kombinerer overvågede og ikke-overvågede modeller til at fortolke tale og levere kontekst.

Hvad er Machine Learning-modeller?

En ML-model er en computersoftware eller -applikation, der er trænet til at bedømme og genkende nogle mønstre. Du kan træne modellen ved hjælp af data og forsyne den med algoritmen, så den lærer af disse data.

For eksempel vil du lave en applikation, der genkender følelser ud fra brugerens ansigtsudtryk. Her skal du fodre modellen med forskellige billeder af ansigter mærket med forskellige følelser og træne din model godt. Nu kan du bruge den samme model i din applikation for nemt at bestemme brugerens humør.

Enkelt sagt er en maskinlæringsmodel en forenklet procesrepræsentation. Dette er den nemmeste måde at bestemme noget eller anbefale noget til en forbruger. Alt i modellen fungerer som en tilnærmelse.

Når vi for eksempel tegner en globus eller fremstiller den, giver vi den form som en kugle. Men selve kloden er ikke sfærisk, som vi ved. Her antager vi formen til at bygge noget. ML-modellerne fungerer på samme måde.

Lad os gå videre med de forskellige maskinlæringsmodeller og algoritmer.

Typer af maskinlæringsmodeller

Alle maskinlæringsmodeller er kategoriseret som overvåget, uovervåget og forstærkende læring. Superviseret og uovervåget læring klassificeres yderligere som forskellige termer. Lad os diskutere hver enkelt af dem i detaljer.

#1. Superviseret læring

Supervised learning er en ligetil maskinlæringsmodel, der involverer indlæring af en grundlæggende funktion. Denne funktion knytter et input til outputtet. For eksempel, hvis du har et datasæt bestående af to variable, alder som input og højde som output.

Med en overvåget læringsmodel kan du nemt forudsige højden på en person baseret på den pågældendes alder. For at forstå denne læringsmodel skal du gennemgå underkategorierne.

#2. Klassifikation

Klassificering er en meget brugt prædiktiv modelleringsopgave inden for maskinlæring, hvor en etiket forudsiges for en given inputdata. Det nødvendiggør træningsdatasættet med en bred vifte af forekomster af input og output, som modellen lærer af.

Træningsdatasættet bruges til at finde den mindste måde at kortlægge inputdataeksempler til de specificerede klasseetiketter. Endelig repræsenterer træningsdatasættet problemet, der indeholder et stort antal outputprøver.

Det bruges til spamfiltrering, dokumentsøgning, håndskrevne tegngenkendelse, svindeldetektion, sprogidentifikation og sentimentanalyse. Outputtet er diskret i dette tilfælde.

#3. Regression

I denne model er output altid kontinuerligt. Regressionsanalyse er i det væsentlige en statistisk tilgang, der modellerer en sammenhæng mellem en eller flere variable, der er uafhængige og en mål- eller afhængig variabel.

Regression gør det muligt at se, hvordan antallet af den afhængige variabel ændres i forhold til den uafhængige variabel, mens de andre uafhængige variabler er konstante. Det bruges til at forudsige løn, alder, temperatur, pris og andre reelle data.

Regressionsanalyse er en “bedste gæt”-metode, der genererer en prognose fra datasættet. Med enkle ord, tilpasning af forskellige datapunkter i en graf for at få den mest præcise værdi.

Sådan slår du placering fra på Life360 uden at nogen ved det

Eksempel: At forudsige prisen på en flybillet er et almindeligt regressionsarbejde.

#4. Uovervåget læring

Uovervåget læring bruges i det væsentlige til at drage slutninger samt finde mønstre fra inputdata uden nogen referencer til de mærkede resultater. Denne teknik bruges til at opdage skjulte datagrupperinger og mønstre uden behov for menneskelig indgriben.

Det kan opdage forskelle og ligheder i information, hvilket gør denne teknik ideel til kundesegmentering, undersøgende dataanalyse, mønster- og billedgenkendelse og krydssalgsstrategier.

Uovervåget læring bruges også til at reducere en models endelige antal funktioner ved hjælp af dimensionalitetsreduktionsprocessen, der omfatter to tilgange: singular værdinedbrydning og principal komponentanalyse.

#5. Klynger

Clustering er en uovervåget læringsmodel, der inkluderer gruppering af datapunkterne. Det bruges ofte til at opdage svindel, dokumentklassificering og kundesegmentering.

De mest almindelige klynge- eller grupperingsalgoritmer inkluderer hierarkisk klyngedannelse, tæthedsbaseret klyngedannelse, middelforskydningsklyngning og k-betyder klyngning. Hver algoritme bruges forskelligt til at finde klynger, men målet er det samme i alle tilfælde.

#6. Dimensionalitetsreduktion

Det er en metode til at reducere forskellige tilfældige variabler, der er under overvejelse, for at opnå et sæt af principielle variabler. Med andre ord kaldes processen med at formindske dimensionen af funktionssættet dimensionalitetsreduktion. Den populære algoritme for denne model kaldes Principal Component Analysis.

Forbandelsen ved dette refererer til det faktum at tilføje mere input til prædiktive modelleringsaktiviteter, hvilket gør det endnu sværere at modellere. Det bruges generelt til datavisualisering.

#7. Maskinlæring for forstærkning

Det er en model, der ligner overvåget maskinlæring. Det omtales som den adfærdsmæssige maskinlæringsmodel. Den eneste forskel fra overvåget læring er, at algoritmen ikke trænes ved at bruge prøvedataene.

Forstærkningslæringsmodellen lærer, efterhånden som den bevæger sig fremad med trial and error-metoden. Rækkefølgen af vellykkede resultater tvang modellen til at udvikle den bedste anbefaling til et givet problem. Dette bruges ofte i spil, navigation, robotteknologi og mere.

Typer af maskinlæringsalgoritmer

#1. Lineær regression

Her er tanken at finde en linje, der passer bedst muligt til de data, du har brug for. Der er udvidelser i den lineære regressionsmodel, der inkluderer multipel lineær regression og polynomiel regression. Det betyder, at man skal finde henholdsvis det bedste plan, der passer til dataene, og den bedste kurve, der passer til dataene.

#2. Logistisk regression

Logistisk regression ligner meget den lineære regressionsalgoritme, men bruges i det væsentlige til at få et begrænset antal udfald, lad os sige to. Logistisk regression bruges over lineær regression, mens sandsynligheden for udfald modelleres.

Her er en logistisk ligning opbygget på en genial måde, så outputvariablen bliver mellem 0 og 1.

#3. Beslutningstræ

Beslutningstræmodellen er meget brugt i strategisk planlægning, maskinlæring og operationsforskning. Den består af noder. Hvis du har flere noder, får du mere præcise resultater. Den sidste node i beslutningstræet består af data, der hjælper med at træffe beslutninger hurtigere.

De sidste noder omtales således også som træernes blade. Beslutningstræer er nemme og intuitive at bygge, men de kommer til kort med hensyn til nøjagtighed.

#4. Tilfældig Skov

Det er en ensemblelæringsteknik. Enkelt sagt er det bygget op af beslutningstræer. Den tilfældige skov-model involverer flere beslutningstræer ved at bruge bootstrappede datasæt af de sande data. Den vælger tilfældigt undersættet af variablerne ved hvert trin i træet.

Den tilfældige skovmodel vælger forudsigelsestilstanden for hvert beslutningstræ. Derfor reduceres risikoen for fejl ved at stole på “majority wins”-modellen.

For eksempel, hvis du opretter et individuelt beslutningstræ, og modellen forudsiger 0 i slutningen, vil du ikke have noget. Men hvis du opretter 4 beslutningstræer ad gangen, får du måske værdi 1. Dette er kraften i den tilfældige skovlæringsmodel.

En introduktion til Prometheus og Grafana

#5. Support Vector Machine

En Support Vector Machine (SVM) er en overvåget maskinlæringsalgoritme, der er kompliceret, men intuitiv, når vi taler om det mest grundlæggende niveau.

For eksempel, hvis der er to typer data eller klasser, vil SVM-algoritmen finde en grænse eller et hyperplan mellem disse klasser af data og maksimerer marginen mellem de to. Der er mange fly eller grænser, der adskiller to klasser, men et fly kan maksimere afstanden eller marginen mellem klasserne.

#6. Principal Component Analysis (PCA)

Principal komponentanalyse betyder at projicere højere dimensionel information, såsom 3 dimensioner, til et mindre rum, såsom 2 dimensioner. Dette resulterer i en minimal dimension af data. På denne måde kan du beholde de oprindelige værdier i modellen uden at hæmme positionen, men reducere dimensionerne.

Med enkle ord er det en dimensionsreduktionsmodel, som især bruges til at bringe flere variabler til stede i datasættet ned til de mindste variable. Det kan gøres ved at sætte de variable sammen, hvis måleskala er den samme og har højere korrelationer end andre.

Det primære mål med denne algoritme er at vise dig de nye grupper af variabler og give dig tilstrækkelig adgang til at få dit arbejde gjort.

For eksempel hjælper PCA med at fortolke undersøgelser, der indeholder mange spørgsmål eller variabler, såsom undersøgelser om trivsel, studiekultur eller adfærd. Du kan se minimale variabler af dette med PCA-modellen.

#7. Naiv Bayes

Naive Bayes-algoritmen bruges i datavidenskab og er en populær model, der bruges i mange industrier. Ideen er taget fra Bayes-sætningen, der forklarer sandsynlighedsligningen som “hvad er sandsynligheden for Q (outputvariabel) givet P.

Det er en matematisk forklaring, der bruges i nutidens teknologiske æra.

Ud over disse er nogle modeller nævnt i regressionsdelen, herunder beslutningstræ, neuralt netværk og tilfældig skov, også omfattet af klassifikationsmodellen. Den eneste forskel mellem vilkårene er, at outputtet er diskret i stedet for kontinuerligt.

#8. Neuralt netværk

Et neuralt netværk er igen den mest brugte model i industrier. Det er i bund og grund et netværk af forskellige matematiske ligninger. For det første tager den en eller flere variable som input og går gennem netværket af ligninger. I sidste ende giver det dig resultater i en eller flere outputvariable.

Med andre ord tager et neuralt netværk en vektor af input og returnerer vektoren af output. Det ligner matricer i matematik. Den har skjulte lag i midten af input- og outputlagene, der repræsenterer både lineære og aktiveringsfunktioner.

#9. K-Nærmeste Naboer (KNN) Algoritme

KNN-algoritmen bruges til både klassifikations- og regressionsproblemer. Det er meget brugt i datavidenskabsindustrien til at løse klassifikationsproblemer. Desuden gemmer den alle tilgængelige sager og klassificerer kommende sager ved at tage sine k naboers stemmer.

Afstandsfunktionen udfører målingen. Hvis du for eksempel vil have data om en person, skal du tale med de personer, der er tættest på vedkommende, såsom venner, kollegaer osv. På lignende måde fungerer KNN-algoritmen.

Du skal overveje tre ting, før du vælger KNN-algoritmen.

Data skal forbehandles.
Variabler skal normaliseres, ellers kan højere variabler påvirke modellen.
KNN er beregningsmæssigt dyrt.

#10. K-Betyder Clustering

Det kommer under en uovervåget maskinlæringsmodel, der løser klyngeopgaverne. Her er datasæt klassificeret og kategoriseret i flere klynger (lad os sige K), således at alle punkter i en klynge er heterogene og homogene fra dataene.

K-Means danner klynger som dette:

K-Means vælger K-antallet af datapunkter, kaldet centroider, for hver klynge.
Hvert datapunkt danner en klynge med den nærmeste klynge (centroider), dvs. K-klynger.
Dette skaber nye tyngdepunkter.
Den nærmeste afstand for hvert punkt bestemmes derefter. Denne proces gentages, indtil tyngdepunkterne ikke ændres.

Konklusion

Maskinlæringsmodeller og algoritmer er meget afgørende for kritiske processer. Disse algoritmer gør vores daglige liv let og enkelt. På denne måde bliver det nemmere at få de mest gigantiske processer frem på få sekunder.

ML er således et stærkt værktøj, som mange industrier bruger i dag, og efterspørgslen vokser konstant. Og dagen er ikke langt, hvor vi kan få endnu mere præcise svar på vores komplekse problemer.