Hvad er naturlig sprogbehandling, og hvordan fungerer det?

Naturlig sprogbehandling gør det muligt for computere at behandle det, vi siger, til kommandoer, som det kan udføre. Find ud af, hvordan det grundlæggende i, hvordan det virker, og hvordan det bruges til at forbedre vores liv.

Hvad er naturlig sprogbehandling?

Uanset om det er Alexa, Siri, Google Assistant, Bixby eller Cortana, har alle med en smartphone eller smart højttaler en stemmeaktiveret assistent i dag. Hvert år ser disse stemmeassistenter ud til at blive bedre til at genkende og udføre de ting, vi fortæller dem at gøre. Men har du nogensinde undret dig over, hvordan disse assistenter behandler de ting, vi siger? De formår at gøre dette takket være Natural Language Processing, eller NLP.

Historisk set har det meste software kun været i stand til at reagere på et fast sæt af specifikke kommandoer. En fil åbnes, fordi du klikkede på Åbn, eller et regneark vil beregne en formel baseret på bestemte symboler og formelnavne. Et program kommunikerer ved hjælp af det programmeringssprog, det er kodet i, og vil således producere et output, når det får input, som det genkender. I denne sammenhæng er ord som et sæt forskellige mekaniske håndtag, der altid giver det ønskede output.

Dette er i modsætning til menneskelige sprog, som er komplekse, ustrukturerede og har et væld af betydninger baseret på sætningsstruktur, tone, accent, timing, tegnsætning og kontekst. Natural Language Processing er en gren af ​​kunstig intelligens, der forsøger at bygge bro mellem det, en maskine genkender som input og det menneskelige sprog. Det er sådan, at når vi taler eller skriver naturligt, producerer maskinen et output på linje med det, vi sagde.

  Sådan integrerer du podcasts i PowerPoint

Dette gøres ved at tage enorme mængder af datapunkter for at udlede mening fra de forskellige elementer i det menneskelige sprog, oven i betydningen af ​​de faktiske ord. Denne proces er tæt forbundet med konceptet kendt som maskinlæring, som gør det muligt for computere at lære mere, efterhånden som de får flere datapunkter. Det er grunden til, at de fleste af de naturlige sprogbehandlingsmaskiner, vi ofte interagerer med, ser ud til at blive bedre med tiden.

For at belyse konceptet bedre, lad os tage et kig på to af de mest overordnede teknikker, der bruges i NLP til at behandle sprog og information.

Tokenisering

Tokenisering betyder at opdele tale i ord eller sætninger. Hvert stykke tekst er et token, og disse tokens er det, der dukker op, når din tale behandles. Det lyder simpelt, men i praksis er det en vanskelig proces.

Lad os sige, at du bruger tekst-til-tale-software, såsom Google Keyboard, til at sende en besked til en ven. Du vil sende en besked: “Mød mig i parken.” Når din telefon tager den optagelse og behandler den gennem Googles tekst-til-tale-algoritme, skal Google derefter opdele det, du lige har sagt, i tokens. Disse tokens ville være “mød”, “mig”, “ved”, “den” og “park”.

  Sådan fjerner du dubletter i Google Sheets

Folk har forskellige længder af pauser mellem ord, og andre sprog har måske ikke meget lidt i vejen for en hørbar pause mellem ordene. Tokeniseringsprocessen varierer drastisk mellem sprog og dialekter.

Stemming og Lematisering

Stemming og lemmatisering involverer begge processen med fjernelse af tilføjelser eller variationer til et rodord, som maskinen kan genkende. Dette gøres for at gøre fortolkningen af ​​tale konsistent på tværs af forskellige ord, der alle betyder stort set det samme, hvilket gør NLP-behandling hurtigere.

Stemming er en grov hurtig proces, der involverer fjernelse af affikser fra et rodord, som er tilføjelser til et ord, der er knyttet før eller efter roden. Dette gør ordet til den enkleste grundform ved blot at fjerne bogstaver. For eksempel:

“Walking” bliver til “walking”
“Hurtigere” bliver til “hurtigt”
“Sværhedsgrad” bliver til “afbrydelse”

Som du kan se, kan stemming have den negative effekt, at det ændrer betydningen af ​​et ord helt. “Sværhedsgrad” og “afbrydelse” betyder ikke det samme, men suffikset “itet” blev fjernet i processen med at stamme.

På den anden side er lemmatisering en mere sofistikeret proces, der involverer at reducere et ord til deres base, kendt som lemma. Dette tager hensyn til ordets kontekst, og hvordan det bruges i en sætning. Det involverer også at slå et udtryk op i en database med ord og deres respektive lemma. For eksempel:

  Sådan gør du dit Google Home mere støjsvagt om natten

“Er” bliver til “være”
“Operation” bliver til “operate”
“Sværhedsgrad” bliver til “alvorlig”

I dette eksempel lykkedes det lemmatisering at omdanne udtrykket “alvorlighed” til “alvorlig”, som er dets lemmaform og rodord.

NLP Use Cases og fremtiden

De foregående eksempler begynder kun at ridse overfladen af, hvad Natural Language Processing er. Det omfatter en bred vifte af praksisser og brugsscenarier, hvoraf mange vi bruger i vores daglige liv. Dette er et par eksempler på, hvor NLP er i brug i øjeblikket:

Prædiktiv tekst: Når du skriver en besked på din smartphone, foreslår den automatisk ord, der passer ind i sætningen, eller som du har brugt før.
Maskinoversættelse: Udbredte forbrugeroversættelsestjenester, såsom Google Translate, til at inkorporere en højniveauform for NLP til at behandle sprog og oversætte det.
Chatbots: NLP er grundlaget for intelligente chatbots, især inden for kundeservice, hvor de kan hjælpe kunder og behandle deres anmodninger, før de står over for en rigtig person.

Der kommer mere. NLP-anvendelser er i øjeblikket ved at blive udviklet og implementeret inden for områder som nyhedsmedier, medicinsk teknologi, arbejdspladsledelse og økonomi. Der er en chance for, at vi kan have en fuldgyldig sofistikeret samtale med en robot i fremtiden.

Hvis du er interesseret i at lære mere om NLP, er der en masse fantastiske ressourcer på Mod Data Science blog eller den Standford National Langauge Processing Group som du kan tjekke ud.