ChatGPT-4 vs ChatGPT-3.5 Standard vs. ChatGPT-3.5 Legacy: Forskelle testet

ChatGPT 4.0 forventes at lave store bølger i chatbot-universet. Men er den virkelig sin forgænger overlegen? Lad os tjekke ud.

ChatGPT var kun toppen af det kommende automatiserings-isbjerg, hvor Google, Microsoft og mange andre AI-første virksomheder fulgte trop.

Til at begynde med har vi fundet et par chatbots som ChatGPT, hvoraf mange ikke tilhører big tech.

Men kald det markedsføringens magt; ChatGPT er stadig den regerende konge af alle sådanne AI-bots. Det kan gøre mange ting, herunder matematik, poesi og blogindlæg, og folk bruger endda dette til at anlægge retssager.

DoNotPay arbejder på at bruge GPT-4 til at generere “et-klik retssager” for at sagsøge robocallers for $1.500. Forestil dig, at du modtager et opkald, klikker på en knap, opkaldet transskriberes og en retssag på 1.000 ord genereres. GPT-3.5 var ikke god nok, men GPT-4 klarer opgaven særdeles godt: pic.twitter.com/gplf79kaqG

— Joshua Browder (@jbrowder1) 14. marts 2023

Det har snesevis af fagfolk, der bekymrer sig om, at deres færdigheder bliver ubrugelige i den nærmeste fremtid.

Jeg har dog læst et linkedin-indlæg, der sagde:

AI vil ikke erstatte dig, men en person, der bruger AI kan.

Så vi krydser fingre, lad os blive oplært om den seneste ChatGPT-opdatering og se, hvordan den adskiller sig fra dens tidligere versioner.

Indholdsfortegnelse

ChatGPT: Legacy, Default og The Update

Så der er tre versioner tilgængelige for de betalte brugere: Legacy (3.5), Default (3.5) og den seneste ChatGPT Update (4).

Selvom vi vil gå lidt i dybden med deres muligheder, er dette, hvad OpenAI har at sige om forskellene:

Kilde: OpenAI

Så mens gratis brugere kun har Legacy 3.5 at spille med, tilbyder premium-abonnementet alle tre at prøve at nøjes med, hvad brugerne synes er det bedste.

For at opsummere det foregående billede handler de betalte planer om at få mere præcise resultater med en anstændig hastighed. Forskellene er dog kun synlige, hvis anvisningerne er komplicerede og kræver kreativitet.

ParameterChatGPT 4ChatGPT 3.5Bar eksamensscoreTop 10%Bund 10%AI2 Reasoning Challenge (ARC)96.3%85.2%Python Coding Score67%48.1%Visuel fortolkningJaNejKontekstOver 25k ordLessSource: OpenAI

Desuden kan ChatGPT 4 acceptere visuelle input.

Nå, nok af lærebogsdefinitionerne. Lad os få snavsede hænder og evaluere disse kandidater på den virkelige kampplads.

Yderligere sektioner er fyldt med billeder, der kan virke uklare. I et sådant tilfælde skal du højreklikke på et billede og vælge Åbn i en ny fane for at se det korrekt.

Matematik

Da jeg er uddannet ingeniør, kan jeg ikke lade være med at give dem nogle grundlæggende problemer. Lad os starte let med algebraiske ligninger.

Fase I

Mange af os har set disse ligninger ax2+bx+c=0, hvor vi skal løse for X. Her gav jeg denne enkle prompt, Løs for x: x2 + x – 6 = 0

Kan retshåndhævelse virkelig gendanne filer, du har slettet?

Mens alle gav de samme rødder (X= -3,2), var Legacy og Update mere ens ved at bruge formlen direkte (som enhver elev vil) for at finde ud af resultatet.

Men Default 3.5 forklarede to metoder, inklusive faktorisering, som enhver dygtig elev normalt anvender, når de får sådanne verdslige ligninger.

Fase II

Dernæst beder jeg den om at løse en lidt kompleks kubisk ligning: x^3 -12x^2 + 48x – 64 = 0.

Dette beviste virkelig, hvorfor ChatGPT 4 er “opdateringen”.

Her er svarene:

Al denne hype og ChatGPT Legacy og Default kunne ikke løse en generisk kubisk ligning. Legacy klarede sig dog lidt bedre og fandt to rødder korrekt, mens Default mislykkedes med alle.

Opdateringen var den klare vinder i fase to og løste ligningen perfekt og fandt alle tre rødder med en god forklaring.

Logisk ræsonnement

Vi kan roligt antage, at de fleste elementære matematikproblemer har ordbogsløsninger. Hvis du kender sætningen eller formlen, skal du indtaste værdierne og få resultaterne.

Og ChatGPT, som er AI, kan gøre hurtigt arbejde med sådanne forespørgsler. Men logisk ræsonnement er et andet territorium, med høje chancer for, at AI falder fladt.

Fase I

Jeg gav dem klassikeren:

A er ældre end B.
C er ældre end A.
B er ældre end C.
Er det tredje udsagn sandt eller falsk, hvis de to første udsagn er sande?

Og alle ChatGPT-versionerne var korrekte, når de sagde, at den tredje erklæring var falsk.

Dernæst brugte jeg navne i stedet for alfabetet, og resultaterne kan måske overraske dig:

Så Default 3.5 fortsatte sin præstation under pari og blev forvirret med denne beskedne variation. Alligevel fungerede Legacy og Update optimalt.

Fase II

Du har måske allerede bemærket, at formålet med denne fase I og fase II er at finde forskellen, hvor kompleksiteten af en given prompt adskiller opdateringen fra de to andre.

Her var prompten et simpelt logisk puslespil:

En morgen efter solopgang stod Rohit med front mod en pæl. Skyggen af stangen faldt præcis til højre for ham. I hvilken retning var han vendt?
en. Nord
b. Vest
c. Syd
d. Øst

Denne skubbede arven til at give et unøjagtigt svar, mens standarden svarede med vage præciseringer, der førte til en forkert konklusion.

Kun opdateringen skinnede med det rigtige svar, med udsagn, der er nemme at følge.

Breve

Det kan være vanskeligt at anlægge sagsanlæg, men nogle gange kommer det ikke til det, hvis du kan udarbejde en slående første meddelelse.

Her gik jeg med denne prompt: Skriv et brev til Tim Cook for at overdrage æblet til mig, fordi jeg ikke svarede på et af mine tweets.

Datakvalitet: En omfattende vejledning

Sjovt, ja! Men lad os se, hvad AI kan gøre ud af dette.

Legacy 3.5 tog med det samme prompten som en robo-slave og væltede et brev frem, der kan gøre mig til et glimrende genstand for hån, hvis det nogensinde nåede sin tilsigtede destination.

Standarden var heller ikke god. Det lukkede mig dog bare ned, som en gnaven gammel mand ville gøre ved en femårig.

Selvom argumenterne var præcise, endte dette det sjove lige dér med lidt læring.

Selvom dette var en simpel nok prompt, krævede det lidt omtanke og kreativitet. Og det var her, storebroren, Update, gjorde sin sag:

For det første var dette udarbejdet næsten perfekt. For det andet sparede det mig for en Google-søgning efter adressen på Apples hovedkvarter (selvom man bør bekræfte sådanne poster).

For det tredje var den flot skrevet med en officiel tone og et humoristisk præg. Desuden var hensigten tydelig i selve emnelinjen.

Og stadig formidlede brevet følelsen af en utilfreds Apple-fan.

Så dette gør ChatGPT 4 (også kaldet opdateringen) miles foran sine gamle fætre. Den er skræmmende intelligent og har nogle tegn på sund fornuft, hvilket gør den til mere end en kedelig, kedelig chatbot.

Poesi

Med lanceringen af ChatGPT, troede jeg, at poesi kunne være dens svage punkt.

Det kræver trods alt følelser, kreativitet og mange kræfter for et menneske at skabe noget, der virkelig giver genklang hos dets læsere.

Kort sagt, poesi er kunst, når det er bedst, og jeg ønskede i al hemmelighed, at AI skulle fejle. Men det var før min kollega slog os alle hårdt i toadmin.dk’s Slack-kanal med en ChatGPT-skabelse, der var før denne 4.0-opdatering.

Fase I

Her er den opfordring, jeg gav til vores kandidater: “udtryk poetisk, hvorfor eller hvorfor ikke servering af burgere sammen med deres nuværende menu kan gavne dominos pizza-kæden. Hold det mindre end 100 ord.”

Kan du se forskellen?

Standardversionen var en ultrakort, kun 32 ord, og kunne ikke udnytte den tilgængelige båndbredde til at vise sin kreativitet.

The Legacy, selvom den brugte de maksimale ord blandt de tre, konkluderer, at bestræbelsen på at servere pizzaer ved siden af ikke er risikabelt og vil resultere i sikker succes på begge måder, hvilket ikke er helt sandt.

The Updates poesi var kun på 53 ord, hvilket spildede næsten halvdelen af det tildelte ordantal. Alligevel var det klart med hensyn til belønningerne og potentielle faldgruber og kunne ikke komme til noget resultat, hvilket jeg formoder er mere humant end resten.

Fase II

Dernæst bad jeg dem alle om at “forklare poesien til en fem-årig”.

Interessant nok kunne Legacy ikke tage konteksten fra samtalen og forklarede “Poesi” bogstaveligt. Standard tog konteksten og sammenfattede den i et afsnit, som stadig er anstændigt.

20 ofte stillede DevOps-interviewspørgsmål og -svar [2022]

ChatGPT 4 fortsætter trenden og forenklede sin kreativitet, mens den holdt den poetiske smag i live.

ChatGPT Premium vs. ChatGPT Gratis

Gratis, at være fri, mangler hastighed og nøjagtighed og er ingen match mod ChatGPT 4, men det er heller ikke helt ubrugeligt.

For at sammenligne det på en jævn grund, kastede jeg de samme prompter til det, som vi har testet Legacy, Default og Update med.

🔵 Matematik: Den løste andengradsligningerne, men gav de forkerte svar for kubikken. (som arven og standarden)

🔵 Logisk ræsonnement: Bestod den første fase med alfabeter og navne, men mislykkedes med den anden (som Legacy).

🔵 Breve: Skrev ikke brevet og anså prompten som uetisk og upassende. (som standard)

🔵 Poesi: Genererede poesi i 30+ ord og forklarede det anstændigt. (svarende til standard).

Så vi kan konkludere, at den gratis version heller ikke er dårlig. Faktisk er den på niveau med Default 3.5 og endnu bedre i nogle aspekter.

Læs også: Kraftige prompter til at løfte din ChatGPT-oplevelse

Vejen frem

Rygter om, at kunstig intelligens erstatter job i fremtiden, er ikke helt forkerte.

For det første gjorde automatisering dette i fremstillingsindustrien, og nu spreder den vinger alle andre steder.

Personligt er det langt hurtigere end mig med at løse kubiske ligninger, skabe poesi eller skrive bogstaver. Men det faktum, at den sjældent siger NEJ til en prompt og næsten ikke lærer af sine fejltagelser, stikker sin vej bag os mennesker.

For at gentage, AI vil ikke erstatte os, men nogen der bruger AI kan.

Her hos toadmin.dk bruger vores marketingteam ChatGPT på interessante måder. For eksempel nåede vi for nylig milepælen på 100 millioner visninger, og vores CEO tænkte på at give det tilbage til publikum via en giveaway.

Og jeg gætter på, at marketingfolkene havde brug for en titel for at fange læserens opmærksomhed. Så de gav en prompt og bad ChatGPT om at foreslå et par variationer, som denne:

Desuden bruger vi det til indholdsopsummering, grammatikkontrol, foreslå titler til nye artikler og andet.

Afslutningsvis er der mange måder at drage fordel af og køre foran stereotyper, der ser AI som et ubrugeligt skrammel.

Den eneste ting at huske er, at der skal være nogen (menneske) til at bedømme AI-arbejde, da det kan være (groft) unøjagtigt og vildledende.

Opdateringen er virkelig noget!

I mit korte møde føltes ChatGPT 4 mere kreativ, forstående og realistisk. Alligevel er dette en maskine og kan give forkerte svar med tillid.

Men det, der er forbløffende, er niveauet af opgradering, som OpenAI har foretaget til dette projekt på blot et par måneder.

Og jeg kan ikke vente med at se den magi, den næste opdatering kan forvirre os med!

PS: Ikke kun et chatvindue; udnyt dens kraft med disse bedste ChatGPT Chrome-udvidelser. Og har du nogensinde tænkt på at integrere ChatGPT med Siri?