Okrepitveno učenje lahko lepo dinamično zavrti trženje

Video.: Reinforcement Learning - What, Why and How.

Vsebina

Kaj je okrepitev učenja?
Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje
Stroji za trženje
Prihaja kmalu
Razmišljanje večjega
Pot do posvojitve

Vir: Juliatimchenko / Dreamstime.com

Odvzem:

Okrepitveno učenje je podvrsta umetne inteligence in strojnega učenja, ki lahko napoveduje rezultate in pomaga uporabnikom pri sprejemanju boljših odločitev.

Tržniki nenehno iščejo razširljive in inteligentne rešitve, ko poskušajo pridobiti prednost v vedno bolj konkurenčnih tržnih pogojih. Ni čudno, da umetne inteligence (AI) in strojno učenje (ML) zdaj množično sprejemajo blagovne znamke in njihove marketinške organizacije. (Če želite izvedeti več o osnovah ML, si oglejte Strojno učenje 101.)

Za neuveščene lahko AI na splošno štejemo za tehnologijo, ko računalnik avtomatizira definirane naloge, ki bi jih človek sicer opravil. Strojno učenje kot funkcionalno področje znotraj AI je računalnik, ki ima končni cilj, vendar mora sam izračunati najboljšo pot.

Danes vidimo, da so te tehnologije - predvsem strojno učenje - uporabljene na številnih področjih trženja, vključno z odkrivanjem goljufij oglasov, napovedovanjem vedenja potrošnikov, sistemom priporočil, kreativno personalizacijo in še več.

Čeprav je to dobro in dobro, je na voljo nova tehnologija, ki bo za tržnike resnično uresničila povpraševanje, ki ga ustvarja strojno učenje. Imenuje se „okrepljeno učenje“ (RL).

Kaj je okrepitev učenja?

Sprememba koraka od ML do RL je več kot le črka. Večina nalog, ki se predajo strojnemu učenju, vključuje uporabo enega samega koraka, na primer "prepoznati to sliko", "razumeti vsebino knjige" ali "ujeti goljufijo". Za tržnika je poslovni cilj, kot je "privabiti, obdržati in vključiti uporabnike", v osnovi večstopenjsko in dolgoročno, ki ga ni mogoče doseči s strojnim učenjem.

Tukaj prihaja do okrepljenega učenja. Algoritmi RL vsebujejo optimizacijo za odkrivanje in nenehno spreminjajoče se potovanje - tisto, kjer se pojavijo dinamične težave. Z uporabo matematične „funkcije nagrajevanja“ za izračun rezultata vsake permutacije lahko RL pogleda v prihodnost in izvede pravi klic.

Danes je najboljše utelešenje te vrhunske tehnologije videti v igrah in samovozečih avtomobilih. Ko je lani Googlov sistem AlphaGo premagal najboljšega svetovnega igralca družabne igre Pojdi lani, je bila njihova skrivna omaka okrepitev učenja. Medtem ko igre postavljajo pravila, se igralčeve možnosti za pot do zmage dinamično spreminjajo glede na stanje plošče. Sistem učenja z okrepitvijo upošteva vse možne permutacije, ki se lahko spremenijo glede na vsako naslednjo potezo.

Podobno se z lastnim vozilom odpravi na pot, na kateri pravila ceste in lokacija cilja ostanejo nespremenjena, vendar se spremenljivke na poti - od pešcev do cestnih blokov do kolesarjev - dinamično spreminjajo. Zato OpenAI, organizacija, ki jo je ustanovil Teslin Elon Musk, uporablja napredne algoritme RL za svoja vozila.

Brez napak, brez stresa - vaš korak za korakom vodnik za ustvarjanje programske opreme, ki spreminja življenje, ne da bi vam uničila življenje

Ne morete izboljšati svojih programskih veščin, kadar nikogar ne skrbi za kakovost programske opreme.

Stroji za trženje

Kaj vse to pomeni za tržnike?

Ključne izzive številnih trgovcev ustvarja dejstvo, da se poslovno stanje ves čas spreminja. Zmagovalna strategija kampanje lahko sčasoma postane neugodna, stara strategija pa lahko pridobi novo privlačnost. RL je korak k posnemanju resnične človeške inteligence, kjer se učimo iz uspeha in / ali neuspeha več rezultatov in oblikujemo zmagovalno strategijo prihodnosti. Naj navedem nekaj primerov:

1. Izboljšanje uporabnikovega angažmaja

Osredotočimo se na udejstvovanje kupcev v verigi restavracij in cilj, da ga v naslednjem letu desetkratno pomnožimo. Danes bi marketinška kampanja lahko vključevala pozdrav za rojstni dan s ponudbo za popust, morda celo na podlagi preferenc hrane. To je linearno razmišljanje, kjer je tržnik določil začetno in končno točko.

V prometnem svetu se življenje strank v realnem času nenehno spreminja - včasih so bolj angažirani, včasih manj. Pri okrepljenem učenju bi sistem nenehno znova dokazoval, katere taktike v marketinškem orožju imajo v vsakem trenutku najboljše možnosti, da prejemnika premaknejo k končnemu cilju 10-kratne angažiranosti.

2. Dinamična dodelitev proračuna

Zdaj si predstavljajte oglaševalski scenarij, v katerem imate proračun za milijon dolarjev in ga morate porabiti vsak dan do konca meseca, dodeljen na štiri različne kanale: TV, promocije zvestobe in Google. Kako lahko zagotovite, da porabite proračun na najbolj optimalen način? Odgovor je odvisen od dneva, ciljnih uporabnikov, cene zalog in številnih drugih dejavnikov.

Pri učenju okrepitve bi algoritmi uporabili pretekle podatke o rezultatih oglasov za pisanje funkcij nagrajevanja, na podlagi katerih so določene določene odločitve o porabi. Upoštevajo pa tudi dejavnike v realnem času, kot so cene in verjetnost pozitivnega sprejema s strani ciljnega občinstva. Z iterativnim učenjem bi se razporeditev porabe za oglas skozi mesec dinamično spremenila. Čeprav je končni cilj zastavljen, bo RL dodelil proračun na najboljši možni način v vseh scenarijih. (Za več informacij o AI v marketingu glejte, kako bo umetna inteligenca spremenila prodajno industrijo.)

Prihaja kmalu

Okrepitveno učenje priznava zapletenost in priznava, da so ljudje raznoliki in upošteva te resnice, s čimer se izboljšuje vsako naslednje dejanje s časom, ko se koščki vaše igralne plošče spreminjajo okoli njega.

Okrepitveno učenje je še vedno v veliki meri zaloga raziskovalnih projektov in vodilnih posvojiteljev. Koncept in tehnika matematike obstajata že več kot 40 let, vendar ga zaradi treh trendov ni bilo mogoče uporabiti do nedavnega:

Širjenje računalniške moči prek zmogljivih grafičnih procesorskih enot (GPU).
V računalništvu v oblaku so na voljo zmogljive zmogljivosti procesorjev za del stroškov samega nakupa GPU-jev, tretjim strankam pa omogočajo, da najamejo GPU za več ur, dni ali tednov za svoje modele RL po razmeroma ugodni ceni-kleti.
Izboljšanje bodisi številčnih algoritmov bodisi pametne hevristike. Nekaj kritičnih numeričnih korakov algoritma RL se zdaj lahko zbliža z veliko hitrejšim tempom. Brez teh čarobnih številčnih trikov še vedno ne bi bilo izvedljivo, niti pri današnjih najzmogljivejših računalnikih.

Razmišljanje večjega

Vse to pomeni, da bodo nove blagovne znamke okrepljenega učenja kmalu na voljo blagovnim znamkam in trgovcem. Vendar pa bo za sprejetje potreben premik miselnosti. Za vodjo marketinga ta tehnologija pomeni zmožnost, da se odmaknejo s kolesa.

Vsak posel ima cilj, toda ko ste globoko v rovih, lahko vsakodnevna dejanja, dosežena za ta cilj, postanejo nejasna. Zdaj bo tehnologija RL nosilcem odločanja omogočila, da si zastavijo cilj in bodo bolj zaupali, da bodo sistemi začrtali svoj najboljši potek.

Na primer pri oglaševanju danes veliko ljudi spozna, da so metrike, kot je razmerje med prikazi in kliki (CTR), le pooblaščenci za resnične poslovne rezultate, štejejo le zato, ker jih je mogoče šteti. Trženjski sistemi, ki jih vodijo RL, bodo odpravili takšne posredniške meritve in vso težko povečanje, ki je povezano z njimi, kar bo šefom omogočilo, da se osredotočijo na cilje.

To bo od podjetij zahtevalo, da o svojih velikih težavah razmišljajo na veliko bolj proaktiven in dolgoročen način. Ko je tehnik zrel, bodo dosegli svoj cilj.

Pot do posvojitve

Okrepitveno učenje še ni pripravljeno za celovito uporabo s strani blagovnih znamk; vendar bi morali tržniki vzeti čas, da razumejo ta nov koncept, ki bi lahko spremenil način trženja blagovnih znamk, s čimer se je dobro obnesel na nekaterih zgodnjih obljubah strojnega učenja.

Ko bo moč prišla, bo prišla trženjska programska oprema z uporabniškim vmesnikom, vendar bodo naloge, ki jih zahteva ta programska oprema, radikalno poenostavljene. Za osebje bo manj premikajočih se stikal in vnosa številk, manj bo tudi branja analitskih poročil in delovanja nanje. Za armaturno ploščo bo algoritem obravnaval večino tega.

Malo je verjetno, da bi se RL lahko človeško inteligenco ujemal neposredno pred vrati. Hitrost njenega razvoja bi bila odvisna od povratnih informacij in predlogov trgovcev. Zagotoviti moramo, da od računalnika zahtevamo, da reši pravo težavo, in ga kaznuje, ko tega ne stori. Sliši se, kako bi učil svojega otroka, kajne?