Kakšni so ključni načini za avtomatizacijo in optimizacijo procesov na področju podatkov? googletag.cmd.push (funkcija () {googletag.display (div-gpt-ad-1562928221186-0);}); V:

Vsebina

V:

Kakšni so ključni načini za avtomatizacijo in optimizacijo procesov na področju podatkov?

A:

Podatkovne procese v zvezi s strojnim učenjem in AI lahko razdelimo na štiri različne faze:

pridobivanje in raziskovanje podatkov,
oblikovanje modelov,
uvajanje modela in
spletno ocenjevanje in izpopolnjevanje.

Po mojih izkušnjah so najbolj ovirane faze zbiranja podatkov in faze uvajanja modelov v kateri koli proces strojnega učenja, temelječega na znanju podatkov, in tukaj sta dva načina za njihovo optimizacijo:

1. Vzpostavite visoko dostopno shrambo podatkov.

V večini organizacij se podatki ne hranijo na enem osrednjem mestu. Vzemimo informacije, povezane s strankami. Če imate podjetje spletno aplikacijo, imate podatke za stik s strankami, podporo za stranke, povratne informacije in zgodovino brskanja. Vsi ti podatki so naravno razpršeni, saj služijo različnim namenom. Lahko se nahajajo v različnih bazah podatkov, nekatere pa so lahko v celoti strukturirane, nekatere pa nestrukturirane in so celo shranjene kot navadne datoteke.

Na žalost razpršenost teh nizov podatkov zelo omejuje na podatkovno delo, saj je osnova vseh NLP, strojnega učenja in AI problemov podatkov. Torej, imeti vse te podatke na enem mestu - shrambi podatkov - je najpomembnejše pri pospeševanju razvoja in uvajanja modelov. Glede na to, da je to ključni del vseh procesov na področju podatkov, bi morale organizacije najeti usposobljene inženirje, ki jim bodo pomagali pri gradnji svojih podatkovnih trgovin. To se lahko preprosto začne s preprostim odlaganjem podatkov na eno lokacijo in počasi preraste v dobro premišljeno shrambo podatkov, ki je v celoti dokumentirana in se lahko sprašuje s pripomočki za orodja za izvoz podmnožic podatkov v različne formate za različne namene.

2. Izpostavite svoje modele kot storitev za brezhibno integracijo.

Poleg omogočanja dostopa do podatkov je pomembno tudi, da lahko v izdelek vključimo modele, ki so jih razvili znanstveniki s področja podatkov. Zelo težko je integrirati modele, razvite v Pythonu, s spletno aplikacijo, ki deluje na Rubyju. Poleg tega imajo lahko modeli veliko podatkovnih odvisnosti, ki jih vaš izdelek morda ne bo mogel zagotoviti.

Eden od načinov za reševanje tega vprašanja je, da postavite močno infrastrukturo okoli svojega modela in izpostavite ravno toliko funkcionalnosti, ki jih potrebuje vaš izdelek, da lahko model uporabljate kot "spletno storitev". Na primer, če vaša aplikacija potrebuje razvrstitev občutkov na ocene izdelkov Vse, kar bi morali storiti, je sklicevanje na spletno storitev in zagotavljanje ustrezne storitve, ki bi ji vrnilo ustrezno klasifikacijo občutkov, ki jih izdelek lahko neposredno uporablja. Tako je integracija preprosto v obliki klica API. Če ločite model in izdelek, ki ga uporabljate, je zelo enostavno, da novi izdelki, ki jih omislite, prav tako uporabljajo te modele z malo težav.

Zdaj je postavitev infrastrukture okoli vašega modela povsem druga zgodba in zahteva velike začetne naložbe vaših inženirskih skupin. Ko je infrastruktura tam, je le stvar gradnje modelov na način, ki se prilega infrastrukturi.