Fjöldi forrita og mikilvægi raddviðmóta fer ört vaxandi
Tækni

Fjöldi forrita og mikilvægi raddviðmóta fer ört vaxandi

Bandarísk fjölskylda í Portland í Oregon frétti nýlega að raddaðstoðarmaður Alex tók upp einkaspjall þeirra og sendi þau til vinar síns. Eigandi hússins, kallaður Danielle af fjölmiðlum, sagði við fréttamenn að hún myndi „aldrei tengja þetta tæki aftur vegna þess að henni er ekki hægt að treysta“.

Lesblinda, sem Echo hátalarar (1) og aðrar græjur fá á tugum milljóna heimila í Bandaríkjunum, byrjar að taka upp þegar það heyrir nafnið sitt eða „kallaorð“ talað af notandanum. Þetta þýðir að jafnvel þótt orðið „Alexa“ sé nefnt í sjónvarpsauglýsingu gæti tækið hafið upptöku. Það er nákvæmlega það sem gerðist í þessu tilfelli, segir Amazon, dreifingaraðili vélbúnaðar.

„Afgangurinn af samtalinu var túlkaður af raddaðstoðarmanninum sem skipun um að senda skilaboð,“ sagði í yfirlýsingu frá fyrirtækinu. „Á einhverjum tímapunkti spurði Alexa hátt: „Til hvers? Framhald fjölskylduspjallsins um harðviðargólf ætti að hafa verið skynjað af vélinni sem hlut á tengiliðalista viðskiptavinarins.“ Það er allavega það sem Amazon heldur. Þannig minnkar þýðingin niður í röð slysa.

Kvíðinn er þó áfram. Vegna þess að af einhverjum ástæðum í húsi þar sem okkur leið enn vel, verðum við að fara í einhvers konar „raddstillingu“, horfa á það sem við segjum, hvað sjónvarpið sendir út og auðvitað hvað þessi nýi hátalari er á kommóðunni. segir. okkur.

Engu að síður, Þrátt fyrir tækniófullkomleika og áhyggjur af persónuvernd, með auknum vinsældum tækja eins og Amazon Echo, er fólk farið að venjast hugmyndinni um að hafa samskipti við tölvur með rödd sinni..

Eins og Werner Vogels, tæknistjóri Amazon, benti á á AWS re:Invent fundi sínum síðla árs 2017, hefur tæknin hingað til takmarkað getu okkar til að hafa samskipti við tölvur. Við sláum inn leitarorð inn á Google með lyklaborðinu, þar sem þetta er enn algengasta og auðveldasta leiðin til að slá inn upplýsingar í vél.

sagði Vogels. -

stórir fjórir

Þegar Google leitarvélin var notuð í símanum tókum við líklega eftir hljóðnemaskilti með því að hringja um að tala fyrir löngu síðan. Þetta Google núna (2), sem getur mælt fyrir um leitarfyrirspurn, slegið inn skilaboð með rödd osfrv. Á undanförnum árum hafa Google, Apple og Amazon batnað verulega raddþekkingartækni. Raddaðstoðarmenn eins og Alexa, Siri og Google Assistant taka ekki aðeins upp röddina þína heldur skilja líka hvað þú segir við þá og svara spurningum.

Google Now er ókeypis fyrir alla Android notendur. Forritið getur til dæmis stillt vekjara, athugað veðurspána og kannað leiðina á Google maps. Samtalsframlenging á Google Now ríkjum Google aðstoðarmaður () – sýndaraðstoð við notanda búnaðarins. Það er aðallega fáanlegt í farsímum og snjalltækjum. Ólíkt Google Now getur það tekið þátt í tvíhliða skipti. Aðstoðarmaðurinn frumsýndi í maí 2016 sem hluti af Google skilaboðaappinu Allo, sem og í Google Home raddhátalara (3).

3. Google Home

IOS kerfið hefur líka sinn eigin sýndaraðstoðarmann, Siri, sem er forrit sem fylgir Apple stýrikerfum iOS, watchOS, tvOS homepod og macOS. Siri frumsýndi með iOS 5 og iPhone 4s í október 2011 á Let's Talk iPhone ráðstefnunni.

Hugbúnaðurinn er byggður á samtalsviðmóti: hann þekkir náttúrulegt tal notandans (með iOS 11 er einnig hægt að slá inn skipanir handvirkt), svarar spurningum og klárar verkefni. Þökk sé innleiðingu vélanáms, aðstoðarmaður með tímanum greinir persónulegar óskir notandann til að veita viðeigandi niðurstöður og ráðleggingar. Siri krefst stöðugrar nettengingar - helstu upplýsingaveiturnar hér eru Bing og Wolfram Alpha. iOS 10 kynnti stuðning fyrir viðbætur frá þriðja aðila.

Annar einn af stóru fjórum Cortana. Það er greindur persónulegur aðstoðarmaður búinn til af Microsoft. Það er stutt á Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android og iOS kerfum. Cortana var fyrst kynnt á Microsoft Build Developer ráðstefnunni í apríl 2014 í San Francisco. Nafn forritsins kemur frá nafni persónu úr Halo leikjaseríunni. Cortana er fáanlegt á ensku, ítölsku, spænsku, frönsku, þýsku, kínversku og japönsku.

Notendur áðurnefnds forrits Lesblinda þeir verða líka að huga að tungumálatakmörkunum - stafræni aðstoðarmaðurinn talar aðeins ensku, þýsku, frönsku og japönsku.

Amazon sýndaraðstoðarmaðurinn var fyrst notaður í Amazon Echo og Amazon Echo Dot snjallhátölurunum sem voru þróaðir af Amazon Lab126. Það veitir raddsamskipti, tónlistarspilun, gerð verkefnalista, viðvörunarstillingu, streymi podcasts, hljóðbókaspilun og rauntíma veður, umferð, íþróttir og aðrar fréttir eins og fréttir (4). Alexa getur stjórnað mörgum snjalltækjum til að búa til sjálfvirknikerfi heima. Það er líka hægt að nota til að gera þægilegan innkaup í Amazon versluninni.

4. Til hvers notendur nota Echo (samkvæmt rannsóknum)

Notendur geta aukið upplifun Alexa með því að setja upp Alexa „færni“ (), viðbótareiginleika þróaðar af þriðju aðilum, oftar nefnd öpp eins og veður- og hljóðforrit í öðrum stillingum. Flest Alexa tæki gera þér kleift að virkja sýndaraðstoðarmanninn þinn með vökulykilorði, sem kallast .

Amazon drottnar örugglega yfir snjallhátalaramarkaðnum í dag (5). IBM, sem kynnti nýja þjónustu í mars 2018, er að reyna að komast inn í fjögur efstu sætin Aðstoðarmaður Watsons, hannað fyrir fyrirtæki sem vilja búa til eigin kerfi sýndaraðstoðarmanna með raddstýringu. Hver er kosturinn við IBM lausnina? Að sögn forsvarsmanna fyrirtækisins, fyrst og fremst, um mun meiri möguleika á persónugerð og persónuvernd.

Í fyrsta lagi er Watson Assistant ekki vörumerki. Fyrirtæki geta búið til sínar eigin lausnir á þessum vettvangi og merkt þær með eigin vörumerki.

Í öðru lagi geta þeir þjálfað hjálparkerfi sín með því að nota eigin gagnasöfn, sem IBM segir gera það auðveldara að bæta aðgerðum og skipunum við það kerfi en önnur VUI (raddnotendaviðmót) tækni.

Í þriðja lagi veitir Watson Assistant IBM ekki upplýsingar um virkni notenda - forritarar lausna á pallinum geta aðeins haldið verðmætum gögnum fyrir sig. Á sama tíma ættu allir sem smíða tæki, til dæmis með Alexa, að vera meðvitaðir um að dýrmæt gögn þeirra munu enda á Amazon.

Watson Assistant hefur nú þegar nokkrar útfærslur. Kerfið var til dæmis notað af Harman sem bjó til raddaðstoðarmann fyrir Maserati hugmyndabílinn (6). Á flugvellinum í München knýr aðstoðarmaður IBM Pepper vélmenni til að hjálpa farþegum að fara um. Þriðja dæmið er Chameleon Technologies, þar sem raddtækni er notuð í snjallheimilismæli.

6. Watson Assistant á Maserati hugmyndabíl

Það er rétt að bæta því við að tæknin sem liggur hér að baki er heldur ekki ný. Watson Assistant inniheldur dulkóðunarmöguleika fyrir núverandi IBM vörur, Watson Conversation og Watson Virtual Agent, auk API fyrir tungumálagreiningu og spjall.

Amazon er ekki aðeins leiðandi í snjallröddtækni heldur er hún að breyta henni í bein viðskipti. Hins vegar hafa sum fyrirtæki gert tilraunir með Echo samþættingu mun fyrr. Sisense, fyrirtæki í BI og greiningariðnaði, kynnti Echo samþættingu í júlí 2016. Aftur á móti ákvað sprotafyrirtækið Roxy að búa til sinn eigin hugbúnað og vélbúnað með raddstýringu fyrir gestrisniiðnaðinn. Fyrr á þessu ári kynnti Synqq glósuforrit sem notar radd- og náttúrulega málvinnslu til að bæta við athugasemdum og dagatalsfærslum án þess að þurfa að slá þær inn á lyklaborð.

Öll þessi litlu fyrirtæki hafa mikinn metnað. Mest af öllu komust þeir þó að því að ekki allir notendur vilja flytja gögnin sín til Amazon, Google, Apple eða Microsoft, sem eru mikilvægustu aðilarnir í uppbyggingu talsamskiptakerfa.

Bandaríkjamenn vilja kaupa

Árið 2016 var raddleit 20% allra farsímaleita á Google. Fólk sem notar þessa tækni daglega nefnir þægindi hennar og fjölverkavinnsla meðal stærstu kostanna. (t.d. möguleikinn á að nota leitarvél á meðan þú keyrir bíl).

Sérfræðingar Visiongain áætla núverandi markaðsvirði snjallra stafrænna aðstoðarmanna á $1,138 milljarða. Það eru fleiri og fleiri slíkar aðferðir. Samkvæmt Gartner, í lok árs 2018 þegar 30% af samskiptum okkar með tækni verður í gegnum samtöl við talkerfi.

Breska rannsóknarfyrirtækið IHS Markit áætlar að markaður fyrir gervigreindarkenndan stafræna aðstoðarmenn muni ná 4 milljörðum tækja í lok þessa árs og sú tala gæti hækkað í 2020 milljarða árið 7.

Samkvæmt skýrslum frá eMarketer og VoiceLabs notuðu 2017 milljónir Bandaríkjamanna raddstýringu að minnsta kosti einu sinni í mánuði árið 35,6. Þetta þýðir tæplega 130% aukningu frá fyrra ári. Gert er ráð fyrir að stafræni aðstoðarmarkaðurinn einn muni vaxa um 2018% árið 23. Þetta þýðir að þú munt nú þegar nota þau. 60,5 milljónir Bandaríkjamanna, sem mun skila sér í steypufé fyrir framleiðendur þeirra. RBC Capital Markets áætlar að Alexa viðmótið muni skila allt að $2020 milljörðum í tekjur fyrir Amazon árið 10.

Þvoið, bakið, þrífið!

Raddviðmót fara sífellt djarfari inn á heimilistæki og neytenda raftæki. Þetta sást nú þegar á IFA 2017 sýningunni í fyrra. Bandaríska fyrirtækið Neato Robotics kynnti til dæmis vélmenna ryksugu sem tengist einum af nokkrum snjallheimilum, þar á meðal Amazon Echo kerfinu. Með því að tala við Echo snjallhátalarann ​​geturðu gefið vélinni fyrirmæli um að þrífa allt húsið þitt á ákveðnum tímum dags eða nætur.

Aðrar raddstýrðar vörur voru sýndar á sýningunni, allt frá snjallsjónvörpum sem seld eru undir Toshiba vörumerkinu af tyrkneska fyrirtækinu Vestel til upphitaðra teppa frá þýska fyrirtækinu Beurer. Mörg þessara rafeindatækja er einnig hægt að virkja fjarstýrt með snjallsímum.

Hins vegar, að sögn forsvarsmanna Bosch, er of snemmt að segja til um hvaða valmöguleikar heimaaðstoðarmanna verða ráðandi. Á IFA 2017 sýndi þýskur tæknihópur þvottavélar (7), ofna og kaffivélar sem tengjast Echo. Bosch vill líka að tæki sín séu samhæf við Google og Apple raddkerfi í framtíðinni.

7. Bosch þvottavél sem tengist Amazon Echo

Fyrirtæki eins og Fujitsu, Sony og Panasonic eru að þróa sínar eigin AI-undirstaða raddaðstoðarlausnir. Sharp bætir þessari tækni við ofna og lítil vélmenni sem koma inn á markaðinn. Nippon Telegraph & Telephone er að ráða vélbúnaðar- og leikfangaframleiðendur til að aðlaga raddstýrt gervigreindarkerfi.

Gamalt hugtak. Er hennar tími loksins kominn?

Reyndar hefur hugmyndin um raddnotendaviðmót (VUI) verið til í áratugi. Allir sem horfðu á Star Trek eða 2001: A Space Odyssey fyrir árum bjuggust líklega við því að um árið 2000 myndum við öll stjórna tölvum með rödd okkar. Einnig voru það ekki bara vísindaskáldsagnahöfundar sem sáu möguleika þessa tegundar viðmóts. Árið 1986 spurðu Nielsen rannsakendur upplýsingatæknifræðinga hvað þeir héldu að yrði stærsta breytingin á notendaviðmótum fyrir árið 2000. Þeir bentu oftast á þróun raddviðmóta.

Það er ástæða til að vonast eftir slíkri lausn. Munnleg samskipti eru, þegar allt kemur til alls, eðlilegasta leiðin fyrir fólk til að skiptast meðvitað á hugsunum, þannig að það virðist vera besta lausnin hingað til að nota þau í samskiptum manna og véla.

Einn af fyrstu VUI, sem heitir skókassa, var búið til snemma á sjöunda áratugnum af IBM. Það var forveri raddþekkingarkerfa nútímans. Hins vegar var þróun VUI tækja takmörkuð af takmörkum tölvuorku. Að flokka og túlka mannlegt tal í rauntíma krefst mikillar fyrirhafnar og það tók meira en fimmtíu ár að komast á þann stað að það varð raunverulega mögulegt.

Tæki með raddviðmóti fóru að birtast í fjöldaframleiðslu um miðjan tíunda áratuginn en náðu ekki vinsældum. Fyrsti síminn með raddstýringu (hringingu) var Philips Sparkgefin út árið 1996. Hins vegar var þetta nýstárlega og auðvelt í notkun tæki ekki laust við tæknilegar takmarkanir.

Aðrir símar búnir raddviðmóti (búnir til af fyrirtækjum eins og RIM, Samsung eða Motorola) koma reglulega á markaðinn, sem gerir notendum kleift að hringja með rödd eða senda textaskilaboð. Allar þurftu þær hins vegar að leggja á minnið sérstakar skipanir og bera þær fram á þvinguðu, gerviformi, aðlagað að getu tækja þess tíma. Þetta leiddi til fjölda villna, sem aftur leiddi til óánægju notenda.

Hins vegar erum við að ganga inn í nýtt tímabil tölvunar, þar sem framfarir í vélanámi og gervigreind eru að opna möguleika samtals sem nýja leið til að hafa samskipti við tækni (8). Fjöldi tækja sem styðja raddsamskipti er orðinn mikilvægur þáttur sem hefur haft mikil áhrif á þróun VUI. Í dag á næstum 1/3 jarðarbúa nú þegar snjallsíma sem hægt er að nota við þessa tegund hegðunar. Það lítur út fyrir að flestir notendur séu loksins tilbúnir til að aðlaga raddviðmót sín.

8. Nútíma saga þróun raddviðmótsins

Hins vegar, áður en við getum talað frjálslega við tölvu, eins og persónurnar í A Space Odyssey gerðu, verðum við að sigrast á ýmsum vandamálum. Vélar eru samt ekki mjög góðar í að meðhöndla tungumála blæbrigði. Að auki mörgum finnst enn óþægilegt að gefa raddskipanir í leitarvél.

Tölfræði sýnir að raddaðstoðarmenn eru fyrst og fremst notaðir heima eða meðal náinna vina. Enginn þeirra sem rætt var við viðurkenndi að hafa notað raddleit á opinberum stöðum. Hins vegar er líklegt að þessi hindrun hverfi með útbreiðslu þessarar tækni.

tæknilega erfið spurning

Vandamálið sem kerfi (ASR) standa frammi fyrir er að vinna gagnleg gögn úr talmerki og tengja þau við ákveðið orð sem hefur ákveðna merkingu fyrir manneskju. Hljóðin sem myndast eru mismunandi hverju sinni.

Breytileiki talmerkja er náttúruleg eign þess, þökk sé henni, til dæmis, þekkjum við hreim eða tónfall. Hver þáttur í talgreiningarkerfinu hefur ákveðið verkefni. Byggt á unnnu merkinu og breytum þess er hljóðlíkan búið til sem tengist tungumálalíkaninu. Viðurkenningarkerfið getur unnið út frá litlum eða miklum fjölda mynstra, sem ákvarðar stærð orðaforða sem það vinnur með. Þeir geta verið litlar orðabækur þegar um er að ræða kerfi sem þekkja einstök orð eða skipanir, sem og stórir gagnagrunnar innihalda ígildi málmengunnar og að teknu tilliti til mállíkansins (málfræði).

Vandamál sem raddviðmót standa frammi fyrir í fyrsta lagi skilja tal rétt, þar sem td heilum málfræðiröðum er oft sleppt, koma fram mál- og hljóðvillur, villur, sleppingar, talgalla, samheiti, óréttmætar endurtekningar o.s.frv.. Öll þessi ACP-kerfi verða að virka hratt og áreiðanlega. Það eru allavega væntingarnar.

Uppspretta erfiðleika eru einnig önnur hljóðmerki en hið viðurkennda tal sem koma inn í inntak auðkenningarkerfisins, þ.e. allar tegundir truflunum og hávaða. Í einfaldasta tilvikinu þarftu þá sía út. Þetta verkefni virðist venjubundið og auðvelt - þegar allt kemur til alls eru ýmis merki síuð og sérhver rafeindatæknifræðingur veit hvað hann á að gera í slíkum aðstæðum. Hins vegar verður að gera þetta mjög varlega og vandlega ef niðurstaða talgreiningar á að standast væntingar okkar.

Sían sem nú er notuð gerir það mögulegt að fjarlægja, ásamt talmerkinu, utanaðkomandi hávaða sem hljóðneminn tekur upp og innri eiginleika talmerksins sjálfs, sem gerir það erfitt að þekkja það. Hins vegar, mun flóknara tæknilegt vandamál kemur upp þegar truflun á greindu talmerkinu er ... annað talmerki, það er til dæmis háværar umræður í kring. Þessi spurning er þekkt í bókmenntum sem svokölluð . Til þess þarf nú þegar að beita flóknum aðferðum, svokölluðum. deconvolution (afhjúpa) merkið.

Vandamálunum með talgreiningu er ekki lokið þar. Það er þess virði að átta sig á því að tal hefur margar mismunandi tegundir upplýsinga. Mannsröddin gefur til kynna kyn, aldur, mismunandi persónur eigandans eða heilsufar hans. Þar er umfangsmikil lífeðlisfræðideild sem fæst við greiningu á ýmsum sjúkdómum út frá einkennandi hljóðeinangruðum fyrirbærum sem finnast í talmerkinu.

Það eru líka til forrit þar sem megintilgangur hljóðgreiningar á talmerki er að bera kennsl á hátalarann ​​eða sannreyna að hann sé sá sem hann segist vera (rödd í stað lykils, lykilorðs eða PUK kóða). Þetta getur verið mikilvægt, sérstaklega fyrir snjalla byggingartækni.

Fyrsti hluti af talgreiningarkerfi er микрофон. Hins vegar er merkið sem hljóðneminn tekur upp yfirleitt lítið gagn. Rannsóknir sýna að lögun og gang hljóðbylgjunnar er mjög breytileg eftir einstaklingi, málhraða og að hluta til skapi viðmælanda - en að litlu leyti endurspegla þau sjálft innihald hinna töluðu skipana.

Þess vegna verður að vinna merki á réttan hátt. Nútíma hljóðfræði, hljóðfræði og tölvunarfræði gefa saman mikið verkfæri sem hægt er að nota til að vinna úr, greina, þekkja og skilja talmerki. Kvikt litróf merkisins, svokallaða kraftmikil litróf. Það er frekar auðvelt að ná þeim og tal, sett fram í formi kviks litrófs, er tiltölulega auðvelt að þekkja með því að nota svipaða tækni og notuð er við myndgreiningu.

Einfalda þætti talsins (til dæmis skipanir) er hægt að þekkja á einföldum líkindum heilra litrófanna. Sem dæmi má nefna að raddstýrð farsímaorðabók inniheldur aðeins nokkra tugi til nokkur hundruð orð og orðasambönd, venjulega fyrirfram staflað þannig að hægt sé að bera kennsl á þau á auðveldan og skilvirkan hátt. Þetta er nóg fyrir einföld eftirlitsverkefni, en það takmarkar verulega heildarnotkunina. Kerfi sem eru byggð í samræmi við kerfið styðja að jafnaði aðeins tiltekna hátalara sem raddir eru sérstaklega þjálfaðar fyrir. Þannig að ef það er einhver nýr sem vill nota rödd sína til að stjórna kerfinu þá verður hann líklegast ekki samþykktur.

Niðurstaða þessarar aðgerðar er kölluð litróf 2-W, það er tvívítt litróf. Það er önnur starfsemi í þessari blokk sem vert er að gefa gaum - skiptingu. Almennt séð erum við að tala um að skipta upp samfelldu talmerki í hluta sem hægt er að þekkja sérstaklega. Það er aðeins út frá þessum einstaklingsgreiningum sem viðurkenning á heildinni er gerð. Þessi aðferð er nauðsynleg vegna þess að ekki er hægt að bera kennsl á langa og flókna ræðu í einu lagi. Nú þegar hefur verið skrifað heilu bindi um hvaða hluti eigi að greina í talmerki, þannig að við munum ekki ákveða núna hvort aðgreindu hlutarnir eigi að vera hljóðhljóð (hljóðjafngildi), atkvæði eða kannski allófónar.

Ferlið sjálfvirkrar viðurkenningar vísar alltaf til sumra eiginleika hluta. Hundruð sett af mismunandi breytum hafa verið prófuð fyrir talmerkið. Talmerkið hefur skipt í viðurkennda ramma og hafa valdir eiginleikarþar sem þessir rammar eru kynntir í viðurkenningarferlinu, getum við framkvæmt (fyrir hvern ramma fyrir sig) flokkun, þ.e. úthluta auðkenni á rammann, sem mun tákna hann í framtíðinni.

Næsta áfangi samsetning ramma í aðskilin orð - oftast byggt á svokölluðu. líkan af óbeinum Markov módelum (HMM-). Svo kemur uppsetning orða heilar setningar.

Við getum nú farið aftur í Alexa kerfið í smá stund. Dæmi hans sýnir margra þrepa ferli vélræns „skilnings“ á manneskju - nánar tiltekið: skipun sem hann gefur eða spurning sem hann hefur spurt.

Að skilja orð, skilja merkingu og skilja tilgang notenda eru allt aðrir hlutir.

Þess vegna er næsta skref vinna NLP einingarinnar (), verkefni sem er viðurkenning notanda, þ.e. merkingu skipunarinnar/spurningarinnar í því samhengi sem hún var sögð. Ef ætlunin er auðkennd, þá úthlutun svokallaðrar færni og getu, þ.e.a.s. sértæka eiginleikann sem snjallaðstoðarmaðurinn styður. Ef um er að ræða spurningu um veður er hringt í veðuruppsprettur, sem á eftir að vinna í tal (TTS - mechanism). Fyrir vikið heyrir notandinn svarið við spurningunni.

Rödd? Grafík? Eða kannski bæði?

Flest þekkt nútíma samskiptakerfi eru byggð á milliliði sem kallast grafísku notendaviðmóti (grafískt viðmót). Því miður er GUI ekki augljósasta leiðin til að hafa samskipti við stafræna vöru. Þetta krefst þess að notendur læri fyrst hvernig á að nota viðmótið og muna þessar upplýsingar við hverja síðari samskipti. Í mörgum aðstæðum er rödd miklu þægilegri, því þú getur átt samskipti við VUI einfaldlega með því að tala við tækið. Viðmót sem neyðir ekki notendur til að leggja á minnið og leggja á minnið ákveðnar skipanir eða samskiptaaðferðir veldur færri vandamálum.

Auðvitað þýðir stækkun VUI ekki að yfirgefa hefðbundnari viðmót - heldur verða blendingsviðmót í boði sem sameina nokkrar leiðir til að hafa samskipti.

Raddviðmótið hentar ekki öllum verkefnum í farsímasamhengi. Með því munum við hringja í vin sem keyrir bíl, og jafnvel senda honum SMS, en að athuga nýjustu millifærslur getur verið of erfitt - vegna magns upplýsinga sem sendar eru til kerfisins () og myndast af kerfinu (kerfi). Eins og Rachel Hinman bendir á í bók sinni Mobile Frontier, verður notkun VUI áhrifaríkust þegar unnið er að verkefnum þar sem magn inn- og úttaksupplýsinga er lítið.

Snjallsími sem er tengdur við internetið er þægilegur en líka óþægilegur (9). Í hvert skipti sem notandi vill kaupa eitthvað eða nota nýja þjónustu þarf hann að hlaða niður öðru forriti og búa til nýjan reikning. Hér hefur verið búið til svið fyrir notkun og þróun raddviðmóta. Í stað þess að neyða notendur til að setja upp mörg mismunandi öpp eða búa til aðskilda reikninga fyrir hverja þjónustu, segja sérfræðingar að VUI muni færa byrðina af þessum fyrirferðarmiklu verkum yfir á gervigreindan raddaðstoðarmann. Það mun vera þægilegt fyrir hann að framkvæma erfiðar athafnir. Við munum aðeins gefa honum skipanir.

9. Raddviðmót í gegnum snjallsíma

Í dag er meira en bara sími og tölva tengd við internetið. Snjallhitastillar, ljós, katlar og mörg önnur IoT-samþætt tæki eru einnig tengd við netið (10). Þannig eru þráðlaus tæki allt í kringum okkur sem fylla líf okkar, en þau passa ekki öll náttúrulega inn í grafíska notendaviðmótið. Notkun VUI mun hjálpa þér að samþætta þau auðveldlega í umhverfi okkar.

10. Raddviðmót við Internet hlutanna

Að búa til raddnotendaviðmót mun fljótlega verða lykilhönnuður. Þetta er raunverulegt vandamál - þörfin á að innleiða raddkerfi mun hvetja þig til að einbeita þér meira að fyrirbyggjandi hönnun, það er að reyna að skilja upphaflegar fyrirætlanir notandans, sjá fyrir þarfir þeirra og væntingar á hverju stigi samtalsins.

Rödd er skilvirk leið til að slá inn gögn - hún gerir notendum kleift að gefa fljótt út skipanir í kerfið á eigin forsendum. Á hinn bóginn býður skjárinn upp á skilvirka leið til að birta upplýsingar: hann gerir kerfum kleift að birta mikið magn upplýsinga á sama tíma, sem dregur úr álagi á minni notenda. Það er rökrétt að sameina þau í eitt kerfi hljómar hvetjandi.

Snjallhátalarar eins og Amazon Echo og Google Home bjóða alls ekki upp á sjónrænan skjá. Þeir bæta verulega nákvæmni raddgreiningar í hóflegum fjarlægðum og leyfa handfrjálsan rekstur, sem aftur eykur sveigjanleika þeirra og skilvirkni - þeir eru æskilegir jafnvel fyrir notendur sem eru nú þegar með snjallsíma með raddstýringu. Hins vegar er skortur á skjá gríðarleg takmörkun.

Aðeins er hægt að nota píp til að upplýsa notendur um mögulegar skipanir og að lesa úttakið upphátt verður leiðinlegt að undanskildum helstu verkefnum. Það er frábært að stilla tímamæli með raddskipun á meðan eldað er, en það er ekki nauðsynlegt að láta þig spyrja hversu mikill tími er eftir. Að fá reglulega veðurspá verður minnisprófun fyrir notandann, sem þarf að hlusta og gleypa í sig röð staðreynda alla vikuna, frekar en að taka þær upp af skjánum í fljótu bragði.

Hönnuðir hafa þegar blendingslausn, Echo Show (11), sem bætti skjáskjá við grunn Echo snjallhátalarann. Þetta eykur verulega virkni búnaðarins. Hins vegar er Echo Show enn mun minna fær um að framkvæma grunnaðgerðirnar sem hafa lengi verið tiltækar á snjallsímum og spjaldtölvum. Það getur (ennþá) ekki vafrað á vefnum, sýnt umsagnir eða birt innihald innkaupakörfu frá Amazon, til dæmis.

Sjónræn skjár er í eðli sínu áhrifaríkari leið til að veita fólki mikið af upplýsingum en bara hljóð. Að hanna með raddforgangi getur bætt raddsamskipti til muna, en til lengri tíma litið mun það að nota ekki sjónræna valmyndina af geðþótta til samskipta vegna vera eins og að berjast með aðra hönd bundið fyrir aftan bak. Vegna yfirvofandi margbreytileika greindra radd- og skjáviðmóta frá enda til enda, ættu verktaki að íhuga alvarlega blendingsaðferð við viðmót.

Með því að auka skilvirkni og hraða talmyndunar og auðkenningarkerfa hefur verið hægt að nota þau í slíkum forritum og svæðum eins og td:

• her (radskipanir í flugvélum eða þyrlum, td F16 VISTA),

• sjálfvirk textaumritun (tal í texta),

• gagnvirk upplýsingakerfi (Prime Speech, raddgáttir),

• fartæki (símar, snjallsímar, spjaldtölvur),

• vélfærafræði (Cleverbot - ASR kerfi ásamt gervigreind),

• bifreiða (handfrjáls stjórn á íhlutum bíla, eins og Blue & Me),

• heimilisforrit (snjallheimakerfi).

Passaðu þig á öryggi!

Bílar, heimilistæki, hita-/kæli- og öryggiskerfi fyrir heimili og fjöldi heimilistækja eru farin að nota raddviðmót, oft byggt á gervigreind. Á þessu stigi eru gögnin sem fást úr milljónum samtöla við vélar send til tölvuský. Það er greinilegt að markaðsfólk hefur áhuga á þeim. Og ekki bara þeir.

Í nýlegri skýrslu frá Symantec öryggissérfræðingum er mælt með því að raddskipunarnotendur stjórni ekki öryggiseiginleikum eins og hurðalásum, hvað þá öryggiskerfum heima. Sama gildir um að geyma lykilorð eða trúnaðarupplýsingar. Öryggi gervigreindar og snjallvöru hefur ekki enn verið nægilega rannsakað.

Þegar tæki á öllu heimilinu hlusta á hvert orð verður hættan á innbroti og misnotkun á kerfinu afar mikilvægt mál. Ef árásarmaður fær aðgang að staðarnetinu eða tengdum netföngum þess er hægt að breyta snjalltækjastillingunum eða endurstilla þær í verksmiðjustillingar, sem leiðir til þess að dýrmætar upplýsingar glatast og notendasögu er eytt.

Með öðrum orðum óttast öryggissérfræðingar að rödd og VUI-drifin gervigreind sé ekki enn nógu snjöll til að vernda okkur fyrir hugsanlegum ógnum og halda munni okkar þegar ókunnugur maður biður um eitthvað.

Bæta við athugasemd