Sovellusten määrä ja äänirajapintojen merkitys kasvaa nopeasti

Pitoisuus

iso neljä
Amerikkalaiset haluavat ostaa
Pese, leivo, puhdista!
Vanha konsepti. Onko hänen aikansa vihdoin koittanut?
teknisesti vaikea kysymys
Ääni? Graafinen taide? Tai kenties molemmat?
Varo turvallisuutta!

Amerikkalainen perhe Portlandissa Oregonissa sai äskettäin tietää, että Alexin ääniassistentti nauhoitti heidän yksityiset keskustelunsa ja lähetti ne ystävälle. Median Danielleksi kutsuman talon omistaja kertoi toimittajille, ettei hän "ei koskaan kytkeisi laitetta uudelleen, koska häneen ei voi luottaa".

Alexa, jonka Echo (1) -kaiuttimet ja muut laitteet tarjoavat kymmenissä miljoonissa yhdysvaltalaisissa kodeissa, aloittaa nauhoituksen kuultuaan nimensä tai "kutsusanan", jonka käyttäjä puhuu. Tämä tarkoittaa, että vaikka sana "Alexa" mainittaisiin TV-mainoksessa, laite voi aloittaa tallennuksen. Juuri näin tapahtui tässä tapauksessa, sanoo Amazon, laitteiston jakelija.

"Ääniassistentti tulkitsi loput keskustelusta käskyksi lähettää viesti", yhtiö sanoi lausunnossaan. "Jossain vaiheessa Alexa kysyi äänekkäästi: "Kenelle?" Koneen olisi pitänyt kokea parkettiperheen keskustelun jatkuminen asiakkaan yhteystietoluettelon kohteena. Näin ainakin Amazon ajattelee. Siten käännös pelkistyy onnettomuuksien sarjaksi.

Ahdistus kuitenkin säilyy. Koska jostain syystä talossa, jossa tunsimme vielä olonsa kotoisaksi, meidän on siirryttävä jonkinlaiseen "äänitilaan", katsottava mitä sanomme, mitä televisio lähettää ja tietysti mitä tämä uusi kaiutin rinnassa laatikot sanoo. meille.

Kuitenkin, Huolimatta tekniikan puutteista ja tietosuojaongelmista Amazon Echon kaltaisten laitteiden suosion kasvun myötä ihmiset alkavat tottua ajatukseen olla vuorovaikutuksessa tietokoneiden kanssa äänellään..

Kuten Werner Vogels, Amazonin teknologiajohtaja, totesi AWS re:Invent -istunnossaan vuoden 2017 lopulla, teknologia on toistaiseksi rajoittanut kykyämme olla vuorovaikutuksessa tietokoneiden kanssa. Kirjoitamme avainsanoja Googleen näppäimistöllä, sillä tämä on edelleen yleisin ja helpoin tapa syöttää tietoja koneeseen.

Vogels sanoi. -

iso neljä

Puhelimessa Google-hakukonetta käyttäessämme huomasimme luultavasti kauan sitten mikrofonikyltin, jossa kehotettiin puhumaan. Tämä Google nyt (2), joka voi sanella hakukyselyn, kirjoittaa viestin äänellä jne. Viime vuosina Google, Apple ja Amazon ovat kehittyneet huomattavasti äänentunnistustekniikka. Ääniavustajat, kuten Alexa, Siri ja Google Assistant, eivät vain tallenna ääntäsi, vaan myös ymmärtävät, mitä sanot heille ja vastaavat kysymyksiin.

Google Now on kaikkien Android-käyttäjien saatavilla ilmaiseksi. Sovellus voi esimerkiksi asettaa hälytyksen, tarkistaa sääennusteen ja tarkistaa reitin Google mapsista. Google Now -tilojen keskustelulaajennus Google Assistant () – virtuaalinen apu laitteen käyttäjälle. Se on saatavana pääasiassa mobiililaitteille ja älykodin laitteille. Toisin kuin Google Now, se voi osallistua kaksisuuntaiseen vaihtoon. Assistentti debytoi toukokuussa 2016 osana Google-viestisovellusta Alloa sekä Google Home -äänikaiuttimessa (3).

3. Google Home

IOS-järjestelmässä on myös oma virtuaalinen avustaja, Siri, joka on Applen käyttöjärjestelmien iOS, watchOS, tvOS homepod ja macOS mukana tuleva ohjelma. Siri debytoi iOS 5:n ja iPhone 4s:n kanssa lokakuussa 2011 Let's Talk iPhone -konferenssissa.

Ohjelmisto perustuu keskustelukäyttöliittymään: se tunnistaa käyttäjän luonnollisen puheen (iOS 11:ssä on mahdollista myös syöttää komentoja manuaalisesti), vastaa kysymyksiin ja suorittaa tehtäviä. Koneoppimisen käyttöönoton ansiosta ajan mittaan avustaja analysoi henkilökohtaisia mieltymyksiä käyttäjä voi tarjota osuvampia tuloksia ja suosituksia. Siri vaatii jatkuvaa Internet-yhteyttä - tärkeimmät tietolähteet ovat Bing ja Wolfram Alpha. iOS 10 esitteli tuen kolmannen osapuolen laajennuksille.

Toinen neljästä suuresta Cortana. Se on Microsoftin luoma älykäs henkilökohtainen avustaja. Sitä tuetaan Windows 10-, Windows 10 Mobile-, Windows Phone 8.1-, Xbox One-, Skype-, Microsoft Band-, Microsoft Band 2-, Android- ja iOS-alustoilla. Cortana esiteltiin ensimmäisen kerran Microsoft Build Developer Conferencessa huhtikuussa 2014 San Franciscossa. Ohjelman nimi tulee Halo-pelisarjan hahmon nimestä. Cortana on saatavilla englanniksi, italiaksi, espanjaksi, ranskaksi, saksaksi, kiinaksi ja japaniksi.

Jo mainitun ohjelman käyttäjät Alexa heidän on myös otettava huomioon kielirajoitukset - digitaalinen avustaja puhuu vain englantia, saksaa, ranskaa ja japania.

Amazon Virtual Assistantia käytettiin ensimmäisen kerran Amazon Lab126:n kehittämissä Amazon Echo- ja Amazon Echo Dot -älykaiuttimissa. Se mahdollistaa puhevuorovaikutuksen, musiikin toiston, tehtävälistan luomisen, hälytysasetuksen, podcastien suoratoiston, äänikirjan toiston ja reaaliaikaisen sää-, liikenne-, urheilu- ja muut uutiset, kuten uutiset (4). Alexa voi ohjata useita älylaitteita luodakseen kodin automaatiojärjestelmän. Sitä voidaan käyttää myös kätevään ostosten tekemiseen Amazon-kaupassa.

4. Mihin käyttäjät käyttävät kaikua (tutkimuksen mukaan)

Käyttäjät voivat parantaa Alexa-kokemusta asentamalla Alexa "taitoja" (), kolmansien osapuolien kehittämiä lisäominaisuuksia, joita kutsutaan muissa asetuksissa yleisemmin sovelluksiksi, kuten sää- ja ääniohjelmat. Useimmat Alexa-laitteet mahdollistavat virtuaalisen avustajan aktivoinnin herätyssalasanalla, nimeltään .

Amazon hallitsee ehdottomasti älykaiutinmarkkinoita tänään (5). IBM, joka esitteli uuden palvelun maaliskuussa 2018, yrittää päästä neljän parhaan joukkoon Watsonin avustaja, suunniteltu yrityksille, jotka haluavat luoda omia virtuaaliassistentteja ääniohjauksella. Mitä hyötyä IBM-ratkaisusta on? Yrityksen edustajien mukaan ennen kaikkea paljon suuremmista personointimahdollisuuksista ja yksityisyyden suojasta.

Ensinnäkin Watson Assistantilla ei ole tuotemerkkiä. Yritykset voivat luoda omia ratkaisujaan tälle alustalle ja merkitä ne omalla brändillään.

Toiseksi he voivat kouluttaa avustavia järjestelmiään käyttämällä omia tietojoukkojaan, mikä IBM:n mukaan tekee ominaisuuksien ja komentojen lisäämisestä järjestelmään helpompaa kuin muilla VUI-tekniikoilla (voice user interface).

Kolmanneksi Watson Assistant ei anna IBM:lle tietoja käyttäjien toiminnasta – alustan ratkaisujen kehittäjät voivat pitää arvokasta tietoa vain itselleen. Samaan aikaan jokaisen, joka rakentaa laitteita esimerkiksi Alexan kanssa, tulee olla tietoinen siitä, että heidän arvokkaat tiedot päätyvät Amazonille.

Watson Assistantilla on jo useita toteutuksia. Järjestelmää käytti mm. Harman, joka loi ääniavustajan Maserati-konseptiautoon (6). Münchenin lentokentällä IBM-assistentti käyttää Pepper-robottia auttamaan matkustajia liikkumaan. Kolmas esimerkki on Chameleon Technologies, jossa puhetekniikkaa käytetään älykodin mittarissa.

6. Watson Assistant Maserati-konseptiautossa

On syytä lisätä, että taustalla oleva tekniikka ei myöskään ole uusi. Watson Assistant sisältää salausominaisuudet olemassa oleville IBM-tuotteille, Watson Conversationille ja Watson Virtual Agentille sekä API:t kielianalyysiin ja keskusteluun.

Amazon ei ole pelkästään älykkään puhetekniikan johtava toimittaja, vaan se on muuttamassa siitä suoraa liiketoimintaa. Jotkut yritykset ovat kuitenkin kokeilleet Echo-integraatiota paljon aikaisemmin. BI- ja analytiikka-alan yritys Sisense esitteli Echo-integraation heinäkuussa 2016. Startup Roxy puolestaan päätti luoda oman ääniohjatun ohjelmiston ja laitteiston ravintola-alalle. Synqq esitteli aiemmin tänä vuonna muistiinpanosovelluksen, joka käyttää puheen ja luonnollisen kielen käsittelyä muistiinpanojen ja kalenterimerkintöjen lisäämiseen ilman, että niitä tarvitsee kirjoittaa näppäimistöllä.

Kaikilla näillä pienillä yrityksillä on korkeat tavoitteet. Ennen kaikkea he kuitenkin oppivat, että kaikki käyttäjät eivät halua siirtää tietojaan Amazonille, Googlelle, Applelle tai Microsoftille, jotka ovat ääniviestintäalustojen rakentamisen tärkeimpiä toimijoita.

Amerikkalaiset haluavat ostaa

Vuonna 2016 puhehaun osuus kaikista Googlen mobiilihauista oli 20 %. Ihmiset, jotka käyttävät tätä tekniikkaa päivittäin, mainitsevat sen mukavuuden ja moniajon sen suurimpana eduna. (esimerkiksi kyky käyttää hakukonetta autoa ajaessa).

Visiongainin analyytikot arvioivat älykkäiden digitaalisten avustajien nykyiseksi markkina-arvoksi 1,138 miljardia dollaria.Tällaisia mekanismeja on yhä enemmän. Gartnerin mukaan jo vuoden 2018 lopussa 30 % vuorovaikutuksistamme teknologian kanssa keskustelujen kautta puhejärjestelmien kanssa.

Brittiläinen tutkimusyhtiö IHS Markit arvioi, että tekoälyllä toimivien digitaalisten assistenttien markkinat kasvavat 4 miljardiin laitteeseen tämän vuoden loppuun mennessä, ja määrä voi nousta 2020 miljardiin vuoteen 7 mennessä.

eMarketerin ja VoiceLabsin raporttien mukaan 2017 miljoonaa amerikkalaista käytti puheohjausta vähintään kerran kuukaudessa vuonna 35,6. Tämä tarkoittaa lähes 130 prosentin kasvua edelliseen vuoteen verrattuna. Pelkästään digitaalisten avustajien markkinoiden odotetaan kasvavan 2018 % vuonna 23. Tämä tarkoittaa, että tulet jo käyttämään niitä. 60,5 miljoonaa amerikkalaista, mikä johtaa konkreettiseen rahaan niiden tuottajille. RBC Capital Markets arvioi, että Alexa-käyttöliittymä tuottaa Amazonille jopa 2020 miljardia dollaria tuloja vuoteen 10 mennessä.

Pese, leivo, puhdista!

Äänirajapinnat tulevat yhä rohkeammin kodinkone- ja kulutuselektroniikkamarkkinoille. Tämä näkyi jo viime vuoden IFA 2017 -näyttelyssä. Amerikkalainen yritys Neato Robotics esitteli esimerkiksi robottipölynimurin, joka kytkeytyy yhteen useista älykkään kodin alustoista, mukaan lukien Amazon Echo -järjestelmä. Puhumalla Echo-älykaiuttimen kanssa voit ohjata konetta puhdistamaan koko talosi tiettyinä aikoina päivästä tai yöstä.

Näyttelyssä esiteltiin myös muita puheohjattuja tuotteita, aina turkkilaisen Vestelin Toshiba-tuotemerkillä myymistä älytelevisioista saksalaisen Beurerin lämmitettäviin peitteisiin. Monet näistä elektronisista laitteista voidaan aktivoida myös etänä älypuhelimilla.

Boschin edustajien mukaan on kuitenkin liian aikaista sanoa, mikä kotiavustajavaihtoehdoista tulee hallitsevaksi. Saksalainen tekninen ryhmä esitteli IFA 2017 -messuilla pesukoneita (7), uuneja ja kahvinkeittimiä, jotka yhdistetään Echoon. Bosch haluaa myös, että sen laitteet ovat jatkossa yhteensopivia Googlen ja Applen äänialustojen kanssa.

7. Bosch-pesukone, joka liitetään Amazon Echoon

Yritykset, kuten Fujitsu, Sony ja Panasonic, kehittävät omia tekoälyyn perustuvia ääniavustajaratkaisujaan. Sharp lisää tätä tekniikkaa markkinoille tuleviin uuneihin ja pieniin robotteihin. Nippon Telegraph & Telephone palkkaa laitteisto- ja leluvalmistajia mukauttamaan ääniohjattua tekoälyjärjestelmää.

Vanha konsepti. Onko hänen aikansa vihdoin koittanut?

Itse asiassa puhekäyttöliittymän (VUI) käsite on ollut olemassa vuosikymmeniä. Jokainen, joka katsoi Star Trekin tai 2001: A Space Odysseyn vuosia sitten, luultavasti odotti, että vuoden 2000 tienoilla me kaikki ohjaamme tietokoneita äänellämme. Myöskään tieteiskirjailijat eivät nähneet tämäntyyppisen käyttöliittymän potentiaalia. Vuonna 1986 Nielsenin tutkijat kysyivät IT-ammattilaisilta, mikä heidän mielestään olisi suurin muutos käyttöliittymissä vuoteen 2000 mennessä. Useimmiten he viittasivat äänirajapintojen kehittämiseen.

On syytä toivoa tällaista ratkaisua. Verbaalinen viestintä on kuitenkin ihmisille luontevin tapa vaihtaa tietoisesti ajatuksia, joten sen käyttäminen ihmisen ja koneen vuorovaikutukseen vaikuttaa tähän mennessä parhaalta ratkaisulta.

Yksi ensimmäisistä VUI:ista, ns kenkälaatikkoIBM loi 60-luvun alussa. Se oli nykypäivän äänentunnistusjärjestelmien edelläkävijä. VUI-laitteiden kehitystä kuitenkin rajoittivat laskentatehon rajat. Ihmisen puheen jäsentäminen ja tulkitseminen reaaliajassa vaatii paljon vaivaa, ja kesti yli viisikymmentä vuotta päästä siihen pisteeseen, jossa se todella tuli mahdolliseksi.

Ääniliittymällä varustetut laitteet alkoivat ilmestyä massatuotantoon 90-luvun puolivälissä, mutta ne eivät saavuttaneet suosiota. Ensimmäinen puheohjauksella varustettu puhelin oli Philips Sparkjulkaistiin vuonna 1996. Tämä innovatiivinen ja helppokäyttöinen laite ei kuitenkaan ollut vapaa teknisistä rajoituksista.

Muita puheliitännöillä varustettuja puhelimia (joita ovat luoneet yritykset, kuten RIM, Samsung tai Motorola) tulee säännöllisesti markkinoille, jolloin käyttäjät voivat soittaa puhelimella tai lähettää tekstiviestejä. Ne kaikki vaativat kuitenkin tiettyjen käskyjen ulkoa ottamista ja niiden lausumista pakotetussa, keinotekoisessa muodossa, joka oli mukautettu silloisten laitteiden ominaisuuksiin. Tämä aiheutti suuren määrän virheitä, mikä puolestaan johti käyttäjien tyytymättömyyteen.

Olemme kuitenkin siirtymässä uuteen tietojenkäsittelyn aikakauteen, jossa koneoppimisen ja tekoälyn edistysaskeleet vapauttavat keskustelun mahdollisuudet uutena vuorovaikutuksena teknologian kanssa (8). Puhevuorovaikutusta tukevien laitteiden määrästä on tullut tärkeä tekijä, jolla on ollut suuri vaikutus VUI:n kehitykseen. Nykyään lähes 1/3 maailman väestöstä omistaa älypuhelimia, joita voidaan käyttää tämäntyyppiseen käyttäytymiseen. Näyttää siltä, että useimmat käyttäjät ovat vihdoin valmiita mukauttamaan äänirajapintojaan.

8. Äänirajapinnan kehityksen nykyaikainen historia

Ennen kuin voimme puhua vapaasti tietokoneen kanssa, kuten A Space Odyssey -elokuvan sankarit tekivät, meidän on voitettava useita ongelmia. Koneet eivät vieläkään ole kovin hyviä käsittelemään kielellisiä vivahteita. sitä paitsi monet ihmiset tuntevat edelleen olonsa epämukavaksi antaessaan äänikomentoja hakukoneelle.

Tilastot osoittavat, että ääniavustajaa käytetään ensisijaisesti kotona tai läheisten ystävien kanssa. Kukaan haastatelluista ei myöntänyt käyttäneensä puhehakua julkisilla paikoilla. Tämä esto kuitenkin todennäköisesti katoaa tämän tekniikan leviämisen myötä.

teknisesti vaikea kysymys

Järjestelmän (ASR) ongelmana on hyödyllisten tietojen poimiminen puhesignaalista ja sen yhdistäminen tiettyyn sanaan, jolla on tietty merkitys henkilölle. Tuotetut äänet ovat joka kerta erilaisia.

Puhesignaalin vaihtelu on sen luonnollinen ominaisuus, jonka ansiosta tunnistamme esimerkiksi aksentin tai intonaation. Jokaisella puheentunnistusjärjestelmän elementillä on tietty tehtävä. Käsitellyn signaalin ja sen parametrien perusteella luodaan akustinen malli, joka liitetään kielimalliin. Tunnistusjärjestelmä voi toimia pienen tai suuren kuviomäärän perusteella, mikä määrää sen sanaston koon, jonka kanssa se toimii. Ne voivat olla pieniä sanakirjoja jos järjestelmät tunnistavat yksittäisiä sanoja tai komentoja, ja suuria tietokantoja joka sisältää kielijoukon vastineen ja ottaa huomioon kielimallin (kieliopin).

Ääniliitäntöjen kohtaamat ongelmat ensinnäkin ymmärtää puhetta oikein, jossa esimerkiksi kokonaisia kieliopillisia sekvenssejä jätetään usein pois, esiintyy kieli- ja foneettisia virheitä, virheitä, puutteita, puhevirheitä, homonyymejä, perusteettomia toistoja jne. Kaikkien näiden ACP-järjestelmien tulee toimia nopeasti ja luotettavasti. Nämä ovat ainakin odotukset.

Vaikeuksien lähteenä ovat myös muut akustiset signaalit kuin tunnistettu puhe, jotka tulevat tunnistusjärjestelmän tuloon, ts. kaikenlaisia häiriötä ja melua. Yksinkertaisimmassa tapauksessa tarvitset niitä suodattaa. Tämä tehtävä näyttää rutiinilta ja helpolta - loppujen lopuksi erilaisia signaaleja suodatetaan ja jokainen elektroniikkainsinööri tietää, mitä tällaisessa tilanteessa tulee tehdä. Tämä on kuitenkin tehtävä erittäin huolellisesti ja huolellisesti, jos puheentunnistuksen tulos vastaa odotuksiamme.

Tällä hetkellä käytössä oleva suodatus mahdollistaa puhesignaalin ohella mikrofonin poimiman ulkoisen kohinan ja itse puhesignaalin sisäiset ominaisuudet, jotka vaikeuttavat sen tunnistamista. Paljon monimutkaisempi tekninen ongelma syntyy kuitenkin, kun analysoitavan puhesignaalin häiriö on ... toinen puhesignaali, eli esimerkiksi äänekkäät keskustelut ympärillä. Tämä kysymys tunnetaan kirjallisuudessa ns. Tämä edellyttää jo monimutkaisten menetelmien, ns. dekonvoluutio (purkaa) signaalin.

Puheentunnistuksen ongelmat eivät lopu tähän. On syytä ymmärtää, että puhe kuljettaa monenlaista tietoa. Ihmisääni viittaa omistajan sukupuoleen, ikään, eri luonteisiin tai hänen terveydentilaansa. Siellä on laaja biolääketieteen laitos, joka käsittelee eri sairauksien diagnosointia puhesignaalissa esiintyvien tunnusomaisten akustisten ilmiöiden perusteella.

On myös sovelluksia, joissa puhesignaalin akustisen analyysin päätarkoituksena on tunnistaa puhuja tai varmistaa, että hän on se, joka hän väittää olevansa (ääni avaimen, salasanan tai PUK-koodin sijaan). Tämä voi olla tärkeää erityisesti älykkäiden rakennustekniikoiden kannalta.

Puheentunnistusjärjestelmän ensimmäinen komponentti on микрофон. Mikrofonin poimima signaali jää kuitenkin yleensä vähäiseksi. Tutkimukset osoittavat, että ääniaallon muoto ja kulku vaihtelevat suuresti riippuen henkilöstä, puheen nopeudesta ja osittain myös keskustelukumppanin mielialasta - kun taas ne heijastavat hieman puhuttujen komentojen sisältöä.

Siksi signaali on käsiteltävä oikein. Nykyaikainen akustiikka, fonetiikka ja tietojenkäsittely tarjoavat yhdessä runsaan joukon työkaluja, joilla voidaan käsitellä, analysoida, tunnistaa ja ymmärtää puhesignaalia. Signaalin dynaaminen spektri, ns dynaamiset spektrogrammit. Ne on melko helppo saada, ja dynaamisen spektrogrammin muodossa esitetty puhe on suhteellisen helppo tunnistaa samanlaisilla tekniikoilla kuin kuvantunnistuksessa.

Puheen yksinkertaiset elementit (esimerkiksi komennot) voidaan tunnistaa kokonaisten spektrogrammien yksinkertaisesta samankaltaisuudesta. Esimerkiksi puheohjattava matkapuhelimen sanakirja sisältää vain muutamasta kymmenestä muutamaan sataan sanaa ja lausetta, jotka on yleensä pinottu valmiiksi, jotta ne voidaan helposti ja tehokkaasti tunnistaa. Tämä riittää yksinkertaisiin ohjaustehtäviin, mutta rajoittaa huomattavasti yleistä sovellusta. Kaavan mukaan rakennetut järjestelmät tukevat pääsääntöisesti vain tiettyjä kaiuttimia, joille äänet on erityisesti koulutettu. Joten jos joku uusi haluaa käyttää ääntään järjestelmän ohjaamiseen, häntä ei todennäköisesti hyväksytä.

Tämän operaation tulos on ns 2-W spektrogrammi, eli kaksiulotteinen spektri. Tässä lohkossa on vielä yksi aktiviteetti, johon kannattaa kiinnittää huomiota - segmentointi. Yleisesti ottaen puhumme jatkuvan puhesignaalin hajottamisesta osiin, jotka voidaan tunnistaa erikseen. Vain näistä yksittäisistä diagnooseista tehdään kokonaisuuden tunnistaminen. Tämä menettely on välttämätön, koska pitkää ja monimutkaista puhetta ei ole mahdollista tunnistaa yhdellä kertaa. Siitä, mitkä segmentit puhesignaalissa erotetaan, on jo kirjoitettu kokonaisia osioita, joten emme nyt päätä, pitäisikö erotettavien segmenttien olla foneemeja (äänivastineita), tavuja vai kenties allofoneja.

Automaattinen tunnistus tarkoittaa aina joitain objektien ominaisuuksia. Puhesignaalille on testattu satoja eri parametrijoukkoja.Puhesignaali on jaettu tunnistettuihin kehyksiin ja joilla on valitut ominaisuudetjolloin nämä kehykset esitetään tunnistusprosessissa, voimme suorittaa (jokaiselle kehykselle erikseen) luokitus, eli määrittämällä kehykselle tunnisteen, joka edustaa sitä tulevaisuudessa.

Seuraava vaihe kehysten kokoaminen erillisiksi sanoiksi - perustuu useimmiten ns. implisiittisten Markov-mallien malli (HMM-). Sitten tulee sanojen montaasi täydennä lauseet.

Voimme nyt palata hetkeksi Alexa-järjestelmään. Hänen esimerkkinsä osoittaa monivaiheisen prosessin, jossa ihminen "ymmärtää" koneellisesti - tarkemmin sanottuna: hänen antamansa käsky tai esitetty kysymys.

Sanojen ymmärtäminen, merkityksen ymmärtäminen ja käyttäjän tarkoituksen ymmärtäminen ovat täysin eri asioita.

Siksi seuraava askel on NLP-moduulin työ (), jonka tehtävänä on käyttäjän tarkoituksen tunnistus, eli komennon/kysymyksen merkitys kontekstissa, jossa se lausuttiin. Jos tarkoitus on tunnistettu, niin niin sanottujen taitojen ja kykyjen osoittaminen, eli älykkään avustajan tukema erityisominaisuus. Sääkysymyksessä kutsutaan säätietolähteitä, jotka on vielä prosessoitava puheeksi (TTS - mekanismi). Tämän seurauksena käyttäjä kuulee vastauksen esitettyyn kysymykseen.

Ääni? Graafinen taide? Tai kenties molemmat?

Useimmat tunnetut nykyaikaiset vuorovaikutusjärjestelmät perustuvat välittäjään nimeltä graafinen käyttöliittymä (graafinen käyttöliittymä). Valitettavasti GUI ei ole ilmeisin tapa olla vuorovaikutuksessa digitaalisen tuotteen kanssa. Tämä edellyttää, että käyttäjät oppivat ensin käyttämään käyttöliittymää ja muistavat nämä tiedot jokaisen myöhemmän vuorovaikutuksen yhteydessä. Monissa tilanteissa ääni on paljon kätevämpää, koska voit olla vuorovaikutuksessa VUI:n kanssa yksinkertaisesti puhumalla laitteelle. Käyttöliittymä, joka ei pakota käyttäjiä muistamaan ja muistamaan tiettyjä komentoja tai vuorovaikutustapoja, aiheuttaa vähemmän ongelmia.

VUI:n laajeneminen ei tietenkään tarkoita perinteisempien rajapintojen luopumista, vaan saataville tulee hybridirajapintoja, jotka yhdistävät useita vuorovaikutustapoja.

Äänirajapinta ei sovellu kaikkiin tehtäviin mobiiliympäristössä. Sen avulla soitamme autoa ajavalle ystävälle ja jopa lähetämme hänelle tekstiviestin, mutta viimeisimpien siirtojen tarkistaminen voi olla liian vaikeaa - järjestelmään välitetyn () ja järjestelmän (järjestelmän) tuottaman tiedon määrän vuoksi. Kuten Rachel Hinman ehdottaa kirjassaan Mobile Frontier, VUI:n käyttö on tehokkainta suoritettaessa tehtäviä, joissa syöttö- ja lähtötietojen määrä on pieni.

Internetiin yhdistetty älypuhelin on kätevä, mutta myös hankala (9). Aina kun käyttäjä haluaa ostaa jotain tai käyttää uutta palvelua, hänen on ladattava toinen sovellus ja luotava uusi tili. Tänne on luotu kenttä puherajapintojen käyttöön ja kehittämiseen. Sen sijaan, että käyttäjät pakotettaisiin asentamaan useita erilaisia sovelluksia tai luomaan erilliset tilit kullekin palvelulle, asiantuntijat sanovat, että VUI siirtää näiden raskaiden tehtävien taakan tekoälyllä toimivalle ääniavustajalle. Hänelle on kätevää suorittaa rasittavia toimintoja. Annamme hänelle vain käskyjä.

9. Ääniliittymä älypuhelimen kautta

Nykyään Internetiin on kytketty enemmän kuin vain puhelin ja tietokone. Verkkoon on liitetty myös älytermostaatteja, valoja, vedenkeittimiä ja monia muita IoT-integroituja laitteita (10). Siten ympärillämme on langattomia laitteita, jotka täyttävät elämämme, mutta kaikki eivät sovi luontevasti graafiseen käyttöliittymään. VUI:n avulla voit helposti integroida ne ympäristöömme.

10. Ääniliittymä esineiden Internetiin

Puhekäyttöliittymän luomisesta tulee pian suunnittelijan keskeinen taito. Tämä on todellinen ongelma - puhejärjestelmien käyttöönottotarve rohkaisee sinua keskittymään enemmän ennakoivaan suunnitteluun, eli yrittämään ymmärtää käyttäjän alkuperäisiä aikomuksia, ennakoimaan hänen tarpeitaan ja odotuksiaan keskustelun jokaisessa vaiheessa.

Ääni on tehokas tapa syöttää tietoja – sen avulla käyttäjät voivat antaa nopeasti komentoja järjestelmälle omilla ehdoillaan. Toisaalta näyttö tarjoaa tehokkaan tavan näyttää tietoa: sen avulla järjestelmät voivat näyttää suuren määrän tietoa samanaikaisesti, mikä vähentää käyttäjien muistin kuormitusta. On loogista, että niiden yhdistäminen yhdeksi järjestelmäksi kuulostaa rohkaisevalta.

Älykkäät kaiuttimet, kuten Amazon Echo ja Google Home, eivät tarjoa visuaalista näyttöä ollenkaan. Parantaa merkittävästi äänentunnistuksen tarkkuutta kohtalaisilla etäisyyksillä, mahdollistaa handsfree-toiminnan, mikä puolestaan lisää niiden joustavuutta ja tehokkuutta - ne ovat toivottavia myös käyttäjille, joilla on jo puheohjauksella varustettu älypuhelin. Näytön puute on kuitenkin valtava rajoitus.

Vain piippauksilla voidaan ilmoittaa käyttäjille mahdollisista komennoista, ja tulosteen ääneen lukeminen on työlästä perustehtäviä lukuun ottamatta. Ajastimen asettaminen äänikomennolla ruoanlaiton aikana on hienoa, mutta ei tarvitse kysyä, kuinka paljon aikaa on jäljellä. Säännöllisen sääennusteen saamisesta tulee muistitesti käyttäjälle, jonka on kuunneltava ja omaksuttava joukko tosiasioita koko viikon ajan sen sijaan, että poimiisi niitä näytöltä yhdellä silmäyksellä.

Suunnittelijat ovat jo tehneet hybridi ratkaisu, Echo Show (11), joka lisäsi näytön Echo-älykaiuttimeen. Tämä laajentaa huomattavasti laitteen toimivuutta. Echo Show ei kuitenkaan vielä pysty suorittamaan perustoimintoja, jotka ovat olleet pitkään saatavilla älypuhelimissa ja tableteissa. Se ei voi (vielä) surffata verkossa, näyttää arvosteluja tai näyttää esimerkiksi Amazon-ostoskorin sisältöä.

Visuaalinen näyttö on luonnostaan tehokkaampi tapa tarjota ihmisille runsaasti tietoa kuin pelkkä ääni. Suunnittelu ääniprioriteetilla voi parantaa huomattavasti puhevuorovaikutusta, mutta pitkällä aikavälillä mielivaltaisen visuaalisen valikon käyttämättä jättäminen vuorovaikutuksen vuoksi on kuin tappelemista käsi selän taakse sidottuna. Päästä-päähän älykkäiden ääni- ja näyttöliitäntöjen uhkaavan monimutkaisuuden vuoksi kehittäjien tulisi vakavasti harkita liitäntöjen hybridilähestymistapaa.

Puheen tuotto- ja tunnistusjärjestelmien tehokkuuden ja nopeuden lisääminen on mahdollistanut niiden käytön sellaisissa sovelluksissa ja alueilla kuin mm.

• armeija (äänikomennot lentokoneissa tai helikoptereissa, esimerkiksi F16 VISTA),

• automaattinen tekstin transkriptio (puhe tekstiksi),

• interaktiiviset tietojärjestelmät (Prime Speech, puheportaalit),

• mobiililaitteet (puhelimet, älypuhelimet, tabletit),

• robotiikka (Cleverbot - ASR-järjestelmät yhdistettynä tekoälyyn),

• autoteollisuus (auton osien, kuten Blue & Me, handsfree-ohjaus),

• kotisovellukset (älykodin järjestelmät).

Varo turvallisuutta!

Autot, kodinkoneet, lämmitys/jäähdytys ja kodin turvajärjestelmät sekä monet kodinkoneet alkavat käyttää usein tekoälypohjaisia äänirajapintoja. Tässä vaiheessa miljoonien koneiden kanssa käydyistä keskusteluista saadut tiedot lähetetään osoitteeseen laskennalliset pilvet. On selvää, että markkinoijat ovat kiinnostuneita niistä. Eikä vain heitä.

Symantecin tietoturvaasiantuntijoiden tuore raportti suosittelee, että äänikomentojen käyttäjät eivät hallitse turvaominaisuuksia, kuten ovien lukkoja, puhumattakaan kodin turvajärjestelmistä. Sama koskee salasanojen tai luottamuksellisten tietojen tallentamista. Tekoälyn ja älykkäiden tuotteiden turvallisuutta ei ole vielä tutkittu riittävästi.

Kun kodin laitteet kuuntelevat jokaista sanaa, järjestelmän hakkeroinnin ja väärinkäytön riski on suuri huolenaihe. Jos hyökkääjä pääsee paikalliseen verkkoon tai siihen liittyviin sähköpostiosoitteisiin, älylaitteen asetuksia voidaan muuttaa tai palauttaa tehdasasetuksiin, mikä johtaa arvokkaan tiedon menettämiseen ja käyttäjähistorian poistamiseen.

Toisin sanoen turvallisuusalan ammattilaiset pelkäävät, että puhe- ja VUI-ohjattu tekoäly ei ole vielä tarpeeksi älykäs suojelemaan meitä mahdollisilta uhilta ja pitämään suunsa kiinni, kun vieras kysyy jotain.