Հավելվածների քանակը և ձայնային ինտերֆեյսների կարևորությունը արագորեն աճում է

Պարունակություն

Մեծ քառյակ
Ամերիկացիները ցանկանում են գնել
Լվացե՛ք, թխե՛ք, մաքրե՛ք։
Հին հայեցակարգ. Վերջապես եկել է նրա ժամանակը:
Տեխնիկապես դժվար հարց
Ձայն? Գրաֆիկական արվեստ? Կամ գուցե երկուսն էլ.
Մնա ապահով:

Օրեգոն նահանգի Պորտլենդ քաղաքում գտնվող ամերիկյան ընտանիքներից մեկը վերջերս իմացավ, որ ձայնային օգնական Alexa-ն ձայնագրել է իրենց անձնական զրույցները և ուղարկել ընկերոջը: Տան տերը, որին լրատվամիջոցները Դանիել են անվանել, լրագրողներին ասել է, որ «այլևս երբեք չի միացնի այս սարքը, քանի որ իրեն չի կարելի վստահել»։

AlexaԱՄՆ տասնյակ միլիոնավոր տներում տրամադրված Echo բարձրախոսների (1) և այլ հարմարանքների կողմից, սկսվում է ձայնագրումը օգտատիրոջ կողմից հնչեցված իր անունը կամ «զանգի բառը» լսելուց հետո: Սա նշանակում է, որ եթե նույնիսկ հեռուստատեսային գովազդում նշվի «Ալեքսա» բառը, սարքը կարող է սկսել ձայնագրությունը։ Դա հենց այն է, ինչ տեղի ունեցավ այս դեպքում, ասում է ապարատային դիստրիբյուտոր Amazon-ը:

«Զրույցի մնացած մասը ձայնային օգնականի կողմից մեկնաբանվել է որպես հաղորդագրություն ուղարկելու հրահանգ», - ասվում է ընկերության հայտարարության մեջ: «Մի պահ Ալեքսան բարձրաձայն հարցրեց՝ ո՞վ: Կարծր փայտյա հատակի մասին ընտանեկան զրույցը շարունակելը մեքենայի կողմից պետք է ընկալվեր որպես հաճախորդի կոնտակտային ցանկի կետ»: Համենայն դեպս այդպես է մտածում Amazon-ը: Այսպիսով, թարգմանությունը հանգում է մի շարք պատահարների։

Անհանգստությունը, սակայն, մնում է։ Որովհետև, չգիտես ինչու, մի տանը, որտեղ մենք դեռ մեզ հանգիստ էինք զգում, մենք պետք է մտցնենք ինչ-որ «ձայնային ռեժիմ», դիտենք, թե ինչ ենք ասում, ինչ է հեռարձակում հեռուստացույցը և, իհարկե, ինչ է այս նոր բարձրախոսը կրծքավանդակի վրա: գզրոցներն ասում են. մեզ։

այնուամենայնիվ, Չնայած անկատար տեխնոլոգիաներին և գաղտնիության վերաբերյալ մտահոգություններին, Amazon Echo-ի նման սարքերի աճող ժողովրդականության հետ մեկտեղ մարդիկ սկսում են ընտելանալ համակարգիչների հետ իրենց ձայնի միջոցով շփվելու գաղափարին:.

Ինչպես նշեց Վերներ Ֆոգելսը, Amazon-ի CTO-ն, 2017-ի վերջին իր AWS re:Invent նիստի ժամանակ, տեխնոլոգիան մինչ այժմ սահմանափակել է համակարգիչների հետ մեր փոխազդեցությունը: Մենք մուտքագրում ենք հիմնաբառեր Google-ում՝ օգտագործելով ստեղնաշարը, քանի որ սա դեռ ամենահեշտ և տարածված միջոցն է տեղեկատվություն մեքենա մուտքագրելու համար:

Ֆոգելսն ասել է. -

Մեծ քառյակ

Հեռախոսում Google որոնողական համակարգից օգտվելիս, հավանաբար, վաղուց այնտեղ խոսափողի նշան ենք նկատել՝ խոսելու հրավերով։ Սա Google-ը հիմա (2), որով դուք կարող եք թելադրել որոնման հարցում, մուտքագրել հաղորդագրություն ձայնով և այլն: Վերջին տարիներին Google-ը, Apple-ը և Amazon-ը զգալիորեն բարելավվել են ձայնի ճանաչման տեխնոլոգիաներ. Ձայնային օգնականները, ինչպիսիք են Alexa-ն, Siri-ն և Google Assistant-ը, ոչ միայն ձայնագրում են ձեր ձայնը, այլև հասկանում են, թե ինչ եք ասում նրանց և պատասխանում հարցերին:

Google Now-ն անվճար հասանելի է բոլոր Android օգտատերերին: Հավելվածը կարող է, օրինակ, զարթուցիչ տեղադրել, ստուգել եղանակի կանխատեսումը և երթուղիները Google maps-ում: Google Now խոսակցական վիճակի ընդլայնում Google Assistant () - վիրտուալ օգնություն սարքավորումների օգտագործողին: Այն հասանելի է հիմնականում շարժական և խելացի տան սարքերում: Ի տարբերություն Google Now-ի, այն կարող է մասնակցել երկկողմանի փոխանակմանը: Օգնականի դեբյուտը տեղի ունեցավ 2016 թվականի մայիսին՝ որպես Google հաղորդագրությունների Allo հավելվածի մաս, ինչպես նաև Google Home ձայնային բարձրախոսով (3):

3. Google-ի գլխավոր էջ

IOS-ն ունի նաև իր վիրտուալ օգնականը, Siri, այսինքն՝ Apple օպերացիոն համակարգերում ներառված ծրագիր՝ iOS, watchOS, tvOS homepod և macOS։ Siri-ն առաջին անգամ հանդես եկավ iOS 5-ով և iPhone 4s-ով 2011 թվականի հոկտեմբերին Let's Talk iPhone կոնֆերանսում:

Ծրագիրը հիմնված է խոսակցական ինտերֆեյսի վրա՝ ճանաչում է օգտատիրոջ բնական խոսքը (iOS 11-ով հնարավոր է նաև հրամաններ մուտքագրել ձեռքով), պատասխանում է հարցերին և կատարում առաջադրանքները։ Մեքենայի ուսուցման ներդրման շնորհիվ ժամանակի ընթացքում օգնական վերլուծում է անձնական նախասիրությունները օգտագործողին ավելի համապատասխան արդյունքներ և առաջարկություններ տրամադրելու համար: Siri-ն պահանջում է մշտական ինտերնետ կապ. այստեղ տեղեկատվության հիմնական աղբյուրներն են Bing-ը և Wolfram Alpha-ն: iOS 10-ը ներկայացնում է երրորդ կողմի ընդլայնումների աջակցություն:

Մեծ քառյակից ևս մեկը Կորտանա. Սա Microsoft-ի կողմից ստեղծված խելացի անձնական օգնական է: Այն աջակցվում է Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android և iOS հարթակներում: Cortana-ն առաջին անգամ ներկայացվել է Microsoft Build Developer կոնֆերանսում 2014 թվականի ապրիլին Սան Ֆրանցիսկոյում։ Ծրագրի անվանումը գալիս է Halo խաղերի շարքի հերոսի անունից։ Cortana-ն հասանելի է անգլերեն, իտալերեն, իսպաներեն, ֆրանսերեն, գերմաներեն, չինարեն և ճապոներեն:

Արդեն նշված ծրագրի օգտատերերը Alexa նրանք նաև պետք է հաշվի առնեն լեզվական սահմանափակումները. թվային օգնականը խոսում է միայն անգլերեն, գերմաներեն, ֆրանսերեն և ճապոներեն:

Amazon-ի վիրտուալ օգնականն առաջին անգամ օգտագործվել է Amazon Echo և Amazon Echo Dot խելացի բարձրախոսներում, որոնք մշակվել են Amazon Lab126-ի կողմից: Այն ապահովում է ձայնային փոխազդեցություն, երաժշտության նվագարկում, անելիքների ցուցակների ստեղծում, ահազանգերի կարգավորում, փոդքասթների հոսք, աուդիոգրքեր նվագարկում և իրական ժամանակի տեղեկատվություն տրամադրում եղանակի, երթևեկության, սպորտի և այլ նորությունների մասին, ինչպիսիք են նորությունները (4): Alexa-ն կարող է կառավարել բազմաթիվ խելացի սարքեր՝ տան ավտոմատացման համակարգ ստեղծելու համար: Այն կարող է օգտագործվել նաև Amazon-ից հարմար գնումներ կատարելու համար։

4. Ինչու են օգտվողներն օգտագործում Echo (ըստ հետազոտության)

Օգտատերերը կարող են բարելավել Alexa-ի հնարավորությունները՝ տեղադրելով Alexa-ի «հմտությունները», լրացուցիչ հնարավորություններ, որոնք մշակվել են երրորդ կողմերի կողմից, որոնք ավելի հաճախ կոչվում են հավելվածներ, ինչպիսիք են եղանակի և աուդիո հավելվածները այլ կարգավորումներում: Alexa սարքերից շատերը թույլ են տալիս ակտիվացնել վիրտուալ օգնականը՝ օգտագործելով wake գաղտնաբառը, որը կոչվում է wake password:

Amazon-ն այսօր ակնհայտորեն գերիշխում է խելացի բարձրախոսների շուկայում (5): IBM-ը, որը ներկայացրել է նոր ծառայությունը 2018 թվականի մարտին, փորձում է մտնել լավագույն քառյակ. Ուոթսոնի օգնականը, նախատեսված է ընկերությունների համար, որոնք ցանկանում են ինքնուրույն ստեղծել ձայնով կառավարվող վիրտուալ օգնական համակարգեր։ Ո՞րն է IBM լուծման առավելությունը: Ընկերության ներկայացուցիչների խոսքով՝ առաջին հերթին անհատականացման և գաղտնիության պաշտպանության շատ ավելի մեծ հնարավորությունների մասին։

Նախ, Watson Assistant-ը պարտադրված ապրանքանիշ չունի: Ընկերությունները կարող են ստեղծել իրենց լուծումներն այս հարթակում և բրենդավորել դրանք իրենց սեփական ապրանքանիշով:

Երկրորդ, նրանք կարող են վարժեցնել իրենց աջակցող համակարգերը՝ օգտագործելով իրենց սեփական տվյալների հավաքածուները, ինչը, ըստ IBM-ի, հեշտացնում է այդ համակարգին գործառույթներ և հրամաններ ավելացնելը, քան VUI (ձայնային ինտերֆեյսի) այլ տեխնոլոգիաներ:

Երրորդ, Watson Assistant-ը չի տրամադրում IBM-ին օգտատերերի գործունեության մասին տեղեկատվություն. հարթակում լուծումներ մշակողները կարող են արժեքավոր տվյալներ պահել միայն իրենց համար: Միևնույն ժամանակ, յուրաքանչյուր ոք, ով, օրինակ, օգտագործելով Alexa-ով սարքեր, պետք է մտածի, որ իր արժեքավոր տվյալները ի վերջո կհայտնվեն Amazon-ում:

Watson Assistant-ն արդեն մի քանի ներդրում ունի: Համակարգն օգտագործել է, օրինակ, Harman ընկերությունը, որը ձայնային օգնական է ստեղծել Maserati կոնցեպտային մեքենայի համար (6): Մյունխենի օդանավակայանում IBM-ի օգնականը հնարավորություն է տալիս Pepper ռոբոտին օգնել այցելուներին շրջանցել: Երրորդ օրինակը Chameleon Technologies-ն է, որտեղ ձայնային տեխնոլոգիան օգտագործվում է խելացի տան հաշվիչի մեջ:

6. Watson Assistant Maserati կոնցեպտ մեքենայում

Հարկ է ավելացնել, որ հիմքում ընկած տեխնոլոգիան այստեղ նույնպես նոր չէ: Watson Assistant-ը ներառում է IBM-ի գոյություն ունեցող արտադրանքների, Watson Conversation-ի և Watson Virtual Agent-ի գաղտնագրման հնարավորությունները, ինչպես նաև լեզվի վերլուծության և զրույցի API-ներ:

Amazon-ը ոչ միայն առաջատար է ձայնային խելացի տեխնոլոգիաների ոլորտում, այլև այն վերածում է ուղղակի բիզնեսի: Այնուամենայնիվ, որոշ ընկերություններ շատ ավելի վաղ փորձարկել են Echo ինտեգրումը: BI և վերլուծական գործիքների արդյունաբերության ընկերություն Sisense-ը ներկայացրել է Echo ինտեգրումը 2016 թվականի հուլիսին: Իր հերթին, Roxy ստարտափը որոշել է ստեղծել իր ձայնային կառավարվող ծրագրային ապահովումն ու սարքավորումը հյուրընկալության ոլորտի համար: Այս տարվա սկզբին Synqq-ը ներկայացրեց նշումների հավելված, որն օգտագործում է ձայնի և բնական լեզվի մշակում` նշումներ և օրացույցային գրառումներ ավելացնելու համար՝ առանց դրանք ստեղնաշարի վրա մուտքագրելու:

Այս բոլոր փոքր բիզնեսները բարձր հավակնություններ ունեն։ Ամենաշատը նրանք սովորեցին, սակայն, այն է, որ ոչ բոլոր օգտվողներն են ցանկանում իրենց տվյալները փոխանցել Amazon-ին, Google-ին, Apple-ին կամ Microsoft-ին, որոնք ձայնային հաղորդակցման հարթակներ կառուցելու ամենակարևոր խաղացողներն են:

Ամերիկացիները ցանկանում են գնել

2016 թվականին ձայնային որոնումը կազմել է Google բջջային որոնումների 20%-ը: Մարդիկ, ովքեր օգտագործում են այս տեխնոլոգիան ամեն օր, նշում են դրա հարմարավետությունն ու բազմաֆունկցիոնալությունը որպես դրա ամենամեծ առավելությունները: (օրինակ՝ մեքենա վարելիս որոնողական համակարգից օգտվելու հնարավորություն):

Visiongain-ի վերլուծաբանները խելացի թվային օգնականների շուկայի ներկայիս արժեքը գնահատում են 1,138 միլիարդ դոլար, նման մեխանիզմներ ավելի ու ավելի շատ են լինում: Gartner-ի տվյալներով՝ մինչև 2018թ Մեր փոխազդեցությունների 30%-ը տեխնոլոգիայով դա կլինի ձայնային համակարգերի հետ զրույցների միջոցով:

Բրիտանական IHS Markit հետազոտական ընկերությունը գնահատում է, որ AI-ի (արհեստական ինտելեկտի) թվային օգնականների շուկան մինչև այս տարվա վերջ կհասնի 4 միլիարդ սարքի, իսկ 2020 թվականին այդ թիվը կարող է աճել մինչև 7 միլիարդի:

Ըստ eMarketer-ի և VoiceLabs-ի զեկույցների, 2017 միլիոն ամերիկացիներ 35,6 թվականին առնվազն ամիսը մեկ անգամ օգտագործել են ձայնային կառավարում: Սա նախորդ տարվա համեմատ աճել է գրեթե 130%-ով։ Ակնկալվում է, որ միայն թվային օգնականների շուկան կաճի 2018%-ով 23-ին: Սա նշանակում է, որ դուք արդեն կօգտագործեք դրանք 60,5 միլիոն ամերիկացիներ, ինչը կհանգեցնի կոնկրետ գումարների իրենց արտադրողների համար։ RBC Capital Markets-ի հաշվարկներով, Alexa ինտերֆեյսը Amazon-ին կբերի մինչև 2020 միլիարդ դոլարի եկամուտ մինչև 10 թվականը:

Լվացե՛ք, թխե՛ք, մաքրե՛ք։

Ձայնային ինտերֆեյսներն ավելի ու ավելի են մտնում կենցաղային տեխնիկայի և սպառողական էլեկտրոնիկայի շուկա: Սա արդեն կարելի էր տեսնել անցյալ տարվա IFA 2017 ցուցահանդեսի ժամանակ: Ամերիկյան Neato Robotics ընկերությունը ներկայացրել է, օրինակ, ռոբոտ փոշեկուլ, որը միանում է մի քանի խելացի տան հարթակներից մեկին, այդ թվում՝ Amazon Echo համակարգին: Խոսելով ձեր Echo խելացի բարձրախոսի հետ՝ դուք կարող եք հրահանգել մեքենային մաքրել ձեր ամբողջ տունը օրվա կամ գիշերվա որոշակի ժամերին:

Ցուցադրված ձայնով կառավարվող այլ արտադրանքները տատանվում էին թուրքական Vestel-ի կողմից Toshiba ապրանքանիշով վաճառվող խելացի հեռուստացույցներից մինչև գերմանական Beurer-ի տաքացվող վերմակներ: Այս էլեկտրոնային սարքերից շատերը կարող են նաև հեռակառավարվել սմարթֆոնների միջոցով:

Սակայն, ըստ Bosch-ի ներկայացուցիչների, դեռ վաղ է ասել, թե տնային օգնականի որ տարբերակը կդառնա գերիշխող։ Գերմանական տեխնոլոգիական խումբը IFA 2017-ին ցուցադրել է լվացքի մեքենաներ (7), վառարաններ և սուրճի մեքենաներ, որոնք միանում են Echo-ին: Bosch-ը նաև կցանկանար, որ ապագայում իր սարքերը համատեղելի լինեն Google-ի և Apple-ի ձայնային հարթակների հետ:

7. Bosch լվացքի մեքենա, որը միանում է Amazon Echo-ին

Ընկերություններ, ինչպիսիք են Fujitsu-ն, Sony-ն և Panasonic-ը, մշակում են AI-ի վրա աշխատող ձայնային օգնականի սեփական լուծումները: Sharp-ն այս տեխնոլոգիան ավելացնում է շուկա դուրս եկող վառարաններին և փոքր ռոբոտներին: Nippon Telegraph & Telephone-ը աշխատանքի է ընդունում սարքավորումների և խաղալիքների արտադրողների՝ ձայնով կառավարվող արհեստական ինտելեկտի համակարգը հարմարեցնելու համար:

Հին հայեցակարգ. Վերջապես եկել է նրա ժամանակը:

Փաստորեն, Voice User Interface (VUI) հայեցակարգը գոյություն ունի տասնամյակներ շարունակ: Յուրաքանչյուր ոք, ով շատ տարիներ առաջ դիտել է «Աստղային ճանապարհը» կամ «2001. Տիեզերական ոդիսականը», հավանաբար ակնկալում էր, որ մոտավորապես 2000 թվականին մենք բոլորս կկառավարենք համակարգիչները մեր ձայնով: Ավելին, ոչ միայն գիտաֆանտաստիկայի հեղինակները տեսան այս տեսակի ինտերֆեյսի ներուժը: 1986թ.-ին Nielsen-ի հետազոտողները ՏՏ մասնագետներին հարցրեցին, թե որն է նրանց կարծիքով օգտատերերի միջերեսների ամենամեծ փոփոխությունը մինչև 2000 թվականը: Նրանք ամենից հաճախ մատնանշում էին ձայնային ինտերֆեյսերի զարգացումը։

Նման լուծման հուսալու պատճառներ կան։ Բանավոր հաղորդակցությունն, ի վերջո, մարդկանց համար մտքերը գիտակցաբար փոխանակելու ամենաբնական միջոցն է, ուստի այն օգտագործելը մարդ-մեքենա փոխազդեցության համար առայժմ լավագույն լուծումն է թվում:

Առաջին VUI-ներից մեկը զանգահարեց կոշիկի տուփ, ստեղծվել է 60-ականների սկզբին IBM-ի կողմից։ Դա այսօրվա ձայնի ճանաչման համակարգերի նախակարապետն էր: Այնուամենայնիվ, VUI սարքերի զարգացումը սահմանափակվեց հաշվողական հզորության սահմաններով: Մարդկային խոսքի իրական ժամանակում վերլուծելը և մեկնաբանելը մեծ ջանքեր է պահանջում, և ավելի քան հիսուն տարի պահանջվեց հասնելու այն կետին, որտեղ դա իրականում հնարավոր էր:

Ձայնային ինտերֆեյս ունեցող սարքերը սկսեցին հայտնվել զանգվածային արտադրության մեջ 90-ականների կեսերին, բայց ժողովրդականություն չստացան: Ձայնային կառավարման (դիալեր) ունակությամբ առաջին հեռախոսն էր Philips Spark, թողարկվել է 1996 թվականին։ Այնուամենայնիվ, այս նորարարական և հեշտ օգտագործման սարքը զերծ չէր տեխնոլոգիական սահմանափակումներից:

Այլ հեռախոսներ, որոնք հագեցած են ձայնային ինտերֆեյսի ձևերով (ստեղծվել են այնպիսի ընկերությունների կողմից, ինչպիսիք են RIM-ը, Samsung-ը կամ Motorola-ն) պարբերաբար հայտնվել են շուկայում՝ թույլ տալով օգտվողներին ձայնային համարներ հավաքել կամ ուղարկել տեքստային հաղորդագրություններ: Նրանցից բոլորը, սակայն, պահանջում էին անգիր անել կոնկրետ հրամաններ և արտասանել դրանք հարկադիր, արհեստական ձևով՝ հարմարեցված այն ժամանակվա սարքերի հնարավորություններին։ Սա մեծ թվով սխալներ է առաջացրել, ինչը, իր հերթին, հանգեցրել է օգտատերերի դժգոհությանը։

Այնուամենայնիվ, մենք այժմ մտնում ենք հաշվարկների նոր դարաշրջան, որտեղ մեքենայական ուսուցման և արհեստական ինտելեկտի առաջընթացը բացում է զրույցի ներուժը որպես տեխնոլոգիայի հետ փոխգործակցության նոր միջոց (8): Ձայնային փոխազդեցությանը աջակցող սարքերի թիվը դարձել է կարևոր գործոն, որը մեծ ազդեցություն է ունեցել VUI-ի զարգացման վրա: Այսօր աշխարհի բնակչության գրեթե 1/3-ն արդեն ունի սմարթֆոններ, որոնք կարող են օգտագործվել այս տեսակի վարքագծի համար։ Կարծես օգտատերերի մեծ մասը վերջապես պատրաստ է հարմարեցնել իրենց ձայնային միջերեսները:

8. Ձայնային ինտերֆեյսի զարգացման ժամանակակից պատմություն

Այնուամենայնիվ, նախքան մենք կարողանանք ազատորեն խոսել համակարգչի հետ, ինչպես դա արեցին «Տիեզերական ոդիսականի» հերոսները, մենք պետք է հաղթահարենք մի շարք խնդիրներ: Մեքենաները դեռ այնքան էլ լավ չեն տիրապետում լեզվական նրբություններին: Բացի այդ շատ մարդիկ դեռ անհարմար են զգում ձայնային հրամաններ տալ որոնման համակարգին.

Վիճակագրությունը ցույց է տալիս, որ ձայնային օգնականները հիմնականում օգտագործվում են տանը կամ մտերիմ ընկերների շրջանում: Հարցվածներից ոչ մեկը չի խոստովանել, որ օգտագործել է ձայնային որոնում հասարակական վայրերում: Այնուամենայնիվ, այս շրջափակումը, հավանաբար, կվերանա այս տեխնոլոգիայի տարածմամբ:

Տեխնիկապես դժվար հարց

Խնդիրը, որին բախվում են (ASR) համակարգերը, խոսքի ազդանշանից օգտակար տվյալներ հանելն է և դրանք կապել կոնկրետ բառի հետ, որն ունի կոնկրետ նշանակություն անձի համար: Ամեն անգամ արտասանվող հնչյունները տարբեր են:

Խոսքի ազդանշանի փոփոխականություն նրա բնական հատկությունն է, որի շնորհիվ մենք, օրինակ, ճանաչում ենք առոգանությունը կամ ինտոնացիան։ Խոսքի ճանաչման համակարգի յուրաքանչյուր տարր ունի որոշակի խնդիր: Մշակված ազդանշանի և դրա պարամետրերի հիման վրա ստեղծվում է ակուստիկ մոդել, որը կապված է լեզվի մոդելի հետ։ Ճանաչման համակարգը կարող է աշխատել փոքր կամ մեծ թվով նախշերի հիման վրա, որը որոշում է բառարանի չափը, որով այն աշխատում է։ Նրանք կարող են լինել փոքր բառարաններ առանձին բառեր կամ հրամաններ ճանաչող համակարգերի դեպքում, ինչպես նաև մեծ տվյալների բազաներ պարունակող լեզվական բազմության համարժեքը և հաշվի առնելով լեզվի մոդելը (քերականությունը).

Ձայնային ինտերֆեյսների առջև ծառացած մարտահրավերները հիմնականում ճիշտ հասկանալ խոսքը, որտեղ, օրինակ, ամբողջ քերականական հաջորդականությունը հաճախ բաց է թողնվում, կան լեզվական և հնչյունական սխալներ, սխալներ, բացթողումներ, խոսքի արատներ, համանուններ, չհիմնավորված կրկնություններ և այլն: Այս բոլոր ACP համակարգերը պետք է աշխատեն արագ և հուսալի: Համենայնդեպս այդպիսին է ակնկալիքը։

Դժվարության աղբյուրը գալիս է նաև ձայնային ազդանշաններից, բացի ճանաչվող խոսքից, որոնք մտնում են ճանաչման համակարգի մուտքագրում, այսինքն. բոլոր տեսակի միջամտություն և աղմուկ. Ամենապարզ դեպքում դրանք ձեզ պետք են զտել. Այս առաջադրանքը սովորական և հեշտ է թվում. ի վերջո, տարբեր ազդանշաններ զտված են, և յուրաքանչյուր էլեկտրոնիկայի ինժեներ գիտի, թե ինչ անել նման իրավիճակում: Այնուամենայնիվ, դա պետք է արվի շատ ուշադիր և զգույշ, եթե խոսքի ճանաչման արդյունքը պետք է համապատասխանի մեր ակնկալիքներին:

Ներկայումս օգտագործվող զտումը հնարավորություն է տալիս խոսքի ազդանշանի հետ մեկտեղ հեռացնել խոսափողի կողմից ընդունված արտաքին աղմուկը և հենց խոսքի ազդանշանի ներքին հատկությունները, որոնք դժվարացնում են ճանաչելը: Այնուամենայնիվ, շատ ավելի բարդ տեխնիկական խնդիր է առաջանում, երբ վերլուծված խոսքի ազդանշանի միջամտությունը... մեկ այլ խոսքի ազդանշան է, այսինքն, օրինակ, շուրջը բարձրաձայն քննարկումներ: Այս հարցը գրականության մեջ հայտնի է այսպես կոչված. Սա արդեն պահանջում է բարդ մեթոդների կիրառում, այսպես կոչված. deconvolution (բացվել) ազդանշանը.

Խոսքի ճանաչման հետ կապված խնդիրները դրանով չեն ավարտվում: Արժե գիտակցել, որ խոսքը կրում է բազմաթիվ տարբեր տեսակի տեղեկություններ: Մարդու ձայնը հուշում է տիրոջ սեռը, տարիքը, տարբեր բնավորությունները կամ նրա առողջական վիճակը։ Գոյություն ունի կենսաբժշկական ճարտարագիտության մի մեծ ճյուղ, որը նվիրված է տարբեր հիվանդությունների ախտորոշմանը` հիմնվելով խոսքի ազդանշանում հայտնաբերված բնորոշ ակուստիկ երևույթների վրա:

Կան նաև հավելվածներ, որտեղ խոսքի ազդանշանի ակուստիկ վերլուծության հիմնական նպատակը խոսնակին նույնականացնելն է կամ ստուգելն է, որ նա իր ասածն է (ձայնը ստեղնի փոխարեն, գաղտնաբառ կամ PUK կոդը): Սա կարող է կարևոր լինել հատկապես խելացի շենքերի տեխնոլոգիաների համար:

Խոսքի ճանաչման համակարգի առաջին բաղադրիչն է միկրոֆոն. Այնուամենայնիվ, խոսափողի կողմից ընդունված ազդանշանը սովորաբար քիչ է մնում: Հետազոտությունները ցույց են տալիս, որ ձայնային ալիքի ձևը և ընթացքը մեծապես տարբերվում են կախված անձից, խոսքի արագությունից և մասամբ զրուցակցի տրամադրությունից, մինչդեռ դրանք փոքր չափով արտացոլում են խոսակցական հրամանների բուն բովանդակությունը:

Հետեւաբար, ազդանշանը պետք է ճիշտ մշակվի: Ժամանակակից ակուստիկան, հնչյունաբանությունը և համակարգչային գիտությունը միասին ապահովում են գործիքների հարուստ հավաքածու, որոնք կարող են օգտագործվել խոսքի ազդանշանները մշակելու, վերլուծելու, ճանաչելու և հասկանալու համար: Ազդանշանի դինամիկ սպեկտրը, այսպես կոչված դինամիկ սպեկտրոգրամներ. Դրանք բավականին հեշտ է ձեռք բերել, և խոսքը, որը ներկայացված է դինամիկ սպեկտրոգրամի տեսքով, համեմատաբար հեշտ է ճանաչել՝ օգտագործելով պատկերների ճանաչման մեջ օգտագործվող տեխնիկայի նման:

Խոսքի պարզ տարրերը (օրինակ՝ հրամանները) կարելի է ճանաչել ամբողջ սպեկտրոգրամների պարզ նմանությամբ։ Օրինակ, ձայնով ակտիվացված բջջային հեռախոսի բառարանը պարունակում է ընդամենը մի քանի տասնյակից մի քանի հարյուր բառեր և արտահայտություններ, որոնք սովորաբար նախապես դրված են այնպես, որ դրանք հեշտությամբ և արդյունավետ կերպով նույնականացվեն: Սա բավարար է պարզ հսկողության առաջադրանքների համար, բայց դա խիստ սահմանափակում է ընդհանուր կիրառումը: Սխեմայով կառուցված համակարգերը, որպես կանոն, աջակցում են միայն հատուկ խոսնակներին, որոնց համար ձայները հատուկ պատրաստված են: Այսպիսով, եթե կա մեկը, ով ցանկանում է օգտագործել իր ձայնը համակարգը վերահսկելու համար, ամենայն հավանականությամբ, նրան չեն ընդունի:

Այս գործողության արդյունքը կոչվում է սպեկտրոգրամ 2-Վտ, այսինքն՝ երկչափ սպեկտր։ Այս բլոկում կա ևս մեկ դաս, որին արժե ուշադրություն դարձնել. հատվածավորումը. Ընդհանուր առմամբ, մենք խոսում ենք շարունակական խոսքի ազդանշանը բաժանելու մասին այն մասերի, որոնք կարելի է առանձին ճանաչել: Միայն այս անհատական ախտորոշումներն են կազմում ամբողջի ճանաչումը։ Այս ընթացակարգը անհրաժեշտ է, քանի որ անհնար է նույնացնել երկար և բարդ խոսքը մեկ քայլով: Ամբողջ հատորներն արդեն գրվել են այն մասին, թե որ հատվածները պետք է տարբերվեն խոսքի ազդանշանում, ուստի մենք հիմա չենք որոշի, թե արդյոք տարբերվող հատվածները պետք է լինեն հնչյուններ (ձայնային համարժեքներ), վանկեր, թե գուցե ալոֆոններ:

Ավտոմատ ճանաչման գործընթացը միշտ վերաբերում է օբյեկտների որոշ առանձնահատկություններին: Խոսքի ազդանշանի համար փորձարկվել են հարյուրավոր տարբեր պարամետրերի հավաքածուներ: Խոսքի ազդանշանն ունի բաժանված ճանաչված շրջանակների և ունենալով ընտրված գործառույթներըորի շնորհիվ այս շրջանակները ներկայացված են ճանաչման գործընթացում, մենք կարող ենք կատարել (յուրաքանչյուր շրջանակի համար առանձին) դասակարգում, այսինքն. շրջանակին նույնացուցիչ հատկացնելը, որը կներկայացնի այն ապագայում:

Հաջորդ փուլը շրջանակների հավաքում առանձին բառերի մեջ - առավել հաճախ հիմնված այսպես կոչված. անուղղակի Մարկովյան մոդելների մոդելը (HMM-): Հետո գալիս է բառերի մոնտաժը ամբողջական նախադասություններ.

Այժմ մենք կարող ենք մի պահ վերադառնալ Alexa համակարգին: Նրա օրինակը ցույց է տալիս մարդու մեքենայական «ըմբռնման» բազմափուլ գործընթաց, ավելի ճիշտ՝ նրա տված հրամանը կամ տրված հարցը:

Բառերը հասկանալը, իմաստը և օգտագործողի մտադրությունը հասկանալը բոլորովին տարբեր բաներ են:

Հետևաբար հաջորդ քայլը NLP մոդուլի () աշխատանքն է, որի խնդիրն է օգտագործողի մտադրության ճանաչում, այսինքն. հրամանի/հարցի իմաստը այն համատեքստում, որում այն ասվել է: Եթե մտադրությունը բացահայտված է, դուք պետք է այսպես կոչված հմտությունների և կարողությունների նշանակում, այսինքն՝ խելացի օգնականի կողմից աջակցվող հատուկ գործառույթ։ Եղանակի մասին հարցի դեպքում կանչվում են եղանակային տվյալների աղբյուրներ, որոնք մնում են խոսքի մշակման համար (TTS - մեխանիզմ): Արդյունքում օգտատերը լսում է տրված հարցի պատասխանը։

Ձայն? Գրաֆիկական արվեստ? Կամ գուցե երկուսն էլ.

Շատ հայտնի ժամանակակից փոխազդեցության համակարգերը հիմնված են միջնորդի վրա, որը կոչվում է գրաֆիկական ինտերֆեյս (գրաֆիկական ինտերֆեյս): Ցավոք, գրաֆիկական ինտերֆեյսը թվային արտադրանքի հետ շփվելու ամենաակնհայտ միջոցը չէ: Սա պահանջում է, որ օգտվողները նախ սովորեն, թե ինչպես օգտագործել ինտերֆեյսը և հիշել այս տեղեկատվությունը յուրաքանչյուր հաջորդ փոխազդեցության ժամանակ: Շատ իրավիճակներում ձայնը շատ ավելի հարմար է, քանի որ VUI-ի հետ շփվելը նույնքան հեշտ է, որքան սարքի հետ խոսելը: Ինտերֆեյսը, որը չի ստիպում օգտատերերին մտապահել և անգիր անել հատուկ հրամաններ կամ փոխազդեցության մեթոդներ, ավելի քիչ խնդիրներ է առաջացնում:

Իհարկե, VUI-ի ընդլայնումը չի նշանակում հրաժարվել ավելի ավանդական ինտերֆեյսներից. ավելի շուտ, հասանելի կլինեն հիբրիդային միջերեսներ, որոնք համատեղում են փոխազդեցության մի քանի մեթոդներ:

Ձայնային ինտերֆեյսը հարմար չէ բջջային համատեքստում բոլոր առաջադրանքների համար: Դրանով մենք կկանչենք մեքենա վարող ընկերոջը և նույնիսկ նրան SMS կուղարկենք, բայց վերջին փոխանցումները ստուգելը կարող է չափազանց դժվար լինել՝ համակարգին փոխանցված () և համակարգի (համակարգի) կողմից ստեղծված տեղեկատվության քանակի պատճառով: Ինչպես Ռեյչել Հինմանը առաջարկում է իր «Mobile Frontier» գրքում, VUI-ի օգտագործումն ամենաարդյունավետն է դառնում այնպիսի առաջադրանքներ կատարելիս, որտեղ մուտքային և ելքային տեղեկատվության քանակը փոքր է:

Ինտերնետին միացված սմարթֆոնը հարմար է, բայց նաև անհարմար (9): Ամեն անգամ, երբ օգտատերը ցանկանում է ինչ-որ բան գնել կամ օգտվել նոր ծառայությունից, նա պետք է ներբեռնի մեկ այլ հավելված և ստեղծի նոր հաշիվ։ Այստեղ ստեղծվել է դաշտ ձայնային ինտերֆեյսների օգտագործման և զարգացման համար։ Փորձագետները նշում են, որ փոխանակ ստիպելու օգտատերերին տեղադրել բազմաթիվ տարբեր հավելվածներ կամ ստեղծել առանձին հաշիվներ յուրաքանչյուր ծառայության համար, VUI-ն այս ծանր առաջադրանքների բեռը կփոխանցի AI-ով միացված ձայնային օգնականին: Նրա համար հարմար կլինի ծանր զբաղմունքներ կատարել։ Մենք նրան միայն հրամաններ կտանք։

9. Ձայնային ինտերֆեյս սմարթֆոնի միջոցով

Մեր օրերում ինտերնետին միացված են ոչ միայն ձեր հեռախոսն ու համակարգիչը: Ցանցին միացված են նաև խելացի թերմոստատներ, լույսեր, թեյնիկներ և շատ այլ IoT ինտեգրված սարքեր (10): Այսպիսով, մեր շուրջբոլորը կան անլար միացված սարքեր, որոնք լցնում են մեր կյանքը, բայց ոչ բոլորն են բնականաբար տեղավորվում օգտատիրոջ գրաֆիկական ինտերֆեյսի մեջ: VUI-ի օգտագործումը կօգնի ձեզ հեշտությամբ ինտեգրել դրանք մեր միջավայրում:

10. Ձայնային ինտերֆեյս իրերի ինտերնետի հետ

Ձայնի վրա հիմնված ինտերֆեյսի ստեղծումը շուտով դիզայներների համար կդառնա հիմնական հմտություն: Սա իսկական մարտահրավեր է. ձայնային համակարգերի ներդրման անհրաժեշտությունը կստիպի ձեզ ավելի շատ կենտրոնանալ պրոակտիվ դիզայնի վրա, այսինքն՝ փորձել հասկանալ օգտագործողի սկզբնական մտադրությունները՝ կանխատեսելով նրա կարիքներն ու ակնկալիքները զրույցի յուրաքանչյուր փուլում:

Ձայնը տվյալների մուտքագրման արդյունավետ միջոց է. այն օգտվողներին թույլ է տալիս արագորեն հրամաններ տալ համակարգին՝ իրենց պայմաններով: Մյուս կողմից, էկրանն ապահովում է տեղեկատվության ցուցադրման արդյունավետ միջոց. այն թույլ է տալիս համակարգերին միաժամանակ ցուցադրել մեծ քանակությամբ տեղեկատվություն՝ նվազեցնելով օգտատերերի հիշողության բեռը: Տրամաբանական է, որ դրանք մեկ համակարգի մեջ միավորելը հուսադրող է հնչում։

Խելացի բարձրախոսները, ինչպիսիք են Amazon Echo-ն և Google Home-ը, ընդհանրապես չեն առաջարկում տեսողական էկրան: Զգալիորեն բարելավելով ձայնի ճանաչման ճշգրտությունը չափավոր հեռավորությունների վրա՝ նրանք հնարավորություն են տալիս աշխատել առանց ձեռքերի, որն իր հերթին մեծացնում է դրանց ճկունությունն ու արդյունավետությունը, ինչը ցանկալի է նույնիսկ այն օգտատերերի համար, ովքեր արդեն ունեն ձայնային սմարթֆոններ: Այնուամենայնիվ, էկրանի բացակայությունը հսկայական սահմանափակում է:

Միայն ազդանշանները կարող են օգտագործվել օգտատերերին հնարավոր հրամանների մասին տեղեկացնելու համար, և ելքը բարձրաձայն կարդալը դառնում է հոգնեցուցիչ, բացառությամբ ամենապարզ առաջադրանքների: Խոհարարության ընթացքում ձայնային հրամանի միջոցով ժամաչափ սահմանելը հիանալի է, բայց ձեզ ստիպելը, թե որքան ժամանակ է մնացել, անհրաժեշտ չէ: Եղանակի կանոնավոր կանխատեսում ստանալը դառնում է հիշողության թեստ օգտատիրոջ համար, ով ստիպված է ամբողջ շաբաթը ծախսել մի շարք փաստեր լսելու և մարսելու վրա, այլ ոչ թե մի հայացքով դրանք հավաքել էկրանից:

Դիզայներներն արդեն մշակել են հիբրիդային լուծում, Echo Show (11), որը ցուցադրման էկրան ավելացրեց հիմնական Echo խելացի բարձրախոսին: Սա զգալիորեն ընդլայնում է սարքավորումների ֆունկցիոնալությունը: Այնուամենայնիվ, Echo Show-ը դեռ շատ ավելի քիչ է ունակ է կատարել այն հիմնական գործառույթները, որոնք վաղուց հասանելի են սմարթֆոններում և պլանշետներում: Այն չի կարող (դեռ), օրինակ, զննել համացանցը, ցուցադրել ակնարկներ կամ ցուցադրել ձեր Amazon-ի զամբյուղի բովանդակությունը:

Տեսողական ցուցադրումը էապես ավելի արդյունավետ միջոց է մարդկանց ավելի շատ տեղեկատվություն տրամադրելու, քան պարզապես ձայնը: Ձայնային առաջին դիզայնը կարող է զգալիորեն բարելավել ձայնային փոխազդեցությունը, բայց երկարաժամկետ հեռանկարում, կամայականորեն չօգտագործել տեսողական ընտրացանկերը՝ հանուն փոխազդեցության, նման կլինի մի ձեռքը մեջքի հետևում կապած պայքարելուն: Ձայնի և ցուցադրման ինտերֆեյսների վերջնական բարդության պատճառով մշակողները պետք է լրջորեն մտածեն միջերեսների նկատմամբ հիբրիդային մոտեցման մասին:

Խոսքի ստեղծման և ճանաչման համակարգերի արդյունավետության և արագության բարձրացումը հնարավորություն է տվել դրանք օգտագործել այնպիսի ծրագրերում և ոլորտներում, ինչպիսիք են, օրինակ.

• ռազմական (ձայնային հրամաններ ինքնաթիռներում կամ ուղղաթիռներում, օրինակ՝ F16 VISTA),

• տեքստի ավտոմատ տառադարձում (խոսքից տեքստ),

• ինտերակտիվ տեղեկատվական համակարգեր (Prime-Speech, ձայնային պորտալներ),

• շարժական սարքեր (հեռախոսներ, սմարթֆոններ, պլանշետներ),

• ռոբոտաշինություն (Cleverbot – ASR համակարգեր՝ զուգորդված արհեստական ինտելեկտի հետ),

• ավտոմոբիլային (մեքենայի բաղադրիչների առանց ձեռքի կառավարում, օրինակ՝ Blue & Me),

• տնային հավելվածներ (խելացի տան համակարգեր):

Մնա ապահով:

Ավտոմեքենաները, տեխնիկան, ջեռուցման/հովացման և տնային անվտանգության համակարգերը և շատ կենցաղային տեխնիկա սկսում են օգտագործել ձայնային ինտերֆեյսներ, որոնք հաճախ սնվում են AI-ով: Այս փուլում մեքենաների հետ միլիոնավոր խոսակցություններից ստացված տվյալները ուղարկվում են հաշվողական ամպեր. Հասկանալի է, որ շուկայավարները հետաքրքրված են դրանցով։ Եվ ոչ միայն նրանք։

Symantec-ի անվտանգության փորձագետների վերջին զեկույցը խորհուրդ է տալիս ձայնային հրահանգների օգտատերերին չվերահսկել անվտանգության առանձնահատկությունները, ինչպիսիք են դռների կողպեքները, չխոսելով տան անվտանգության համակարգերի մասին: Նույնը վերաբերում է գաղտնաբառերի կամ գաղտնի տեղեկատվության պահպանմանը: Արհեստական ինտելեկտի և խելացի արտադրանքի անվտանգությունը դեռ բավականաչափ ուսումնասիրված չէ։

Երբ ամբողջ տան սարքերը լսում են յուրաքանչյուր բառ, կոտրելու և համակարգի չարաշահման վտանգը դառնում է չափազանց կարևոր մտահոգություն: Եթե հարձակվողը մուտք գործի դեպի տեղական ցանց կամ հարակից էլփոստի հասցեներ, խելացի սարքի կարգավորումները կարող են փոխվել կամ վերակայվել գործարանային կարգավորումներին, ինչը կհանգեցնի արժեքավոր տեղեկատվության կորստի և օգտվողի պատմության ջնջման:

Այլ կերպ ասած, անվտանգության փորձագետները վախենում են, որ ձայնով և VUI-ով կառավարվող արհեստական ինտելեկտը դեռ այնքան խելացի չէ, որ մեզ պաշտպանի հնարավոր սպառնալիքներից և մեր բերանը փակ պահի, երբ անծանոթը ինչ-որ բան է հարցնում: