新浪三分彩倍数欢迎您的到來!

內容字號:默認大號超大號

段落設置:取消段首縮進段首縮進

字體設置:切換到微軟雅黑切換到宋體

業界資訊軟件之家
Win10之家WP之家
iPhone之家iPad之家
安卓之家數碼之家
評測中心智能設備
精準搜索請嘗試:精確搜索

手機和音箱都沒達到的語音交互高度,被汽車搞定了

2019/9/25 13:48:28來源:極客公園作者:趙子瀟責編:微塵評論:

「Hi Google」、「Hey Siri」、「小度小度」、「理想同學」……

隨便列舉幾個智能語音的喚醒詞,會發現大多雷同。時間久了,總會感到疲倦。

從技術的角度看,這些喚醒詞其實是經過「篩選」,是為了保證足夠的喚醒率。在技術提升之后,新的喚醒方式出現了,不再執著于加上前綴,而是用多樣性或者自定義來實現,自定義的喚醒詞開始能夠滿足用戶的個性化需求。

固定的喚醒詞已不能滿足用戶的需求| Medium

這樣還不夠。如果想讓機器變得像人一樣,發展過程中必須摸索怎樣的人機交互在流暢的同時,還能保證語音對話不輸人人之間交流。換一個角度想,如果一定要對著機器說:「我要xx……」,可能會很奇怪,加上一個喚醒詞會更加合適。但是當場景里只有兩個人的時候,這樣的喚醒詞會顯得很多余。

瞄準這樣的需求,汽車內這種獨特場景下的「語音免喚醒」應運而生。

車內的場景比較單一,不少人將喚醒詞視為累贅,并努力將其消除掉,力求保證人機交互的流暢性。但同樣有人提出質疑,認為免喚醒在目前階段還不成熟,它會制造更多的麻煩。

那么,這項功能到底靠不靠譜?

一個偽需求?

不需要所謂的喚醒詞,就能夠控制車載系統部分功能,是語音免喚醒最大的優勢。

用通俗的話講,只要后臺的語音一直保持「在線」狀態,就像一位忠誠的朋友安靜地在你旁邊待著,一旦收到你的命令就立馬去執行一樣。只不過,你只有說出它能聽懂的詞才可以。

舉個最直觀的例子,假如我們要去雍和宮,之前用語音發出指令是這樣的:

「你好xx(喚醒詞)」;

「我在」;

「我要去雍和宮」

「好的,已為您規劃路線,是否開始導航?」

加上語音免喚醒之后,變成這樣:

「我要去雍和宮」

「好的,已為您規劃路線,是否開始導航?」

由于減少了喚醒這一步驟,語音交互效率能夠有效提升。這也是為什么大家都希望上線語音免喚醒功能的原因。相比最開始的做法,直接說出指令的感覺要好太多,同時也避免了人機交互過程中的生硬。

語音免喚醒的體驗要比說喚醒詞好很多| SoundHound

「所見即所說?!挂晃粯I內人士對免喚醒功能給予了高度評價。

可以確定的一點是,語音免喚醒在技術上可以實現,但做到極致的用戶體驗是非常有難度的。核心問題就是對誤報的控制,在保證低誤報情況下做到高精度免喚醒是難點。

據極客公園(ID:geekpark)了解,長安福特Active,哈弗H6、新寶駿RM-5、理想ONE、吉利博越等車型均已搭載免喚醒功能,但各家其中的技術方案并不完全相同。在傳統汽車向智能汽車轉型的過渡時期,更多互聯網相關的新科技也逐漸搭載在車上。因此,這也成為了互聯網企業、科技公司,或者技術供應商們爭奪全新市場的絕佳機會。

哈弗H6已搭載語音免喚醒功能|哈弗官網

即便有車型搭載、以及眾多供應商支持這項功能,但不可否認的是,這仍然是一項較小眾的功能。有業內人士向極客公園表示,車企之所以不搭載語音免喚醒,是擔心用戶在使用過程中觸發誤喚醒,導致體驗變差,甚至會認為是「偽需求」。

「像Siri一樣,有時候不小心就會喚醒Siri出來,其實讓操作更加麻煩,如果在車內,誤喚醒可能會有安全隱患?!股鲜鋈耸空f到,車企沒有用上語音免喚醒功能,主要是出于安全方面的考慮。

另一方面,由于語音免喚醒需要車機在后臺時刻保持在線的狀態,如果在車內兩人聊天時誤喚醒,導致導航偏離目的地,對用戶體驗也是很大的傷害。

使用語音免喚醒功能的廠商,對此則是另一番解釋。

「目前語音免喚醒瞄準的是高頻操作來設計,恰恰是對語音交互效率非常大的提升,」上海博泰終端軟件中心執行總監王小華向極客公園表示,在車內使用比較多的語音交互是導航、娛樂這樣的訴求,如果經常使用的話,免喚醒就是一語中的,比需要喚醒詞的兩步操作體驗要好很多。上海博泰成立于2009年,在車聯網領域研究多年。最近,博泰推出了「隨身車聯網」的概念,借助手機的算力,但應用都在車機上操作,讓用戶的手機變成一款車機。與車企深入合作的眾多功能中,語音免喚醒也算一個不小的亮點。

博泰「隨身車聯網」的語音免喚醒是個亮點功能|極客公園拍攝

王小華認為,之所以許多車企沒有使用語音免喚醒功能,是因為大家對于體驗的理解不同。比如誤喚醒率的指標,車企對于語音功能的偏好上都不一樣。而博泰的出發點在于,怎樣找到車內交互最高效率和誤喚醒之間的平衡點。

另外,雖然純技術上沒有難點,但從技術到產品的過程中,還是暗藏了不少的「坑」。怎樣設計喚醒詞、哪些場景需要用到哪些技術去匹配,或者對于未來產品的考慮,都能對體驗產生影響。

鑒于人類在互相溝通過程中不會重復喊對方(相當于喚醒詞),所以免喚醒,直接說出指令是更符合人們自然交互的,相信這個功能最終也會推廣開來,而不是變成所謂的「偽需求」。

從「有用」到「會用」

在車內,免喚醒詞分為兩類。

一種叫全局免喚醒,只要不息屏,在任何時間說出免喚醒詞,都可以被識別。比如「導航到xx」或者「我要聽xx」,打開某個應用也可以直接喊出。

另外一種是場景免喚醒,也叫應用內免喚醒,只能在某個應用里說出免喚醒詞才有用。在音樂應用里說「上一首」、「下一首」,在導航界面說「放大地圖」、「縮小地圖」,「地圖概覽」等,都可以直接實現。

如同上文提到的一樣,兩類喚醒都需要通過免喚醒詞的識別來判斷,「我要去」這三個字就相當于關鍵字,當用戶說出關鍵字/詞,系統直接被喚醒,進而完成指令。

導航時可以使用語音免喚醒功能|哈弗官網

并且,因為觸發免喚醒詞無需連接到云端,在本地就可以完成識別,所以響應速度更加快速,也不存在汽車「持續監聽」車內人們的對話的隱私問題。當需要聯網時,比如搜索歌曲或者目的地,系統才會連接云端。

Baidu車聯網在接受極客公園采訪時表示,百度的免喚醒技術目前已應用于福特、長城、EXEED星途等品牌的多款量產車型。

其中,場景免喚醒主要應用于導航、音樂等高頻場景,可覆蓋用戶70%以上的日常使用需求,且覆蓋場景仍在持續增長中。全局免喚醒主要應用于整個用車的過程中使用的功能上,如車控類需求。

導航、音樂等高頻場景可覆蓋用戶70%的需求|哈弗官網

技術上,Baidu通過算法優化、響應限制等方式,可以很好的對誤喚醒進行控制,從而為用戶帶來更好的體驗。此外,得益于NLP技術,Baidu在免喚醒詞的泛化方面具備更為突出的優勢,可以理解更多自然的表達方式,從而讓免喚醒得到用戶更廣泛的使用。

對于用戶的感知問題,廠商們也在發力?!肝覀兺ㄟ^新手教育、屏幕引導、上下文引導等方式,加強對用戶語音交互習慣的培養?!笲aidu車聯網表示,Baidu車聯網已上線了喚醒后引導、核心頁面引導、事件關聯引導等方案,即用戶喚醒后提示用戶可用的表達,在首頁、地圖等核心頁面提示用戶可以如何通過語音調用服務,根據用戶目前的操作,提示用戶下次可以如何通過語音對話來完成。我們希望通過直接告訴用戶怎么使用,來豐富用戶的語音表達,從而實現從「有這個功能」到「用戶會用這個功能」。

以識別做喚醒

一項強科技屬性的功能在車上率先使用,而不是在手機上,這也許還是頭一遭。

智能語音交互出現于手機,普及于智能音箱,這兩個硬件品類到現在都沒能搭載語音免喚醒功能,看起來有點反常。

但是,如果把這項功能放在場景中去看,會發現汽車與語音免喚醒搭配的天衣無縫。

「產品和技術上都沒有特別大的差異,只是場景不同,導致這樣的區別發生?!雇跣∪A告訴極客公園。汽車本來就是一個密閉的空間,系統不需要長時間被打擾。相反,手機和智能音箱更多處于一個開放的環境,很容易受到噪音的干擾,如果搭載語音免喚醒功能,很有可能導致用戶體驗大幅下降。

汽車和智能音箱等場景有很大差別|網絡

存在差異的同時,三個場景的不同也開始讓功能慢慢融合。Baidu在2019年推出的全雙工免喚醒能力,可以達到「一次喚醒,多輪交互」,并宣稱很快就能在量產車型上落地。極客公園了解到,騰訊云小微也在嘗試類似的能力,在一次喚醒之后,系統有90秒的持續喚醒,在這段時間內用戶無需再次說出喚醒詞。

在百度方面看來,全雙工免喚醒能力和語音免喚醒功能各有優勢,兩種方式結合,優勢互補,才能實現更好的體驗。

沒有完美的解決方案,以目前的技術發展程度而言,兩種方式的結合也許更容易被人接受,在線和離線時刻都可享受語音交互的便利性。在全雙工免喚醒能力上車后,百度將在量產版繼續規范,如加強語義的理解能力,當系統解析后發現人們在閑聊則不為響應,以此達到精確辯識的目的。

在語音免喚醒的道路上,各方都在進行嘗試|網絡

博泰目前在語音方面進行嘗試,即完全的全局免喚醒?!脯F在的技術是以喚醒來做識別,我們正在嘗試以識別做喚醒?!雇跣∪A向極客公園表示,現在只是匹配了一些喚醒詞的模型,只要說出關鍵詞就自動喚醒,未來可以以任何方式說出指令,系統自動辨別是閑聊、打電話,還是控制車輛。

以上,可以看出大家的發展方向殊途同歸。再向前看,多模態交互已經初現端倪。

2018年CES上,Nuance宣布為其Dragon Drive汽車平臺推出新的人工智能功能。除了Just Talk這個語音免喚醒功能之外,Nuance還提出了更大膽的想法:凝視檢測。根據多模態交互,系統可將眼睛軌跡和頭部角度與精確的汽車定位,以及3D環境建模相結合,以跟蹤用戶的注視。當用戶查看車輛內外的對象,并隨便說出它,比如一家餐廳,人工智能根據Just Talk功能和上下文推理,就能很明確地知道用戶想知道的是什么。

Nuance的just talk功能| engadget

諸如地平線、Baidu等公司,都在向多模態交互嘗試。根據唇部的動作,系統能識別出用戶說的話,并分析語義是否為指令。

在自然交互中,語言傳遞的信息只占一小部分,通過手勢、動作、表情等傳遞的信息占到大部分,所以未來的交互趨勢絕不僅限于語音這一方面,一系列動作都將成為我們在車內的「喚醒詞」

相關文章

IT之家,軟媒旗下科技門戶網站 - 愛科技,愛這里。

Copyright (C)RuanMei.com, All Rights Reserved.

軟媒公司版權所有

新浪三分彩倍数 江苏快三开奖计划 全天腾讯分分彩开奖 腾讯分分彩技巧 欢乐生肖计划网