人工智能的五個核心領(lǐng)域
國際機器人專家馬歇爾·赫伯特認為,機器人的研究主要分為五個領(lǐng)域:機器人的硬件構(gòu)造及控制;機器人的感知;機器學(xué)習(xí);自主性;人機交互。

以下為國際知名機器人專家、美國卡耐基梅隆大學(xué)機器人研究所所長馬歇爾·赫伯特教授的演講實錄,題目為“人工智能的前沿技術(shù)與實例分析”。

大家下午好!很高興能來這里,謝謝能給我做這個演講的機會。

今天,我將要介紹卡內(nèi)基梅隆大學(xué)機器人研究所中進行的研究的主要方向。我希望能讓大家了解我們研究的關(guān)鍵方向和嘗試解決的核心挑戰(zhàn)。首先,我將說明機器人學(xué),尤其是機器人學(xué)的應(yīng)用,指的是什么?;旧?,我們嘗試著眼于工作、科學(xué)和生活的所有領(lǐng)域中機器人學(xué)的應(yīng)用。
現(xiàn)場機器人學(xué),這個領(lǐng)域中機器人代替人類完成危險或困難的工作,像建筑、采礦、農(nóng)業(yè)等等。建筑業(yè)中,機器人和人類合作實現(xiàn)更快更好的建筑任務(wù)。我的演講之后Bourne將詳細介紹這一部分。運輸和物流業(yè)中,自動駕駛汽車等設(shè)備在改善交通運輸。醫(yī)療機器人領(lǐng)域,機器人和人類一起工作。還有基礎(chǔ)設(shè)施監(jiān)控領(lǐng)域。我們考察所有這些機器人應(yīng)用。
讓我展示一些例子。這是從事采礦和設(shè)施部署的自動駕駛卡車。這是可以組裝和拆卸物體的操作系統(tǒng)。這是另一個大型項目,完成飛機檢查、噴漆和去漆任務(wù),這些任務(wù)需要非常大的機器人相互協(xié)作。這是一個更加復(fù)雜的機器人,具有操作、局部運動、感知等功能,可以完成在這種環(huán)境中的復(fù)雜任務(wù)。以上例子向大家展示了我們?yōu)榱祟I(lǐng)域中多種多樣的應(yīng)用場景建造的機器人系統(tǒng)。
今天我希望能讓大家對我們?yōu)榱私⑦@樣的機器人系統(tǒng)而進行的研究有一個認識。這些研究可以被分為這些類別。
在底層,我們關(guān)心機器人的硬件構(gòu)造,以及如何進行控制,這部分稱為動作(action)。在現(xiàn)實中,機器人的硬件構(gòu)造只是我們研究的一小部分。其他大部分研究中我們關(guān)心機器人的智能,而不只是機器人的硬件結(jié)構(gòu)。這包括了機器人的感知(perception),也就是機器人利用傳感器感知和理解環(huán)境的能力;機器學(xué)習(xí)(learning),即從數(shù)據(jù)中學(xué)習(xí)模型的能力,機器人可以學(xué)會如何移動、觀察、決策;自主性(autonomy),即自主決策和對環(huán)境做出反應(yīng)的能力;最后,是人機交互(human interaction)。
很多機器人需要處理的問題都是和人而不是和機器人相關(guān)的。它們需要理解人類行為,并和人類進行交互。這是機器人學(xué)中發(fā)展最快的研究領(lǐng)域之一。我將展示在以上這些領(lǐng)域中我們基礎(chǔ)研究的主要方向。
一、機器人運動部分,即機器人的硬件構(gòu)造和控制
我們主要關(guān)注三個主要的領(lǐng)域。
第一個是讓機器人可以和人類一樣完成非常復(fù)雜和精細的操作。
這個例子是機器人展示一個沒有應(yīng)用價值的操作,但是它展示了這個操作的難度。這個任務(wù)需要對機器人控制和硬件的物理性質(zhì)有極高的理解。這些關(guān)于機器人精細操作的研究是一個很大的研究領(lǐng)域。
第二個領(lǐng)域是設(shè)計能在困難的環(huán)境中完成任務(wù)的機器人。
這是我們仿生機器人實驗室(BioRobotics Lab)中的一項研究,一個可以像蛇一樣運動的蛇形機器人。這個機器人可以像蛇一樣運動,完成一些復(fù)雜任務(wù)。這項技術(shù)可以用于環(huán)境檢查、制造業(yè)、救援等場景中,機器人可以進入一些十分復(fù)雜的環(huán)境中。最近墨西哥城地震后,這個機器人參與了對損毀建筑的搜救工作。這個領(lǐng)域的研究有很多應(yīng)用。在這個領(lǐng)域的研究中,如果我們可以設(shè)計出非常精妙的機器人結(jié)構(gòu),我們就可以制造出非常多有趣的機器人,它們可以應(yīng)用到很多領(lǐng)域當(dāng)中。
想象一下,如果縮小機器人的尺寸,小到它可以進入人類的身體當(dāng)中,就可以造出這款機器人。背景中的搏動是心臟的跳動,這個機器人正在心臟上方爬行。上方的圖像是機器人的相機看到的場景。我希望這對大家來說并不是太血腥。這是我們對機器人學(xué)研究的看法的一個例子。
我們從多自由度機械結(jié)構(gòu)這些基本概念出發(fā),將它們應(yīng)用到各種各樣的應(yīng)用場景當(dāng)中,最后建成完整的系統(tǒng)。這款機器人已經(jīng)得到了商業(yè)化應(yīng)用,并已經(jīng)獲得了在手術(shù)中應(yīng)用的許可。匹茲堡大學(xué)的一個團隊已經(jīng)使用這款機器人完成十分復(fù)雜的手術(shù),如癌癥組織的切除。這款機器人可以在不進行切割的情況下完成手術(shù),這是手術(shù)技術(shù)很大的進步。以上就是我們工作的第二部分,設(shè)計具有精妙結(jié)構(gòu)的機器人,來完成現(xiàn)在完全無法完成的任務(wù)。比如在不切割的情況下進行手術(shù),搜救,檢查等等,這些任務(wù)現(xiàn)之前是無法完成的。
機器人運動中的第三個研究領(lǐng)域是機器人的模塊化,和機器人的重新組裝。
這在實際中是在機器人研究中取得進展的一項主要障礙。像在制造業(yè)中,為了某個特定應(yīng)用場景設(shè)計機器人時,需要花費大量成本和努力來對機器人進行設(shè)計和編程。完成之后,如果需要對機器人生產(chǎn)的產(chǎn)品進行一個很小的改動,整個系統(tǒng)都需要進行成本很高的重新設(shè)計和安裝,顯然這是不符合可持續(xù)性要求的。除非有大量的資源和人力,這并不是一個合理的方式。解決方案和軟件設(shè)計中的設(shè)計模式類似。在軟件開發(fā)中,我們可以從軟件庫和模塊開發(fā)十分復(fù)雜的應(yīng)用程序。我們希望從機器人模塊出發(fā)實現(xiàn)類似的事情。
這些紅色的部件都是機器人的一個模塊,包括了硬件和軟件。當(dāng)我們將它們連接到一起時,它們可以互相通訊。可以對它們進行十分快速的編程,所以可以以很快的速度搭建機器人系統(tǒng)。這是一場**,正如60年前軟件行業(yè)放棄從頭編寫程序的工作模式,開始從軟件庫和模塊開始構(gòu)建軟件一樣。這其中的挑戰(zhàn)是模塊不再只是軟件,而也是硬件。這是一個應(yīng)用的例子。
這段視頻展示了在不到30分鐘的時間內(nèi)搭建一臺全功能的物體操作機器人并對他進行編程。這就相當(dāng)于從現(xiàn)有的模塊開始快速完成編程。此前這對于機器人來說是不可能的,因為機器人的硬件結(jié)構(gòu)。這也是我們關(guān)心的一個大的領(lǐng)域。將這些想法和其他一些想法結(jié)合(其中一些之后Bourne會在機器人協(xié)作制造業(yè)中為大家介紹),我們建立了一個新的高級機器人制造研究院。這個研究院關(guān)心如何更加靈活地使用機器人,比如如何快速重組機器人系統(tǒng),讓機器人和人緊密協(xié)作。以上是機器人硬件結(jié)構(gòu)和控制領(lǐng)域。
二、智能機器人的感知、理解環(huán)境的能力
我們在機器人感知領(lǐng)域有一個很大的團隊,關(guān)注4個大的核心方向。第一個是環(huán)境理解和物體識別。這是一個自動駕駛的例子。左邊是輸入視頻,右邊則是對視頻內(nèi)容的理解,每個不同的物體和區(qū)域用不同的顏色標(biāo)出。為了能讓機器人做出智能的決策,對環(huán)境有著盡可能詳細的理解十分關(guān)鍵。
你們可能對深度學(xué)習(xí)技術(shù)十分熟悉。過去幾年中,這項技術(shù)是**性的,而且正在快速發(fā)展,多虧了神經(jīng)網(wǎng)絡(luò),機器學(xué)習(xí),深度學(xué)習(xí)技術(shù)。這項技術(shù)的一個關(guān)鍵問題是它需要非常多的數(shù)據(jù)進行訓(xùn)練。而在有些人期望的場景中,如交通信號或者區(qū)分這個物體和那個物體,設(shè)計這個系統(tǒng)的方法很有限,而且很難擴展,很難真正的適用于實際場景。我們想做的是使用非常少的樣本訓(xùn)練出識別的系統(tǒng)。例如,當(dāng)我在能識別這個物體之前,我不需要看關(guān)于這個物體的上百萬個樣本。我只要看過這個物體一次,今后就能認出它。怎么在計算機視覺,在感知中做到這些,是我們的一個主要研究方向,也是一個現(xiàn)在面臨的主要挑戰(zhàn)。
之前我們講的識別環(huán)境,理解環(huán)境是感知的第一個關(guān)鍵領(lǐng)域。下面我要講述的另一個關(guān)鍵領(lǐng)域是時空重建。時空重建意味著,你能通過一系列傳感器數(shù)據(jù),盡可能精確的重建出世界模型。這里的例子,用的是三維點云,這實際上是一座橋,有一個飛行器從橋下以一個自然的速度飛過。
這里的挑戰(zhàn)是,重建精確世界模型的系統(tǒng)需要越簡單越好,越便宜越好,越小型越好。用一個價值百萬的非常復(fù)雜的傳感器系統(tǒng)來做這些是沒什么應(yīng)用價值的,而這里用的是一個非常便宜的無人機計算出來的。這是另一個自動駕駛的例子。
自動駕駛中的一個關(guān)鍵問題是在沒有GPS的情況下,只從傳感器數(shù)據(jù),實時的,盡可能精確的進行定位和建圖。這是一個汽車以大約100km/h的速度在匹茲堡的街道上行駛的例子,結(jié)合激光數(shù)據(jù)和視覺數(shù)據(jù),進行一次非常精確的重建工作。這是一項最新技術(shù)的例子。這家無人機以60km/h的速度運行,這里的重建是實時的,在飛行中重建出了當(dāng)時的3D環(huán)境。
上面是我們的60km/h速度的實時3D場景重建技術(shù),它被用在無人機控制中。和靜態(tài)3D場景重建相比,更具挑戰(zhàn)性的是動態(tài)場景的重建。場景是動態(tài)的,動態(tài)指的是場景里的物體是運動的。這里花費了我們很多的精力。這是一個全世界獨有的設(shè)備,叫做全景工作室(Panoptic Studio)。
圖里面的你能看到的每一個黑色小點都是一個攝像頭,在這個穹頂當(dāng)中有500個攝像頭同時對場景進行觀測。這是一個示例場景,現(xiàn)在有很多東西都在運動,我們有這個場景的500個不同視角的同步觀測結(jié)果。從這些觀察數(shù)據(jù)中,我們不僅能重構(gòu)出這個場景的三維結(jié)構(gòu),還能構(gòu)建出更細節(jié)的東西,場景中物體的瞬時動作。這里面的每一個軌跡都是場景中每一個特征的運動軌跡。可以看出,我們重建的非常的精確,場景中的任何物體都被構(gòu)建了出來。******** Oculus的Oculus VR就是受這項技術(shù)啟發(fā)開發(fā)的。
以上我們展示的是固定在實驗室中的固定攝像頭。我們還可以使用來自網(wǎng)上的視頻。這是一系列拍攝城市的視頻。他們可以來自汽車、公共設(shè)施。我們要做的是將所有的這些數(shù)據(jù)整合成一個完整的世界模型。我們不但能三維重建環(huán)境,還能三維重建任何在環(huán)境中運動的物體。這可以看出我們可以通過整合傳感器數(shù)據(jù),重建出很精確的模型。這是我們的第二個關(guān)鍵領(lǐng)域。
第三個關(guān)鍵領(lǐng)域是對人的理解。我之前提到了,機器人學(xué)中一個非常大的領(lǐng)域是和人進行交互。為了能與人交互,系統(tǒng)必須能理解人,理解人是如何運動的,理解人的面部表情,我在看向什么地方,理解人的意圖,理解人的內(nèi)部狀態(tài)等等。一個重要的動作是理解面部特征,這是一個例子,實時跟蹤,視頻中只顯示了一部分的特征。
事實上他會跟蹤更多的信息,跟蹤幾乎所有的面部肌肉運動,從這里面我們就能提取出人的情感,人的意圖。這個例子是在導(dǎo)航過程中,觀察駕駛員并推測駕駛員的狀態(tài)。這是我這里的基本思想,理解面部表情。說說關(guān)于這項工作的兩件事。第一點是這項技術(shù)所需的主要突破是推進在底層使用的學(xué)習(xí)技術(shù)中使用的優(yōu)化算法。第二點是這項技術(shù)是來自另一個做面部矩陣(Facial Matrix)的公司(最近被********收購了),所以這項技術(shù)在不久將來很快就能加進各位的********平臺中。
理解面部表情是理解人的一個重要部分,但是另一個重要部分是理解人的姿態(tài)和動作。如果機器人和我一起走,我希望它能理解我的所有動作,我是怎么運動的。這是另一個工作。這是我們最新的一個叫OpenPose的軟件,現(xiàn)在它世界中各種各樣的場合都有所應(yīng)用。這個工作是同時跟蹤多數(shù)的目標(biāo)的姿態(tài)。一旦你做到了這點,就可以做很多很多應(yīng)用。對于自動駕駛的汽車,你能夠檢測到諸如行人在做什么的細節(jié);對于家庭機器人,它可以理解人是怎么運動的,怎么和機器人進行交互的。
然而這還是不夠。如果你想要知道人在做什么,你需要理解人的手是怎么運動的,是如何和環(huán)境進行交互的。我們在人的每根獨立的手指與環(huán)境交互的尺度上理解更多人動作的細節(jié)。你可以想象,現(xiàn)在系統(tǒng)能夠通過人操縱物體的過程,理解人在做什么,能夠從細節(jié)上理解制造業(yè)的操作中人與物體的交互過程。以上第三個感知的關(guān)鍵領(lǐng)域,讓機器能理解人。
第四部分是傳感器。為了做到上面提到的技術(shù),我們需要傳感器。我需要攝像頭,3D傳感器,RGBD傳感器來給我足夠好的數(shù)據(jù)來支持上述的各項技術(shù)。眾所周知,伴隨著智能機行業(yè),消費性電子行業(yè)的發(fā)展,我們在攝像頭,深度傳感器的數(shù)據(jù)質(zhì)量上取得了長足的進步。我們現(xiàn)在有非常好的攝像頭,非常好的深度傳感器,例如Kinect,realsense。從表面上看,傳感器問題已經(jīng)被解決了,我們有很好的傳感器能用。然而實際上并不是這樣的。事實上在現(xiàn)實中的機器人應(yīng)用中,當(dāng)我們需要他們時,這些傳感器并不能在我們需要的場景中使用。
首先,在我們希望使用這些傳感器的實際場合中,有非常復(fù)雜的照明和光線條件。我們還要能處理觀測難度高的透明的物體,如金屬制的反光物體。我們想能處理重要的物流或零售應(yīng)用。我們需要能處理各種極難處理的物體,這些物體是透明的,表面還會反射出人的倒影。
在室外自動駕駛場景中,我們要處理非常困難的逆光場景。在這些所有的條件下(例如壞天氣下雨下雪,室外場景)在這些所有條件下,現(xiàn)有的傳感系統(tǒng)基本上都會失效。任何現(xiàn)有的RGBD傳感器,像Kinect或realsense,在這些場景里都會失效。這些真實世界的環(huán)境條件就是我們想要處理的條件。
很多的大家知道的解決方案像激光掃描設(shè)備(例如Velodyne),他們的問題是依賴于機械,很大,很復(fù)雜。而像Kinect這樣的則在這些條件下表現(xiàn)的不好。為了搭建魯棒的機器人系統(tǒng),我們需要更好的傳感器。這是我們面對的一個主要挑戰(zhàn)。我們花費了大量的精力在傳感器技術(shù)中。
基本思路是如何精巧地構(gòu)建透射出去的光線和觀測反射回來的光線?;镜南敕ㄊ窃噲D區(qū)分出什么光是我們關(guān)心的,什么光是我們不關(guān)心的。如果你試圖透過塵土或者雨觀察,有一部分光會被灰塵反射、折射,這些光我們是不關(guān)心的,我們關(guān)心的是場景反射回的光。
所以這項工作的關(guān)鍵就是,我們要嘗試設(shè)計一個能區(qū)分這兩部分光的系統(tǒng)。這是一個叫Episcan的傳感器。它的工作原理十分簡單,一個非??煽康募す獍l(fā)射器和一個相機非常仔細地同步到一起。這樣它可以將光和目標(biāo)物體的深度信息從環(huán)境中其他的干擾反射中區(qū)分出來。這是我們的一個例子,傳感器試圖獲取燈的數(shù)據(jù)。
如果是通常的攝像機效果是這樣的。所有的東西都被燈光掩蓋住了。而我們的傳感器可以做到看見臺燈的內(nèi)部細節(jié),盡管我們投射的能量的強度并沒有左邊那么強,而且我們能夠得到這個臺燈的三維形狀,即使在存在強光干擾的情況下。這里是另外一個例子,測量戶外環(huán)境的三維數(shù)據(jù)。
我們沒有辦法用Kinect或者realsense等等來測量。最重要的部分是,這一類工作致力于開發(fā)在所有情況下都能展示清晰結(jié)構(gòu)和形狀的流明攝像機,無論室內(nèi)還是室外,無論物體什么類別。這種在所有情形下都能工作的檢測能力是很重要的。讓我們來看看我們在其他領(lǐng)域所做的事情。剛才所講的呢就是感知的領(lǐng)域,理解環(huán)境、重構(gòu)環(huán)境,包含了存在任意的移動,理解人的行為和其他比較麻煩的分析。
三、機器學(xué)習(xí)
這里要注意的是我們不可能顯式地對機器人編程,我們能做的,是從數(shù)據(jù)中學(xué)習(xí),以及從數(shù)據(jù)中學(xué)會如何對環(huán)境做出反饋。這是我們工作的重心。基本想法是要賦予機器人孩童那樣從經(jīng)歷中學(xué)習(xí)的能力??客嫠:团c環(huán)境互動,孩童學(xué)會了如何抓東西。這就是我們在機器學(xué)習(xí)中想要做類似的事。
這不意味著你要讓一個機器人從零開始學(xué)習(xí),而是說如果我們能夠?qū)W習(xí)一些策略,學(xué)習(xí)如何反饋環(huán)境,我們能夠讓機器人適應(yīng)力更強,對變換的環(huán)境更適應(yīng),同時讓他們從錯誤中吸取教訓(xùn)。這就是這類研究的基本想法。
讓我們來看一些例子。這是一個學(xué)習(xí)如何抓取物品的例子。這里我們讓機器人花了七百小時來嘗試抓取物品,有時成功,有時失敗,總共嘗試了有5萬次左右。如果你嘗試得足夠多,你就有了足夠多的成功和失敗的案例,你就能從中學(xué)習(xí)到如何對一個特定輸入采取行動的策略。
從這張圖能看到我們失敗和成功的案例。然后我們就學(xué)會了如何抓取物體?,F(xiàn)在屏幕上的物品是之前機器人沒有見過的,但是機器人卻知道如何通過之前的訓(xùn)練來判斷如何抓取他們。
這篇論文:
(Lerrel Pinto and Abhinav Gupta,Supersizing Self-supervision:Learning to Grasp from 50K Tries and 700 Robot Hours)
在2016年的IEEE ICRA會議上獲得了最佳論文獎?,F(xiàn)在我們看到了如何從經(jīng)歷中學(xué)習(xí)。
但是現(xiàn)在更令人興奮的是能夠?qū)W習(xí)一些更復(fù)雜的策略。就拿這個例子來說,只是學(xué)習(xí)了抓東西,而沒有學(xué)如何把東西拿穩(wěn),如何穩(wěn)定地操控。事實上我們可以走的更遠。這里我們讓機器人學(xué)習(xí)如何抵抗逆境,從而學(xué)會如何把東西抓穩(wěn)。這就跟小孩子如何學(xué)會判斷怎么抓,哪個方向更穩(wěn)是一樣的。這就是利用物理互動和對抗來學(xué)習(xí)更多復(fù)雜的策略。
現(xiàn)在為止講了操控和抓取的例子。另外一個我想提一下的是,多任務(wù)學(xué)習(xí)。在這里機器人除了能抓取,還能推,或者戳一個物體。所以一個研究領(lǐng)域就是如何跨任務(wù)地學(xué)習(xí),掌握多種技能。剛才講的都是操控相關(guān)的,你也可以學(xué)一些飛行之類的技能。這是個學(xué)習(xí)飛行的系統(tǒng)。
和剛才講的抓取一樣,這個也是靠不斷嘗試和犯錯來學(xué)習(xí)飛行策略的,利用深度學(xué)習(xí)的方法來學(xué)習(xí)策略。等到無人機學(xué)習(xí)了很多成功失敗之后,它便能僅僅利用搜集和學(xué)習(xí)到的數(shù)據(jù)真正自主飛行了。這些學(xué)到的復(fù)雜技能向我們展示了學(xué)習(xí)的強大之處。這些便是機器人系統(tǒng)的另一個重要部分。重申一下,我們的目標(biāo)不是讓機器人從零開始,我們的目的是讓機器人從數(shù)據(jù)中學(xué)習(xí)從而更有適應(yīng)性,更靈活。
四、自主性,自己決策的能力
這里有一個十年前的例子——DARPA挑戰(zhàn)賽。在第一個自動駕駛的公開賽中,我們當(dāng)時獲得了冠軍,這個隊伍后來到Google公司參與無人車研發(fā),開啟了整個無人車領(lǐng)域的工業(yè)和研究的發(fā)展。這個例子里展示的自主性就是自動駕駛。自動駕駛其實開始于很久以前。
這是1986年,也就是三十多年前的例子,一個在CMU開發(fā)的叫做NavLab的系統(tǒng)。車上面有基本的計算系統(tǒng),還有個超大的攝像頭,用藍色方框標(biāo)出的是一個激光雷達,應(yīng)該是第一個用于自動駕駛的激光雷達。這算是Velodyne的祖先,也是現(xiàn)在很多自動駕駛雷達的前身。它可以提供60×256的距離測量能力。如圖便是這個三十年前的自動駕駛的視頻。
這是利用神經(jīng)網(wǎng)絡(luò)的自動駕駛,以攝像頭拍攝的圖片為輸入,輸出控制方向的行為。這算是現(xiàn)在用于自動駕駛的模仿學(xué)習(xí),深度學(xué)習(xí)的初代版本。這是激光雷達看到的深度圖像。這也是一個證明時代科技發(fā)展的案例,從三十年前到現(xiàn)在。如果你們曾經(jīng)抱怨計算資源不夠,GPU不夠,這是當(dāng)時在NavLab系統(tǒng)內(nèi)部的情況,我們使用的是工作站來運行。
講了一些歷史之后,我們現(xiàn)在又在做些什么呢?我們現(xiàn)在基本在關(guān)注三個主要的挑戰(zhàn)。
第一個挑戰(zhàn)是自動駕駛現(xiàn)在不能實現(xiàn)安全的駕駛,比如不會碰撞,不會發(fā)生事故。我們想要的是讓駕駛的過程很自然,我們想生成自然的、能夠為其他駕駛員理解并合作的駕駛習(xí)慣。
第二個難點是要能讓模型把握環(huán)境的細節(jié),這對于在擁堵環(huán)境下的自動駕駛尤為重要。有許多的行人、許多復(fù)雜的反應(yīng),不僅需要知道物體在哪里,還要知道環(huán)境中物體的可能意圖和行為,比如預(yù)測行人或者其他車輛的活動、行為和相互作用。
最后,利用其他數(shù)據(jù)和其他車輛交流,也是一個重要的領(lǐng)域。我們整合盡可能多的數(shù)據(jù)和信息用于自主決策。這些就是在自主性中我們要關(guān)注的三個主要的領(lǐng)域。
五、機器人和人類的互動
能夠和人類互動是在機器人和其擴展領(lǐng)域中很關(guān)鍵的課題。我們關(guān)注的是深入理解人類行為,特別是人類的意圖。比如我把手像現(xiàn)在這樣移動,你應(yīng)該能猜到我要拿鼠標(biāo),我們大腦有一個內(nèi)部的模型知道我的行為和意圖。第一個要做的就是如何構(gòu)建這樣一個理解人類的模型,特別是能夠預(yù)測意圖和行為的模型。第二個要做的事如何利用這個預(yù)測模型與人互動,這和一些機器人合作的方式和技術(shù)有關(guān)。
我這里舉個例子,一個讓機器人系統(tǒng)和人類控制合作的極端條件下的例子,把人類的意圖和系統(tǒng)控制相結(jié)合。這是匹茲堡大學(xué)的癱瘓病人,她不能移動自己的手和腳,完全沒有行動能力。你能看到她擁有一個和她大腦相連的機械手臂,能夠接收大腦的信號,并根據(jù)信號來控制手臂。這個腦部連接技術(shù)是之前被使用過的,這個技術(shù)的問題在于她僅僅能比較粗略地控制手臂,不可能用大腦信號來做一些非常精確的操作。即使病人經(jīng)過了訓(xùn)練,她也不能夠成功完成有用的任務(wù),因為你沒辦法達到人類本身的控制水平。
這里的想法就是利用我之前所講的所有東西。先有一個視覺系統(tǒng)來捕捉和理解整個場景,加上一個意圖識別系統(tǒng)來理解人的意圖。就像我開始這樣移動,可能是要抓起這個鼠標(biāo),這個系統(tǒng)對人的意圖會有一些概率的預(yù)測。給定意圖之后,系統(tǒng)就能控制手臂、執(zhí)行任務(wù)。
極端的來說,一個人在想他要抓鼠標(biāo),然后系統(tǒng)知道了這一意圖并且執(zhí)行了任務(wù)。這是一種對來自大腦信號的控制和人工智能的控制的獨特的整合。
接下來是一個視頻的展示。右邊是完全來自大腦信號的機械手臂控制,左邊是整合了大腦信號和人工智能系統(tǒng)的手臂控制,也就是剛才講的意圖識別,場景理解等。右邊的情況下她不能抓取目標(biāo)物體,而左邊她可以順利完成。僅僅是這個簡單的抓取,對純大腦信號來說都是不可能的,卻在與人工智能系統(tǒng)的整合后變得可能了。這就是我在開頭所說的,我們真正感興趣的是我們以前不可能有的新技能,做這么多操作以前對這個病人來說是不可能的,這就是我說的賦予人新技能的機器人技術(shù)。
不過,抓一個東西顯然不是非常讓人興奮的操作。這里有一個更難的,對純大腦信號完全不可能的操作,開門就是一個這樣的例子。這里是整合了大腦信號和智能系統(tǒng)(這里是病人的頭部和大腦植入物體)。她即將使用整合了大腦信號和意圖識別等的系統(tǒng)來開門。這是一個聽起來不難但實際很難的操作,因為它包含了兩種不同的運動,將旋轉(zhuǎn)和平移如此精確地同時執(zhí)行,純粹的大腦信號控制是不可能做到的。
剛才講的分別是一個極端的例子和不那么極端的例子。讓我用這些技術(shù)整合起來的系統(tǒng)來結(jié)束這個話題。當(dāng)我們擁有了這么多科學(xué)技術(shù),我們需要把它們整合成一個完整的系統(tǒng),我目前為止講的都只是其中的成分之一,感知,學(xué)習(xí)等等。很多工作落在一些基本的事件上。這些圖片展示了一些完整系統(tǒng),采礦業(yè),農(nóng)業(yè),制造業(yè),以及探測業(yè)(一個非常大且重要的方面)。我們在不同的設(shè)備上做了很多工作,在國家機器人工程中心(在CMU),在這里我們能夠用剛才講到的來做一個更大的機器人系統(tǒng)。
我們來看看這些實際的機器人系統(tǒng)的主要挑戰(zhàn)又有什么。很重要的一點便是安全性和信任。在經(jīng)典的軟件系統(tǒng)和經(jīng)典的工程系統(tǒng),我們建立了良好的測試、驗證證明這些系統(tǒng)的框架,有一些正規(guī)化的、公式化的驗證軟件。
問題是,我們?nèi)绾卧O(shè)計正規(guī)化的驗證框架,驗證那些不僅僅是由軟硬件組成的系統(tǒng),而是基于數(shù)據(jù)學(xué)習(xí)的系統(tǒng)。因為現(xiàn)在一個系統(tǒng)的表現(xiàn)不僅僅取決于軟硬件的正確運行,也依賴于那些用來學(xué)習(xí)的數(shù)據(jù)。更難辦的是,如何去評估一個適應(yīng)時間改變的系統(tǒng)。
基于觀察的數(shù)據(jù)能夠隨著時間改變自己表現(xiàn)的系統(tǒng),我們?nèi)绾卧u估這些復(fù)雜的有不同方向用處的系統(tǒng),這些就是我們在建立系統(tǒng)時主要關(guān)注的一些領(lǐng)域,這是一個新興的致力于打造可信賴機器人的領(lǐng)域。這是一些我們的大項目的圖片,和驗證軟件一樣,驗證機器人系統(tǒng)。
我們需要有事實依據(jù)來驗證證明系統(tǒng)的表現(xiàn),從而使系統(tǒng)具有可預(yù)測的、能被人類所信賴和利用的表現(xiàn)。這是一個很小的例子,有一個人在與非常危險的工作環(huán)境互動,當(dāng)然是在保證安全的情況下,從而我們能更好觀測系統(tǒng)的表現(xiàn),得到一個可信賴的系統(tǒng)。這是另外一個無人機的例子。
對于自動的系統(tǒng)來說,適應(yīng)所有環(huán)境顯然是很困難的,所以我們需要有一個內(nèi)省或者叫做自我評估的系統(tǒng),讓系統(tǒng)能夠自己評價自己的表現(xiàn),然后在系統(tǒng)即將陷入困境、失敗之前采取正確措施。比如你在開車,突然你被大霧包圍,你立刻就能知道你的視覺系統(tǒng)肯定會失效。
我們需要賦予機器人同樣的能力,讓機器人能自我評估,并且在知道其表現(xiàn)會受影響的情況采取正確措施。這便是這一類工作的思想所在。
在圖中這里例子里,左邊的視頻是無人機的單目圖像,右邊是從無人機單眼攝像得到的三維圖像,最右邊是代表了可能失敗的概率,越高代表概率越大。無人機一邊飛行一邊檢測自己的飛行表現(xiàn),就像你開車時能知道視野如何,自己開車的表現(xiàn)會如何。這是我們在理解、衡量以及增強一個自動系統(tǒng)時關(guān)注的一方面。
更普遍來講,我們致力于建立自主系統(tǒng)的集成科學(xué)。它帶給我們正規(guī)化的工具和方法,把之前說的那些技術(shù)成分整合進在現(xiàn)實應(yīng)用中能被真正信賴的系統(tǒng)。以上就是我想和大家分享的。主要關(guān)注一些基礎(chǔ)的研究和方向,動作、感知、機器學(xué)習(xí)、自主性以及和人的交互,以及在技術(shù)集成領(lǐng)域的一些主要挑戰(zhàn),如何把技術(shù)成分融合成實際應(yīng)用的系統(tǒng)。我的演講就到此結(jié)束。