用AI讓數(shù)億失明者重新
以前,讓失明者重見光明往往被視為一種醫(yī)學「奇跡」。
而隨著以「機器視覺+自然語言理解」為代表的多模態(tài)智能技術的爆發(fā)式突破,給AI助盲帶來新的可能,更多的失明者將借助AI提供的感知、理解與交互能力,以另一種方式重新「看見世界」。
AI助盲,讓更多人重新「看見世界」
一般來說,目不能視的視障患者認知外界世界的渠道是除了視覺之外的其它感官感覺,比如聽覺、嗅覺和觸覺,這些其他模態(tài)的信息一定程度上幫助視障人士緩解了視力缺陷帶來的問題。但科學研究表明,在人類獲取的外界信息中,來自視覺的占比高達70%~80%。
因此基于AI構(gòu)建機器視覺系統(tǒng),幫助視障患者擁有對外界環(huán)境的視覺感知與視覺理解能力,無疑是最直接有效的解決方案。
在視覺感知領域,當下的單模態(tài)AI模型已經(jīng)在圖像識別任務上超越了人類水平,但這類技術目前只能實現(xiàn)視覺模態(tài)內(nèi)的識別及理解,難以完成與其他感覺信息交叉的跨模態(tài)學習、理解與推理,簡單來說,就是只能感知無法理解。
為此,計算視覺奠基人之一的DavidMarr在《視覺》一書中提出了視覺理解研究的核心問題,認為視覺系統(tǒng)應以構(gòu)建環(huán)境的二維或三維表達,并可以與之交互。這里的交互意味著學習、理解和推理。
可見,優(yōu)秀的AI助盲技術,其實是一個包含了智能傳感、智能用戶意圖推理和智能信息呈現(xiàn)的系統(tǒng)化工程,只有如此才能構(gòu)建信息無障礙的交互界面。
為了提升AI模型的泛化能力,使機器具備跨模態(tài)的圖像解析與理解能力,以「機器視覺+自然語言理解」為代表的多模態(tài)算法開始興起并飛速發(fā)展。
這種多個信息模態(tài)交互的算法模型,可以顯著提升AI的感知、理解與交互能力,一旦成熟并應用于AI助盲領域,將能夠造福數(shù)以億計的失明者,重新「看見世界」。
據(jù)世衛(wèi)組織統(tǒng)計,全球至少22億人視力受損或失明,而我國是世界上盲人最多的國家,占世界盲人總數(shù)的18%-20%,每年新增的盲人數(shù)量高達45萬。
從盲人視覺問答任務引發(fā)的「多米諾效應」
第一人稱視角感知技術,對于AI助盲來說意義重大。它無需盲人跳出參與者身份去操作智能設備,而是可以從盲人的真實視角出發(fā),幫助科學家們構(gòu)建更符合盲人認知的算法模型,這促使了盲人視覺問答這一基礎研究任務的出現(xiàn)。
盲人視覺問答任務是學術界研究AI助盲的起點和核心研究方向之一。但在現(xiàn)有技術條件下,盲人視覺問答任務作為一類特殊的視覺問答任務,相比普通視覺問答任務,精度提升面臨著更大的困難。
一方面,盲人視覺問答的問題類型更復雜,包括目標檢測、文字識別、顏色、屬性識別等各類問題,比如說分辨冰箱里的肉類、咨詢藥品的服用說明、挑選獨特顏色的襯衣、介紹書籍內(nèi)容等等。
另一方面,由于盲人這一感知交互主體的特殊性,盲人在拍照時,很難把握手機和物體間的距離,經(jīng)常會產(chǎn)生虛焦的情況,或者雖然拍攝到了物體,但沒有拍全,亦或是沒有拍到關鍵信息,這就大大增加了有效特征提取難度。
同時,現(xiàn)存的大部分視覺問答模型是基于封閉環(huán)境下的問答數(shù)據(jù)訓練實現(xiàn)的,受樣本分布限制嚴重,難以泛化到開放世界下的問答場景中,需要融合外部知識進行多段推理。
其次,隨著盲人視覺問答研究的開展,科學家們在研究過程中發(fā)現(xiàn),視覺問答會遭遇到噪聲干擾的衍生問題。因此如何準確定位噪聲并完成智能推理,也面臨重大挑戰(zhàn)。
盲人由于不具備對外界的視覺感知,因此在圖文配對的視覺問答任務中,往往會產(chǎn)生大量的錯誤。比如說,盲人去超市購物的時候,由于商品外觀觸感相似,很容易提出錯誤的問題,如拿起一瓶醋,卻詢問醬油的生產(chǎn)廠商是哪一家。這種語言噪聲往往會導致現(xiàn)有AI模型失效,需要AI能夠具有從龐雜的環(huán)境中分析噪聲與可用信息的能力。
最后,AI助盲系統(tǒng)不應僅僅解答盲人當下的疑惑,還應該具備智能意圖推理與智能信息呈現(xiàn)能力,而智能交互技術作為其中重要的研究方向,算法研究依然處于起始階段。
智能意圖推理技術的研究重點在于,通過讓機器不斷學習視障用戶的語言和行為習慣,來推斷其想要表達交互意圖。比如說,通過盲人端水杯坐下的動作,預測到可能會將水杯放置在桌子上的下一步動作,通過盲人詢問衣服顏色或樣式的問題,預測到可能會出行等等。
而這項技術的難點在于,由于使用者的表達方式和表達動作在時間和空間上都存在隨機性,由此引發(fā)了交互決策的心理模型同樣帶有隨機性,因此如何從連續(xù)隨機的行為數(shù)據(jù)中提取用戶輸入的有效信息,設計出動態(tài)非確定的多模態(tài)模型,從而實現(xiàn)對不同任務的最佳呈現(xiàn),非常關鍵。
專注AI助盲基礎研究,浪潮信息多項研究獲國際認可
毋庸置疑的是,在上述基礎研究領域的重大突破,才是AI助盲技術早日落地的關鍵所在。目前來自浪潮信息的前沿研究團隊通過多項算法創(chuàng)新、預訓練模型和基礎數(shù)據(jù)集構(gòu)建等工作,正在全力推動AI助盲研究的進一步發(fā)展。
在盲人視覺問答任務研究領域,VizWiz-VQA是卡內(nèi)基梅隆大學等機構(gòu)的學者們共同發(fā)起的全球多模態(tài)頂級盲人視覺問答挑戰(zhàn)賽,采用「VizWiz」盲人視覺數(shù)據(jù)集訓練AI模型,然后由AI對盲人提供的隨機圖片文本對給出答案。在盲人視覺問答任務中,浪潮信息前沿研究團隊解決了盲人視覺問答任務常見的多個難題。
首先,由于盲人所拍攝圖片模糊、有效信息少,問題通常也會更主觀、模糊,理解盲人的訴求并給出答案面臨挑性。
團隊提出了雙流多模態(tài)錨點對齊模型,將視覺目標檢測的關鍵實體及屬性作為連結(jié)圖片及問題的錨點,實現(xiàn)多模態(tài)語義增強。
其次,針對盲人拍攝圖片難以保證正確方向的問題,通過自動修正圖像角度及字符語義增強,結(jié)合光學字符檢測識別技術解決「是什么」的理解問題。
最后,盲人拍攝的畫面通常是模糊、不完整的,這導致一般算法難以判斷目標物體的種類及用途,需要模型需具備更充分的常識能力,推理用戶真實意圖。
為此,團隊提出了答案驅(qū)動視覺定位與大模型圖文匹配結(jié)合的算法,并提出多階段交叉訓練策略。推理時,將交叉訓練后的視覺定位和圖文匹配模型用于推理定位答案區(qū)域;同時基于光學字符識別算法確定區(qū)域字符,并將輸出文本傳送到文本編碼器,最終通過圖文匹配模型的文本解碼器得到盲人求助的答案,最終多模態(tài)算法精度領先人類表現(xiàn)9.5個百分點。
多模態(tài)視覺問答模型解決方案
當前視覺定位研究應用落地的最大障礙之一是對于噪聲的智能化處理,真實場景中,文本描述往往是有噪聲的,例如人類的口誤、歧義、修辭等。實驗發(fā)現(xiàn),文本噪聲會導致現(xiàn)有AI模型失效。
為此,浪潮信息前沿研究團隊探索了真實世界中,由于人類語言錯誤導致的多模態(tài)失配問題,首次提出視覺定位文本去噪推理任務FREC,要求模型正確定位噪聲描述對應的視覺內(nèi)容,并進一步推理出文本含噪的證據(jù)。
FREC提供3萬圖片和超過25萬的文本標注,囊括了口誤、歧義、主觀偏差等多種噪聲,還提供噪聲糾錯、含噪證據(jù)等可解釋標簽。
同時,團隊還構(gòu)建了首個可解釋去噪視覺定位模型FCTR,噪聲文本描述條件下精度較傳統(tǒng)模型提升11個百分點。
這一研究成果已發(fā)表于ACMMultimedia2022會議,該會議為國際多媒體領域最頂級會議、也是該領域唯一CCF推薦A類國際會議。
為探索AI在圖像和文本的基礎上進行思維交互的能力,浪潮信息前沿研究團隊給業(yè)界提出了一個全新的研究方向,提出可解釋智能體視覺交互問答任務AI-VQA,通過建立邏輯鏈在龐大的知識庫中進行檢索,對圖像和文本的已有內(nèi)容實現(xiàn)擴展。
目前,團隊構(gòu)建了AI-VQA的開源數(shù)據(jù)集,包含超過14.4萬條大型事件知識庫、全人工標注1.9萬條交互行為認知推理問題,以及關鍵對象、支撐事實和推理路徑等可解釋性標注。
同時,團隊提出的首個智能體交互行為理解算法模型ARE(encoder-decodermodelforalternativereasonandexplanation)首次端到端實現(xiàn)交互行為定位和交互行為影響推理,基于多模態(tài)圖像文本融合技術與知識圖譜檢索算法,實現(xiàn)了具備長因果鏈推理能力的視覺問答模型。
科技的偉大之處不僅僅在于改變世界,更重要的是如何造福人類,讓更多的不可能變成可能。
而對于失明者而言,能夠通過AI助盲技術像其他人一樣獨立的生活,而不是被特殊對待,恰恰體現(xiàn)了科技最大的善意。
在AI照入現(xiàn)實的當下,科技已經(jīng)不再是高山仰止的冰冷,而是充滿了人文關懷的溫度。
站在AI技術的前沿,浪潮信息希望,針對人工智能技術的研究,能夠吸引更多人一起持續(xù)推動人工智能技術的落地,讓多模態(tài)AI助盲的浪潮延伸到AI反詐、AI診療、AI災情預警等更多場景中去,為我們的社會創(chuàng)造更多價值。
來源:新智元