合成數(shù)據(jù)生成器可以解決人工智能的偏見問題
人工智能偏見是一個(gè)嚴(yán)重的問題,可能對(duì)個(gè)人產(chǎn)生各種后果。
隨著人工智能的發(fā)展,圍繞數(shù)據(jù)科學(xué)解決方案的問題和道德困境開始浮出水面。因?yàn)槿祟愐呀?jīng)將自己排除在決策過程之外,他們希望確保這些算法做出的判斷既不帶有偏見,也不帶有歧視性。人工智能必須在任何時(shí)候都受到監(jiān)督。我們不能說這種可能的偏見是由人工智能引起的,因?yàn)槠涫且粋€(gè)基于預(yù)測(cè)分析的數(shù)字系統(tǒng),可以處理大量數(shù)據(jù)。這個(gè)問題在更早的時(shí)候就開始了,即“輸入”到系統(tǒng)中的無監(jiān)督數(shù)據(jù)。
縱觀歷史,人類一直存有偏見和歧視。我們的行動(dòng)似乎不會(huì)很快改變。在系統(tǒng)和算法中發(fā)現(xiàn)了偏見,與人類不同,這些系統(tǒng)和算法似乎對(duì)這個(gè)問題免疫。
什么是人工智能偏見?
當(dāng)獲取數(shù)據(jù)的方式導(dǎo)致樣本不能正確代表利益群體時(shí),AI偏差就會(huì)在數(shù)據(jù)相關(guān)領(lǐng)域發(fā)生。這表明來自特定種族、信仰、膚色和性別的人,在數(shù)據(jù)樣本中沒有得到充分代表。這可能會(huì)導(dǎo)致系統(tǒng)做出鑒別性的結(jié)論。還引發(fā)了關(guān)于什么是數(shù)據(jù)科學(xué)咨詢以及其的重要性的問題。
AI中的偏見并不意味著創(chuàng)建的AI系統(tǒng)會(huì)故意偏向于特定的人群。人工智能的目標(biāo)是使個(gè)人能夠通過示例而不是指令來表達(dá)他們的愿望。所以,如果AI有偏差,那只能是因?yàn)閿?shù)據(jù)有偏差!人工智能決策是一個(gè)在現(xiàn)實(shí)世界中運(yùn)行的理想化過程,其無法掩蓋人類的缺陷。結(jié)合引導(dǎo)學(xué)習(xí)也是有利的。
為什么會(huì)發(fā)生?
人工智能偏見問題的出現(xiàn)是由于數(shù)據(jù)可能包含基于先入為主的人類選擇,這有利于得出良好的算法結(jié)論。在現(xiàn)實(shí)生活中,有幾個(gè)關(guān)于人工智能偏見的例子。種族人士和著名的變裝皇后被谷歌的仇恨言論檢測(cè)系統(tǒng)歧視。10年來,亞馬遜的人力資源算法主要是提供男性員工數(shù)據(jù),這導(dǎo)致女性候選人更有可能被評(píng)為符合亞馬遜的工作資格。
麻省理工學(xué)院(MIT)的數(shù)據(jù)科學(xué)家表示,人臉識(shí)別算法在分析少數(shù)族裔(尤其是少數(shù)族裔女性)的面孔時(shí),出錯(cuò)率更高。這可能是因?yàn)樵撍惴ㄔ谟?xùn)練過程中主要提供了白人男性的面孔。
由于亞馬遜的算法是根據(jù)其在美國(guó)的1.12億Prime用戶,以及數(shù)千萬經(jīng)常光顧該網(wǎng)站,并經(jīng)常使用其其他商品的額外個(gè)人的數(shù)據(jù)進(jìn)行訓(xùn)練的,因此該公司可以預(yù)測(cè)消費(fèi)者的購買行為。谷歌的廣告業(yè)務(wù)是基于預(yù)測(cè)算法的,該算法由其每天進(jìn)行的數(shù)十億次互聯(lián)網(wǎng)搜索以及市場(chǎng)上25億部Android智能手機(jī)的數(shù)據(jù)提供。這些互聯(lián)網(wǎng)巨頭建立了龐大的數(shù)據(jù)壟斷企業(yè),在人工智能領(lǐng)域擁有近乎不可逾越的優(yōu)勢(shì)。
合成數(shù)據(jù)如何幫助解決人工智能偏見?
在一個(gè)理想的社會(huì)中,沒有人會(huì)受到偏見,每個(gè)人都將擁有平等的機(jī)會(huì),無論膚色、性別、宗教或性取向。然而,其存在于現(xiàn)實(shí)世界中,那些在某些地區(qū)與大多數(shù)人不同的人更難找到工作和獲得教育,這使他們?cè)谠S多統(tǒng)計(jì)數(shù)據(jù)中被低估。根據(jù)人工智能系統(tǒng)的目標(biāo),這可能會(huì)導(dǎo)致錯(cuò)誤的推斷,即這類人技能較低,不太容易被納入這些數(shù)據(jù)集,以及不太適合獲得良好的分?jǐn)?shù)。
另一方面,人工智能數(shù)據(jù)可能是朝著公正的人工智能方向邁出的一大步。以下是一些需要考慮的概念:
查看現(xiàn)實(shí)世界的數(shù)據(jù),看看偏差在哪里。然后,利用真實(shí)世界的數(shù)據(jù)和可觀察到的偏差,合成數(shù)據(jù)。如果想要?jiǎng)?chuàng)建理想的虛擬數(shù)據(jù)生成器,需要包含一個(gè)公平定義,其可試圖將有偏差的數(shù)據(jù)轉(zhuǎn)換為可能被認(rèn)為是公平的數(shù)據(jù)。
人工智能生成的數(shù)據(jù)可能會(huì)填補(bǔ)數(shù)據(jù)集中變化不大或不夠大的空白,從而形成一個(gè)公正的數(shù)據(jù)集。即使樣本量很大,也有可能有些人被排除在外,或者與其他人相比,代表性不足。這個(gè)問題必須使用合成數(shù)據(jù)來解決。
數(shù)據(jù)挖掘可能比生成公正的數(shù)據(jù)更昂貴。實(shí)際的數(shù)據(jù)收集需要測(cè)量、采訪、大量的樣本,并且無論如何都需要付出很多努力。人工智能生成的數(shù)據(jù)價(jià)格低廉,而且只需要使用數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)算法即可。
合成數(shù)據(jù)生成器可以解決人工智能的偏見問題
過去幾年,許多盈利性合成數(shù)據(jù)公司以及Synthea的創(chuàng)始人MitreCorp.的高管都注意到,人們對(duì)他們的服務(wù)的興趣激增。然而,隨著算法被更廣泛地用于做出改變生活的決定,人們發(fā)現(xiàn)它們會(huì)加劇種族主義、性別歧視和其他高影響領(lǐng)域的有害偏見,包括面部識(shí)別、犯罪預(yù)測(cè)和醫(yī)療保健決策。研究人員表示,使用算法生成的數(shù)據(jù)訓(xùn)練算法,會(huì)增加人工智能系統(tǒng)在許多情況下延續(xù)有害偏見的可能性。
(來源:千家網(wǎng))