獲取高品質(zhì)、可用資料是影響人工智能發(fā)展的一個(gè)重要因素。即使人工智能正享受著聚光燈下的時(shí)刻,大數(shù)據(jù)領(lǐng)域內(nèi)的創(chuàng)新對(duì)人工智能技術(shù)的持續(xù)發(fā)展變得比以往更加重要。
第三階段人工智能中的資料完整性
人工智能發(fā)展的歷程可以分為三個(gè)階段。第一階段人工智能的特點(diǎn)是優(yōu)化和知識(shí)工程程式,它幫現(xiàn)實(shí)世界的問(wèn)題找到了有效的解決方案。第二階段人工智能的特點(diǎn)是機(jī)器學(xué)習(xí)程式,立基于統(tǒng)計(jì)概率的自動(dòng)模式識(shí)別。現(xiàn)在,我們已經(jīng)進(jìn)入了人工智能的第三階段:假設(shè)生成程式,或稱(chēng)上下文正?;?。第三階段人工智能程式有能力檢查巨大的資料集,識(shí)別統(tǒng)計(jì)模式,并創(chuàng)建解釋模式存在的演算法。
近年來(lái),人工智能專(zhuān)案在復(fù)雜資料集的分析能力上有了長(zhǎng)足的進(jìn)步,并產(chǎn)生了新的洞察力--甚至是那些跳脫人類(lèi)分析家的洞察力。當(dāng)IBM機(jī)器人「華生」(Watson)在美國(guó)電視益智問(wèn)答節(jié)目「Jeopardy!」擊敗人類(lèi)競(jìng)爭(zhēng)者時(shí),它使用了先進(jìn)的自然語(yǔ)言處理和廣泛的常識(shí)。
制藥公司,如嬌生公司和默克藥廠已經(jīng)開(kāi)始投資在類(lèi)似于第三階段的AI技術(shù),以獲得超越競(jìng)爭(zhēng)對(duì)手的優(yōu)勢(shì)。制藥公司采用這種技術(shù)已有重大發(fā)現(xiàn),如雷諾氏病患與魚(yú)油之間的關(guān)系。人工智能還有可能透過(guò)減少昂貴和耗時(shí)的錯(cuò)誤,戲劇化地加速藥物開(kāi)發(fā)過(guò)程。
當(dāng)然,AI也遭受了幾次高度公開(kāi)的失敗。許多這些失敗的原因,如IBM「華生」和休斯敦安德森癌癥研究中心(MD Anderson Cancer Center),在人工智能領(lǐng)域是一個(gè)相當(dāng)突出的問(wèn)題:資料集的完整性。在華生的案例中,當(dāng)安德森癌癥研究中心改變其電子病歷軟體系統(tǒng),華生就無(wú)法與新資料庫(kù)互動(dòng),需要額外整合才有辦法運(yùn)作。
全要靠資料
如果不能獲取可進(jìn)行分析和產(chǎn)生洞察力所需的資料,那么無(wú)論人工智能和機(jī)器學(xué)習(xí)演算法再怎么進(jìn)步也是于事無(wú)補(bǔ)的。
由于生物資料集的深度、密度和多樣性等因素,使得生命科學(xué)資料集是眾所周知的不足且難以處理。因此,生物研究在很大程度上須依賴手工策劃的資料集,必須創(chuàng)建和清理,以測(cè)試人工設(shè)想的假說(shuō)。在這一高度手動(dòng)的過(guò)程中所涉及的工作提高了研究成本和生物醫(yī)學(xué)產(chǎn)品的成本,如疫苗和生物技術(shù)。這一過(guò)程的耗時(shí)性意味著在學(xué)術(shù)期刊上發(fā)表結(jié)論時(shí)它們可能已經(jīng)過(guò)時(shí)了。
在這種緩慢、低效和容易出錯(cuò)的方式下創(chuàng)建和分析生物資料集,研究人員無(wú)意中造成了一個(gè)巨大的問(wèn)題,即出版物的偏差和醫(yī)學(xué)資料的不精確性。
有偏見(jiàn)和有缺陷的資料集是第一和第二階段AI程式的一個(gè)問(wèn)題,但是第三階段AI軟體受這些限制的影響最大。例如,在醫(yī)學(xué)術(shù)語(yǔ)中縮寫(xiě)的問(wèn)題。一個(gè)縮寫(xiě)經(jīng)常有各種各樣的意思-Ca,根據(jù)它的上下文,可能意味癌癥或鈣。第三階段AI程式依賴復(fù)雜的上下文資訊來(lái)執(zhí)行,而雜亂的、手工策劃的資料集降低了這些程式的有效性。
資料的改變
美國(guó)國(guó)會(huì)甫于今年(2009年)2月所通過(guò)的「經(jīng)濟(jì)與臨床健康資訊科技法」(The Health Information Technology for Economic and Clinical Health Act, HITECH)開(kāi)創(chuàng)了無(wú)處不在的電子病歷系統(tǒng)的時(shí)代。因此,現(xiàn)在有了豐富的資料集,包含即時(shí)、全面的生物資訊。這些新的資料集正在與生物專(zhuān)利、臨床試驗(yàn)、立法機(jī)構(gòu)、學(xué)術(shù)論文以及創(chuàng)新生態(tài)系統(tǒng)中的其他來(lái)源一起結(jié)合,以創(chuàng)造復(fù)雜的生物資料池。
直到最近,由于人類(lèi)在很大程度上的努力清理和組織資料使得這種大量的非結(jié)構(gòu)化資料才對(duì)計(jì)算程式有用。但現(xiàn)在,AI現(xiàn)在已經(jīng)進(jìn)步到足以使用先進(jìn)的演算法分析異構(gòu)資料并結(jié)合機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和先進(jìn)的文本分析。我們已經(jīng)從一個(gè)過(guò)時(shí)的、不完整的、不可獲取的資料世界進(jìn)入了一個(gè)新的模式,AI可以構(gòu)造以前非結(jié)構(gòu)化的資料來(lái)進(jìn)行即時(shí)分析和上下文正?;?。
第三階段AI為我們提供了干凈、集中的資料,反映了生物系統(tǒng)的復(fù)雜性。透過(guò)分析這些資料,我們可以深入了解當(dāng)前的生物醫(yī)學(xué)環(huán)境。