中文字幕在线天|亚洲一区二区三区手机版|少妇中文字幕乱码亚洲影视|最好看的久久综合伊人

      中國(guó)基因網(wǎng)您的位置:首頁(yè) >行業(yè)資訊 >

      窺視假新聞探測(cè)器的引擎蓋

      麻省理工學(xué)院研究人員在自動(dòng)化假新聞檢測(cè)系統(tǒng)的引擎下開(kāi)展了新工作,揭示了機(jī)器學(xué)習(xí)模型如何捕捉事實(shí)和虛假故事語(yǔ)言的微妙但一致的差異。該研究還強(qiáng)調(diào)了假新聞探測(cè)器應(yīng)如何進(jìn)行更嚴(yán)格的測(cè)試,以便對(duì)實(shí)際應(yīng)用有效。

      在2016年總統(tǒng)大選期間,美國(guó)作為一個(gè)概念被普及,假新聞是一種誤導(dǎo)讀者的宣傳形式,以便在網(wǎng)站上產(chǎn)生觀點(diǎn)或引導(dǎo)公眾輿論。

      窺視假新聞探測(cè)器的引擎蓋

      幾乎與問(wèn)題成為主流一樣快,研究人員開(kāi)始開(kāi)發(fā)自動(dòng)化假新聞檢測(cè)器 - 所謂的神經(jīng)網(wǎng)絡(luò),從大量數(shù)據(jù)“學(xué)習(xí)”,以識(shí)別指示虛假文章的語(yǔ)言線索。鑒于要評(píng)估的新文章,這些網(wǎng)絡(luò)可以以相當(dāng)高的準(zhǔn)確度,在受控制的環(huán)境中將事實(shí)與虛構(gòu)分開(kāi)。

      然而,一個(gè)問(wèn)題是“黑匣子”問(wèn)題 - 這意味著沒(méi)有人知道網(wǎng)絡(luò)在訓(xùn)練期間分析的語(yǔ)言模式。他們還接受了相同主題的培訓(xùn)和測(cè)試,這可能會(huì)限制他們推廣到新主題的潛力,這是分析互聯(lián)網(wǎng)新聞的必要條件。

      在會(huì)議和神經(jīng)信息處理系統(tǒng)研討會(huì)上發(fā)表的一篇論文中,研究人員解決了這兩個(gè)問(wèn)題。他們開(kāi)發(fā)了一種深度學(xué)習(xí)模型,學(xué)習(xí)如何檢測(cè)虛假和真實(shí)新聞的語(yǔ)言模式。他們的部分工作“打開(kāi)”黑匣子,找到模型捕獲的單詞和短語(yǔ),以進(jìn)行預(yù)測(cè)。

      此外,他們?cè)谟?xùn)練中沒(méi)有看到的新主題上測(cè)試了他們的模型。這種方法僅基于語(yǔ)言模式對(duì)單個(gè)文章進(jìn)行分類(lèi),語(yǔ)言模式更接近地代表新聞閱讀器的真實(shí)世界應(yīng)用程序。傳統(tǒng)的假新聞檢測(cè)器基于文本結(jié)合源信息對(duì)文章進(jìn)行分類(lèi),例如維基百科頁(yè)面或網(wǎng)站。

      “在我們的案例中,我們想要了解僅基于語(yǔ)言的分類(lèi)器的決策過(guò)程是什么,因?yàn)檫@可以提供關(guān)于假新聞?wù)Z言的見(jiàn)解,”共同作者Xavier Boix說(shuō),他是實(shí)驗(yàn)室的博士后Eugene McDermott教授Tomaso Poggio教授在腦與認(rèn)知科學(xué)系(BCS)的腦,腦與機(jī)器中心(CBMM)。

      “機(jī)器學(xué)習(xí)和人工智能的一個(gè)關(guān)鍵問(wèn)題是你得到答案而不知道你為什么得到這個(gè)答案,”研究生和第一作者Nicole O'Brien '17說(shuō)。“展示這些內(nèi)部工作是邁向了解深度學(xué)習(xí)假新聞探測(cè)器可靠性的第一步。”

      該模型識(shí)別出在真實(shí)或虛假新聞中更頻繁出現(xiàn)的詞匯集合 - 有些可能是顯而易見(jiàn)的,有些則更為明顯。研究人員表示,研究結(jié)果表明,虛假新聞中的微妙但一致的差異 - 有利于夸張和最高級(jí) - 以及真正的新聞,更傾向于保守的詞語(yǔ)選擇。

      “假新聞是對(duì)民主的威脅,”Boix說(shuō)。“在我們的實(shí)驗(yàn)室中,我們的目標(biāo)不僅僅是推動(dòng)科學(xué)發(fā)展,而且還要利用技術(shù)來(lái)幫助社會(huì)......為用戶或公司提供工具來(lái)評(píng)估新聞是假的還是假的,這將是強(qiáng)大的。不。”

      該論文的其他合著者是CBMM的本科學(xué)生Sophia Latessa;和Georgios Evangelopoulos,CBMM的研究員,麥戈文腦研究所和計(jì)算與統(tǒng)計(jì)學(xué)習(xí)實(shí)驗(yàn)室。

      限制偏見(jiàn)

      研究人員的模型是一個(gè)卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練假新聞和真實(shí)新聞的數(shù)據(jù)集。對(duì)于培訓(xùn)和測(cè)試,研究人員使用了一個(gè)名為Kaggle的流行假新聞研究數(shù)據(jù)集,其中包含來(lái)自244個(gè)不同網(wǎng)站的大約12,000個(gè)假新聞樣本文章。他們還編制了一份真實(shí)新聞樣本的數(shù)據(jù)集,其中使用了紐約時(shí)報(bào)的2,000多份和“衛(wèi)報(bào)”的9,000多份。

      在訓(xùn)練中,模型將文章的語(yǔ)言捕獲為“單詞嵌入”,其中單詞表示為向量 - 基本上是數(shù)字?jǐn)?shù)組 - 具有相似語(yǔ)義含義的單詞更緊密地聚集在一起。在這樣做的過(guò)程中,它捕獲了三元組的單詞作為提供某些背景的模式 - 例如,對(duì)政黨的負(fù)面評(píng)論。給定一篇新文章,模型會(huì)掃描文本中的相似模式,并通過(guò)一系列圖層發(fā)送它們。最終輸出層確定每個(gè)模式的概率:真實(shí)或假。

      研究人員首先使用相同的主題以傳統(tǒng)方式訓(xùn)練和測(cè)試模型。但他們認(rèn)為這可能會(huì)在模型中產(chǎn)生一種固有的偏見(jiàn),因?yàn)槟承┲黝}往往是虛假或真實(shí)新聞的主題。例如,假新聞故事通常更可能包括“特朗普”和“克林頓”等字樣。

      “但這不是我們想要的,”奧布萊恩說(shuō)。“這只是顯示了在假新聞和真實(shí)新聞中強(qiáng)烈加權(quán)的話題。我們希望找到用于指示那些的語(yǔ)言的實(shí)際模式。”

      接下來(lái),研究人員在不提及“特朗普”一詞的情況下對(duì)所有主題進(jìn)行了模型訓(xùn)練,并僅對(duì)樣本中的模型進(jìn)行了測(cè)試,這些樣本已經(jīng)從訓(xùn)練數(shù)據(jù)中刪除,并且確實(shí)包含“特朗普”一詞。雖然傳統(tǒng)方法的準(zhǔn)確率達(dá)到93%,但第二種方法的準(zhǔn)確率達(dá)到了87%。研究人員表示,這種精確性差距突出了使用培訓(xùn)過(guò)程中提出的主題的重要性,以確保模型能夠?qū)⑺鶎W(xué)知識(shí)概括為新主題。

      需要更多的研究

      為了打開(kāi)黑匣子,研究人員接著回顧了他們的步驟。每當(dāng)模型對(duì)單詞三元組進(jìn)行預(yù)測(cè)時(shí),模型的某個(gè)部分就會(huì)激活,具體取決于三元組是否更可能來(lái)自真實(shí)或虛假的新聞故事。研究人員設(shè)計(jì)了一種方法,將每個(gè)預(yù)測(cè)回溯到指定的部分,然后找到使其激活的確切單詞。

      Boix說(shuō),需要更多的研究來(lái)確定這些信息對(duì)讀者的有用程度。將來(lái),該模型可能會(huì)與自動(dòng)事實(shí)檢查器和其他工具相結(jié)合,為讀者提供打擊錯(cuò)誤信息的優(yōu)勢(shì)。經(jīng)過(guò)一些改進(jìn)后,該模型還可以作為瀏覽器擴(kuò)展或應(yīng)用程序的基礎(chǔ),以提醒讀??者潛在的虛假新聞?wù)Z言。

      “如果我只是給你一篇文章,并在閱讀時(shí)突出文章中的那些模式,你可以評(píng)估這篇文章是否或多或少是假的,”他說(shuō)。“這有點(diǎn)像警告說(shuō),'嘿,也許這里有一些奇怪的東西。'”

      鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

      推薦內(nèi)容