中文字幕在线天|亚洲一区二区三区手机版|少妇中文字幕乱码亚洲影视|最好看的久久综合伊人

<dfn id="dnfxw"><code id="dnfxw"></code></dfn>

<address id="dnfxw"><nav id="dnfxw"><thead id="dnfxw"></thead></nav></address>

中國(guó)基因網(wǎng)您的位置：首頁(yè) >行業(yè)資訊 >

窺視假新聞探測(cè)器的引擎蓋

2019-02-08 11:35:38 ? 來(lái)源：

麻省理工學(xué)院研究人員在自動(dòng)化假新聞檢測(cè)系統(tǒng)的引擎下開(kāi)展了新工作，揭示了機(jī)器學(xué)習(xí)模型如何捕捉事實(shí)和虛假故事語(yǔ)言的微妙但一致的差異。該研究還強(qiáng)調(diào)了假新聞探測(cè)器應(yīng)如何進(jìn)行更嚴(yán)格的測(cè)試，以便對(duì)實(shí)際應(yīng)用有效。

在2016年總統(tǒng)大選期間，美國(guó)作為一個(gè)概念被普及，假新聞是一種誤導(dǎo)讀者的宣傳形式，以便在網(wǎng)站上產(chǎn)生觀點(diǎn)或引導(dǎo)公眾輿論。

幾乎與問(wèn)題成為主流一樣快，研究人員開(kāi)始開(kāi)發(fā)自動(dòng)化假新聞檢測(cè)器 - 所謂的神經(jīng)網(wǎng)絡(luò)，從大量數(shù)據(jù)“學(xué)習(xí)”，以識(shí)別指示虛假文章的語(yǔ)言線索。鑒于要評(píng)估的新文章，這些網(wǎng)絡(luò)可以以相當(dāng)高的準(zhǔn)確度，在受控制的環(huán)境中將事實(shí)與虛構(gòu)分開(kāi)。

然而，一個(gè)問(wèn)題是“黑匣子”問(wèn)題 - 這意味著沒(méi)有人知道網(wǎng)絡(luò)在訓(xùn)練期間分析的語(yǔ)言模式。他們還接受了相同主題的培訓(xùn)和測(cè)試，這可能會(huì)限制他們推廣到新主題的潛力，這是分析互聯(lián)網(wǎng)新聞的必要條件。

在會(huì)議和神經(jīng)信息處理系統(tǒng)研討會(huì)上發(fā)表的一篇論文中，研究人員解決了這兩個(gè)問(wèn)題。他們開(kāi)發(fā)了一種深度學(xué)習(xí)模型，學(xué)習(xí)如何檢測(cè)虛假和真實(shí)新聞的語(yǔ)言模式。他們的部分工作“打開(kāi)”黑匣子，找到模型捕獲的單詞和短語(yǔ)，以進(jìn)行預(yù)測(cè)。

此外，他們?cè)谟?xùn)練中沒(méi)有看到的新主題上測(cè)試了他們的模型。這種方法僅基于語(yǔ)言模式對(duì)單個(gè)文章進(jìn)行分類(lèi)，語(yǔ)言模式更接近地代表新聞閱讀器的真實(shí)世界應(yīng)用程序。傳統(tǒng)的假新聞檢測(cè)器基于文本結(jié)合源信息對(duì)文章進(jìn)行分類(lèi)，例如維基百科頁(yè)面或網(wǎng)站。

“在我們的案例中，我們想要了解僅基于語(yǔ)言的分類(lèi)器的決策過(guò)程是什么，因?yàn)檫@可以提供關(guān)于假新聞?wù)Z言的見(jiàn)解，”共同作者Xavier Boix說(shuō)，他是實(shí)驗(yàn)室的博士后Eugene McDermott教授Tomaso Poggio教授在腦與認(rèn)知科學(xué)系(BCS)的腦，腦與機(jī)器中心(CBMM)。

“機(jī)器學(xué)習(xí)和人工智能的一個(gè)關(guān)鍵問(wèn)題是你得到答案而不知道你為什么得到這個(gè)答案，”研究生和第一作者Nicole O'Brien '17說(shuō)。“展示這些內(nèi)部工作是邁向了解深度學(xué)習(xí)假新聞探測(cè)器可靠性的第一步。”

該模型識(shí)別出在真實(shí)或虛假新聞中更頻繁出現(xiàn)的詞匯集合 - 有些可能是顯而易見(jiàn)的，有些則更為明顯。研究人員表示，研究結(jié)果表明，虛假新聞中的微妙但一致的差異 - 有利于夸張和最高級(jí) - 以及真正的新聞，更傾向于保守的詞語(yǔ)選擇。

“假新聞是對(duì)民主的威脅，”Boix說(shuō)。“在我們的實(shí)驗(yàn)室中，我們的目標(biāo)不僅僅是推動(dòng)科學(xué)發(fā)展，而且還要利用技術(shù)來(lái)幫助社會(huì)......為用戶或公司提供工具來(lái)評(píng)估新聞是假的還是假的，這將是強(qiáng)大的。不。”

該論文的其他合著者是CBMM的本科學(xué)生Sophia Latessa;和Georgios Evangelopoulos，CBMM的研究員，麥戈文腦研究所和計(jì)算與統(tǒng)計(jì)學(xué)習(xí)實(shí)驗(yàn)室。

限制偏見(jiàn)

研究人員的模型是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，訓(xùn)練假新聞和真實(shí)新聞的數(shù)據(jù)集。對(duì)于培訓(xùn)和測(cè)試，研究人員使用了一個(gè)名為Kaggle的流行假新聞研究數(shù)據(jù)集，其中包含來(lái)自244個(gè)不同網(wǎng)站的大約12,000個(gè)假新聞樣本文章。他們還編制了一份真實(shí)新聞樣本的數(shù)據(jù)集，其中使用了紐約時(shí)報(bào)的2,000多份和“衛(wèi)報(bào)”的9,000多份。

在訓(xùn)練中，模型將文章的語(yǔ)言捕獲為“單詞嵌入”，其中單詞表示為向量 - 基本上是數(shù)字?jǐn)?shù)組 - 具有相似語(yǔ)義含義的單詞更緊密地聚集在一起。在這樣做的過(guò)程中，它捕獲了三元組的單詞作為提供某些背景的模式 - 例如，對(duì)政黨的負(fù)面評(píng)論。給定一篇新文章，模型會(huì)掃描文本中的相似模式，并通過(guò)一系列圖層發(fā)送它們。最終輸出層確定每個(gè)模式的概率：真實(shí)或假。

研究人員首先使用相同的主題以傳統(tǒng)方式訓(xùn)練和測(cè)試模型。但他們認(rèn)為這可能會(huì)在模型中產(chǎn)生一種固有的偏見(jiàn)，因?yàn)槟承┲黝}往往是虛假或真實(shí)新聞的主題。例如，假新聞故事通常更可能包括“特朗普”和“克林頓”等字樣。

“但這不是我們想要的，”奧布萊恩說(shuō)。“這只是顯示了在假新聞和真實(shí)新聞中強(qiáng)烈加權(quán)的話題。我們希望找到用于指示那些的語(yǔ)言的實(shí)際模式。”

接下來(lái)，研究人員在不提及“特朗普”一詞的情況下對(duì)所有主題進(jìn)行了模型訓(xùn)練，并僅對(duì)樣本中的模型進(jìn)行了測(cè)試，這些樣本已經(jīng)從訓(xùn)練數(shù)據(jù)中刪除，并且確實(shí)包含“特朗普”一詞。雖然傳統(tǒng)方法的準(zhǔn)確率達(dá)到93%，但第二種方法的準(zhǔn)確率達(dá)到了87%。研究人員表示，這種精確性差距突出了使用培訓(xùn)過(guò)程中提出的主題的重要性，以確保模型能夠?qū)⑺鶎W(xué)知識(shí)概括為新主題。

需要更多的研究

為了打開(kāi)黑匣子，研究人員接著回顧了他們的步驟。每當(dāng)模型對(duì)單詞三元組進(jìn)行預(yù)測(cè)時(shí)，模型的某個(gè)部分就會(huì)激活，具體取決于三元組是否更可能來(lái)自真實(shí)或虛假的新聞故事。研究人員設(shè)計(jì)了一種方法，將每個(gè)預(yù)測(cè)回溯到指定的部分，然后找到使其激活的確切單詞。

Boix說(shuō)，需要更多的研究來(lái)確定這些信息對(duì)讀者的有用程度。將來(lái)，該模型可能會(huì)與自動(dòng)事實(shí)檢查器和其他工具相結(jié)合，為讀者提供打擊錯(cuò)誤信息的優(yōu)勢(shì)。經(jīng)過(guò)一些改進(jìn)后，該模型還可以作為瀏覽器擴(kuò)展或應(yīng)用程序的基礎(chǔ)，以提醒讀??者潛在的虛假新聞?wù)Z言。

“如果我只是給你一篇文章，并在閱讀時(shí)突出文章中的那些模式，你可以評(píng)估這篇文章是否或多或少是假的，”他說(shuō)。“這有點(diǎn)像警告說(shuō)，'嘿，也許這里有一些奇怪的東西。'”

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如有侵權(quán)行為，請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除，多謝。

推薦內(nèi)容

<center id="uwe41"></center>