国产在线观看免费视频软件-亚洲国产成人在线观看-亚洲超丰满肉感bbw-在线亚洲天堂-欧美日韩一区二区三区不卡-97精品依人久久久大香线蕉97-日本高清不卡一区-国产精品果冻传媒-91精品国产吴梦梦-在线免费看毛片-黄色国产网站-岛国精品在线播放-免费在线看黄网址-天天操天天干天天摸-精品性视频-日韩色av色资源-三上悠亚影音先锋

美章網(wǎng) 資料文庫 財經(jīng)新聞話題檢測研究范文

財經(jīng)新聞話題檢測研究范文

本站小編為你精心準備了財經(jīng)新聞話題檢測研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

財經(jīng)新聞話題檢測研究

1引言

互聯(lián)網(wǎng)媒體的高速發(fā)展極大地擴大了財經(jīng)類新聞的受眾面,并因此使得證券市場與財經(jīng)類新聞的關(guān)系變得越來越緊密。Mitchell與Mulherin研究發(fā)現(xiàn)[1],股票市場的股票收益及交易量和道瓊斯每天的公告數(shù)量直接相關(guān)。Fang與Peress的研究表明[2]受到高度報道的股票收益率比那些很少被媒體關(guān)注的上市公司的收益率低。由此可知,股票的走勢較易受到財經(jīng)類新聞的影響。因此,為了讓投資者在短期內(nèi)及時獲取投資熱點,本文提出了基于財經(jīng)新聞話題檢測研究。傳統(tǒng)的話題檢測[3]研究主要有以下幾個方向。首先是基于關(guān)鍵詞的話題檢測,即使用TF-IDF算法或基于TF-IDF算法的改進算法,文獻[4]提出基于VSM改進的DF算法和TF-IDF算法計算文本相似度;文獻[5]在傳統(tǒng)的TF-IDF基礎(chǔ)上提出TF-IDF-KE算法來解決突發(fā)式熱點話題在聚類時特征不明顯的問題。但是傳統(tǒng)的基于關(guān)鍵詞的話題檢測存在二義性問題,為了解決這個問題,人們提出了語義模型[6][7]。最常見的語義模型是LDA模型[8],文獻[9]提出使用LDA話題模型檢測科技文獻話題,并計算冷門或熱門話題的影響力,提出趨勢分析。文獻[10]提出LDA-K-Means算法實現(xiàn)話題檢測,且在網(wǎng)絡(luò)食品安全問題中驗證話題檢測的結(jié)果;最后是融合關(guān)鍵詞和語義模型所做的改進,文獻[11]提出計算融合TF-IDF關(guān)鍵詞和LDA主題模型的相似度并基于k-means算法聚類獲得話題簇;文獻[12]提出多特征融合TF-IDF關(guān)鍵詞,LDA語義模型以及新聞命名實體的相似度并基于Single-Pass算法聚類獲取話題簇。上述研究均針對普通新聞,鑒于財經(jīng)新聞較普通新聞的實時性要求高,且有極強的領(lǐng)域?qū)傩?。而目前各大金融網(wǎng)站,例如新浪財經(jīng),和訊網(wǎng),東方財富網(wǎng)等,大多針對個股新聞進行檢測并分類,基于話題檢測實現(xiàn)財經(jīng)新聞分類的網(wǎng)站卻較少。因此,短期內(nèi)如何從海量非結(jié)構(gòu)化財經(jīng)新聞中有效地檢測熱門投資話題,成為本文研究的要點。文章考慮結(jié)合財經(jīng)新聞的特點,從多個角度提取新聞特征,構(gòu)建財經(jīng)新聞話題檢測模型。另外,針對新聞報道具有突發(fā)性和集中性的特點,為了避免將不同生命周期的新聞聚為一類,通常的做法是使用時間窗來切分新聞流。例如,文獻[13]首先對新聞按時間窗劃分,對同一個時間窗內(nèi)的文檔使用HAC算法聚類生成候選話題集合,提出SinglePass-KNN算法進行新話題的聚類;文獻[14]提出在每個時間窗口內(nèi)根據(jù)新聞的特點選取出最有可能談?wù)撔侣勈录奈⒉┛臀谋荆褂没旌暇垲愃惴ň垲惈@得新聞話題;文獻[15]以每個時間窗口上話題的變化情況研究話題內(nèi)容的演化,并使用ILDA模型根據(jù)文本到達時間增量建模。針對以上研究,文章根據(jù)財經(jīng)新聞的特點,基于時間窗切分新聞流,進而提出多特征融合的財經(jīng)新聞話題檢測模型MFFTDM(MultiFeatureFinancialNewsTopicDetectionModel)。

2財經(jīng)新聞話題檢測模型的構(gòu)建

財經(jīng)類新聞的報道成為影響股票走勢的重要因素之一,為了讓投資者在短期內(nèi)及時獲取投資熱點,本文提出并構(gòu)建多特征融合的財經(jīng)新聞話題檢測模型,該模型有以下幾個特點:(1)為了防止聚類時,將不同生命周期的財經(jīng)新聞聚為一類,構(gòu)建切分新聞流的時間窗。(2)根據(jù)財經(jīng)新聞實時性要求高,領(lǐng)域?qū)傩詮姷奶攸c,從多個不同的角度提取文本特征并構(gòu)建特征向量模型。(3)鑒于傳統(tǒng)凝聚層次聚類算法的時間復(fù)雜度高,聚類時耗時長的問題,提出最近鄰-凝聚層次聚類算法。

3話題檢測模型的相似度計算

3.1基于時間窗切分的新聞流

對于財經(jīng)新聞來說,通常在一個事件發(fā)生之后的一到兩天內(nèi),各大媒體會爭相報道該新聞事件,相關(guān)的新聞報道將呈爆發(fā)式增長。但是,隨著時間的推移,關(guān)于該事件的報道會逐漸減少并最后消失。也就是對某個熱門股票話題來說,它是有生命周期的。生命周期的開始是第一篇被判定為該話題的新聞,期間會有相關(guān)事件的報道,但是最終將以某個新聞事件的發(fā)生來宣告該話題的結(jié)束。文獻[16]提出使用時間老化理論為新聞事件建立生命周期模型,該模型包括新聞話題的出生,成長,衰退以及死亡。文獻[17]提出熱點話題的生命周期將經(jīng)過發(fā)酵,活躍和消亡的過程,并統(tǒng)計了2017年熱點話題的發(fā)酵期,活躍期。

3.2多特征融合文本相似度計算

對于每篇財經(jīng)新聞文本,本文將建立3.2.1-3.2.4節(jié)中的四種模型并分別計算新聞文本間的相似度。其中,常見的相似度計算方式有:歐氏距離,余弦距離,曼哈頓距離等。在文本聚類中,使用余弦公式來衡量文本相似度較為常見,因此本文計算文本間的余弦值。

4話題檢測中的文本聚類

文本聚類算法的選擇對于話題簇的生成至關(guān)重要。常見的文本聚類算法[19],例如k-means算法在聚類前需指定K的值,即話題簇的數(shù)目。由于本文中話題簇的數(shù)目未知,因此,文章選擇凝聚層次聚類算法HAC(HierarchicalAgglomerativeCluster)作為話題檢測過程中的聚類算法。但是傳統(tǒng)HAC算法的時間復(fù)雜度較高為2O(n),不適合處理大量文檔,為了改進這個問題,本節(jié)提出融合了HAC算法和KNN算法的最近鄰-凝聚層次聚類算法NNHAC(NearestNeibour-HierarchicalAgglomerativeCluster)。

4.1KNN分類算法的改進

KNN算法的主要思想為:若一個樣本在特征空間中K個最鄰近的樣本中的大多數(shù)都屬于某一個類別,則該樣本也屬于這個類別。本文中,由于K的值難以確定,因此采用設(shè)置閾值的方式對原始的KNN算法進行改進,進而分類過程中便于控制結(jié)果簇的數(shù)目,增強分類的靈活性。文章設(shè)定一個閾值S1,若某個樣本在特征空間中和其他樣本的相似度大于S1。

4.2最近鄰-凝聚層次聚類算法

本文在凝聚層次聚類算法的基礎(chǔ)上融合改進的KNN分類算法,提出最近鄰-凝聚層次聚類算法NNHAC。該算法通過設(shè)置兩個閾值,逐漸縮小聚類范圍,最終獲得話題簇,實現(xiàn)話題檢測的任務(wù)。

5實驗

本文的實驗數(shù)據(jù)來源于新浪財經(jīng),和訊網(wǎng)以及東方財富網(wǎng),采用Webmagic爬蟲工具進行爬取,所爬取的股票新聞從2017年1月-2017年9月,共34534條。采用中科院的NLPIR分詞工具對新聞文本分詞并構(gòu)建停用詞表去除停用詞。為了避免特殊性,文章從滬深300指數(shù)中隨機抽取10支股票用作研究對象。滬深300指數(shù)是反映滬深兩個市場整體走勢的“晴雨表”。指數(shù)樣本選自滬深兩個證券市場,覆蓋了大部分流通市值。成份股為市場中市場代表性好,流動性高,交易活躍的主流投資股票,能夠反映市場主流投資的收益情況。

5.1評價指標

常見的聚類效果評價指標[20]主要有以下幾種:F1-measure,Rand指數(shù)以及Jaccard指數(shù)等。本文選擇F1-measure指標對聚類效果進行評價。F1-measure將信息檢索中的準確率(precision)和召回率(recall)相結(jié)合對聚類結(jié)果進行評價。若一個類別的F值越高,則該類別的聚類結(jié)果就越好。

5.2相關(guān)閾值的確定

5.2.1LDA最優(yōu)主題數(shù)T的確定由于本實驗融合構(gòu)建LDA語義模型計算相似度,因此需要確定隱含主題topic的數(shù)目T,T的取值直接影響到聚類的效果。本實驗用HAC算法結(jié)合LDA主題模型計算相似度,最優(yōu)主題數(shù)T值從5開始遍歷到55,在每個T值下,分別設(shè)置凝聚層次聚類算法的閾值0-1(間隔為0.05),獲取每個T值下使得F值最大的閾值S2,記錄該T值和閾值S2用于確定最佳的主題數(shù)目T以及相似度閾值S2。

5.2.2最優(yōu)多特征融合系數(shù)的確定由于本文從四個角度提取文本特征并建立模型,根據(jù)所建立的四種模型計算其相似度并多特征融合這四種相似度。

5.2.3NNHAC算法閾值的確定為了確定文章第4節(jié)所提出的最近鄰-凝聚層次聚類NNHAC算法的最佳閾值,根據(jù)5.2.1節(jié)中確定的閾值S2,在S2之下,分別取不同的S1的值(其中S1>S2),S1的取值范圍為(0.55,1),當閾值S1,S2分別為0.55,0.65時,F(xiàn)值達到最大值0.7449,即最近鄰-凝聚層次聚類算法NNHAC的聚類效果達到最好。5.3實驗結(jié)果分析5.3.1NNHAC算法和HAC算法的比較為了比較傳統(tǒng)凝聚層次聚類HAC算法和最近鄰-凝聚層次聚類NNHAC算法的聚類準確度及耗時,本實驗在相同數(shù)據(jù)集下聚類進而記錄相應(yīng)的F值和耗時。

5.3.3各支股票聚類效果比較為了不失一般性,將本文所提出的多特征融合的財經(jīng)新聞話題檢測模型應(yīng)用,并分別計算每支股票的準確率,召回率以及F值,綜合計算得到各支股票新聞的平均準確率為0.92,平均召回率為0.72,平均F值為0.79。由結(jié)果可知,各支股票新聞話題檢測的聚類效果相近,因此本文所提出的話題檢測模型具有普遍適用性。

6結(jié)束語

文章建立一種基于多特征融合的財經(jīng)新聞話題檢測模型。該模型先從時間窗角度切分新聞流,在每個切分后的新聞流中,不僅從多個角度提取文本特征,并結(jié)合所提出的最近鄰-凝聚層次聚類算法進行聚類獲得話題簇。實驗結(jié)果表明,融合了多種特征的財經(jīng)新聞話題檢測模型在一定程度上提高了話題檢測的準確度,并且本文改進的聚類算法有效降低了聚類的時間復(fù)雜度。因此,該模型能夠進一步幫助投資者準確地發(fā)現(xiàn)短時間內(nèi)熱門股票新聞話題,及時捕捉投資熱點,輔助投資決策。

作者:譚夢婕;呂鑫;陶飛飛

中山市| 东光县| 万宁市| 林口县| 兴隆县| 名山县| 明水县| 永善县| 台南市| 无棣县| 仲巴县| 理塘县| 新晃| 公主岭市| 浪卡子县| 望江县| 华坪县| 高清| 内丘县| 金寨县| 原阳县| 丁青县| 定西市| 平武县| 札达县| 山东| 铁力市| 丰县| 宁化县| 武宁县| 甘孜县| 弥勒县| 尖扎县| 布尔津县| 和顺县| 平山县| 扶绥县| 罗甸县| 东源县| 东安县| 巩义市|