挖掘和分析文本來識別公司財務欺詐:針對財務報表和社交媒體的分析.pdf_第1頁
已閱讀1頁,還剩137頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、金融欺詐是一個嚴重的世界性問題。金融欺詐被定義為“一種違反法律、規(guī)章和政策來獲取未經授權的財務收益的故意行為”。除了財務損失,金融欺詐對世界經濟帶來了不可估量的重創(chuàng),也嚴重打擊了投資人對股市公正的信心。更為嚴重的是,美國公司金融欺詐的案例在過去十年間還有明顯上升。
  不僅僅是美國公司,中國公司也出現同樣的問題。隨著中國金融改革的不斷深化,許多總部在中國大陸的公司選擇在海外上市。從2010年開始,許多中概股公司被一些市場研究公司(

2、比如渾水公司和香櫞研究)做空。
  美國聯邦調查局調查的金融欺詐類型包括公司欺詐、證券商品欺詐、醫(yī)療欺詐、金融機構欺詐、抵押欺詐等。鑒于美國和中概股欺詐公司帶來的慘痛教訓,公司欺詐識別引來多方關注。在1997年至2008年期間發(fā)表的49篇有關金融欺詐識別的文章中,34.75%研究的是關于公司欺詐的,這是本研究也以公司欺詐作為研究目標的原因之一。此外,公司欺詐可以通過財務報表反映出來,因而有充足的數據,這是本文研究公司欺詐的原因之二

3、。
  本研究希望提出新的方法來幫助研究人員和財務專家更好的識別金融欺詐。
  鑒于財務報表中大部分的內容是文本,利用文本挖掘技術來識別財務欺詐的研究依然處于早期階段,現有提取的語言學特征還有許多問題。下面就現有研究的不足之處提出相應的研究問題。
  (1)從財報的文本中提取的語言學特征受限于自然語言的復雜性和模糊性。由于這些語言學特征的提取需要事先定義,因而不能提取文本的某些潛在特征。另外,現有的語言學特征多是詞頻統(tǒng)

4、計,詞與詞之間的依賴關系并沒有被考慮。因此,本文的第一個研究問題是如何自動提取財報中的語言學特征,并且將詞的依賴關系提取出來。
  (2)現有研究基于不同的語言學和心理學理論從財報的文本中提取了一系列的語言學特征,然而卻缺少一套專門用于財報文本分析和特征提取的指南。因此,本文的第二個研究問題就是如何設計一個系統(tǒng)的理論性的文本分析框架來指導財務欺詐的識別。
  (3)現有公司欺詐識別文獻都一成不變的使用財報中的數值和文本來做識

5、別,然而財報中的內容本質上都反映過去的信息,并且僅僅看財報無法知道投資人對公司的看法。鑒于金融社交媒體平臺上有大量關于公司財務和運營狀況的討論和交流,本文探索金融社交媒體的內容是否能用來識別公司欺詐,那么如何通過分析非結構化的社交媒體內容來識別財務欺詐是本文要解決的第三個問題。
  針對這三大研究問題,本文對應設計了三個研究。
  研究一建立一個集成的語言模型來識別財務報表中的欺詐性語言。首先,統(tǒng)計語言模型通常被用來估計一段

6、文本出現的概率,在本文中這個方法被用來識別財報中欺詐性語言的策略性使用。統(tǒng)計語言模型比現有的基于語言學特征的方法至少在以下兩點有優(yōu)勢。一是不需要提前定義特征,這往往耗時耗力;二是統(tǒng)計語言模型能自動建模自然語言中詞匯的依賴關系。然而統(tǒng)計語言模型本身的一個不足之處是無法獲取一長段文本之間的關聯信息。為了克服這個問題,本文為統(tǒng)計語言模型引入一種能夠計算文檔相似性的潛在語義分析方法。該潛在語義分析方法能夠提取語義特征從而將欺詐樣本和非欺詐樣本區(qū)

7、分開。
  研究一的理論貢獻在于提出了一個集成語言模型來識別財報中的欺詐性語言。通過集成潛在語義方法,本文克服了統(tǒng)計語言模型不能獲取長跨度文字信息的缺點,而且又使得統(tǒng)計語言模型具備提取語義特征的能力,同時有著兩個方法的優(yōu)點。通過對海外上市的中國公司數據分析發(fā)現,本文新提出的集成語言模型對財務欺詐識別準確率比兩個方法都高。
  研究二基于系統(tǒng)性功能語言理論開發(fā)了一套用來識別財報中管理層欺詐性語言的文本分析框架。系統(tǒng)性功能語言理

8、論指出語言是帶有目的性的,能夠通過措辭為語言使用者達到一定目的。那么利用這套理論反過來有助于我們理解欺詐性消息中的策略性語言使用。該理論有三個功能模塊,概念功能、人際功能和語篇功能。在該研究中這三個功能模塊被分解為七種信息類型,即話題、意見、情感、情態(tài)、人稱代詞、寫作風格、題材。同時,該文本分析框架整合了潛在狄利克雷分布模型、計算語言學、詞頻-逆文檔頻率方法,可以為所有信息類型提取詞級以及文檔級的特征。所有的特征都被用作一個線性支持向量

9、機分類器的輸入。通過對1610個美國上市公司年報樣本的欺詐風險評估,該分析框架在十折交叉驗證下的平均預測準確率達82.36%,比采用金融指標的計算方法效果更好。
  研究二的理論貢獻在于將系統(tǒng)性功能語言理論引入到財務欺詐識別領域,并且設計了一套用于欺詐識別的嚴格的特征選擇過程,這也是文獻中首次提出的系統(tǒng)性的特征集。本文對財務欺詐識別研究提了七類構念,即話題、意見、情感、情態(tài)、人稱代詞、寫作風格、題材。另外,本文基于潛在狄利克雷分布

10、模型、計算語言學、詞頻-逆文檔頻率方法提出了一個新的信息系統(tǒng)工具來識別財務欺詐。
  研究三首次利用金融社交平臺上的大量用戶生成的內容來識別公司財務欺詐。金融社交媒體平臺上有大量的知識貢獻者和信息分享者,他們產生大量的關于公司財務和運營狀況的討論和交流。鑒于社交媒體信息是及時的、動態(tài)的、交互的并且快速更新的,本文認為社交媒體的這些特點將極大的縮減欺詐識別滯后的問題。以網秦移動(一家中國的手機安全公司)為例,渾水公司(一家做空公司)

11、在2013年10月24日發(fā)布了針對網秦移動的一份調研報告,認為該公司是徹頭徹尾的欺詐。這個報告一發(fā)出當晚就導致網秦的股價大跌了47%。然而有人發(fā)現早在2013年初,即在網秦移動被爆有欺詐的前半年,在雪球網(一個中國金融社交媒體平臺)上有用戶發(fā)布了一系列的分析報告質疑并認為網秦移動有欺詐行為。這個案例說明社交媒體平臺上產生的用戶分析數據有助于在公司欺詐被正式公開曝光前提前識別公司欺詐行為。鑒于社交媒體平臺上都是非結構化的數據,本文基于文本

12、挖掘和信息檢索的理論和方法,提出一個能夠把社交媒體平臺上非結構化數據解析成單詞權重特征、話題特征、情感特征以及社交網絡結構特征的新型文本分析框架。
  研究三從SeekingAlpha這個金融投資平臺上獲取公司的數據,并設計了兩個子研究。首先,本文挑選了149家欺詐公司和149家非欺詐公司在該平臺上的所有數據,包括分析師的報告、新聞報告和公眾討論數據。本文采用支持向量機分類器和十折交叉驗證,發(fā)現樣本分類準確率達64.66%。這個結

13、果比隨機猜測準確率高,在某種程度上說明了社交媒體的內容中包含了一些有助于識別欺詐的潛在特征。接著我們測試社交媒體特征對公司欺詐的提前預測能力。本文僅僅使用64個欺詐公司樣本和64個非欺詐公司樣本在欺詐曝光之前金融社交平臺上的數據,通過支持向量機分類器在十折交叉驗證下的樣本平均分類準確率達到75.5%。結果表明社交媒體內容對金融財務欺詐預測有超前效應。同時,本文在支持向量機模型中提出欺詐概率指標,反映一家公司出現財務欺詐的概率。鑒于實際中

14、非欺詐公司的數量要比欺詐公司多,本文在樣本集中逐步增加非欺詐公司數量,發(fā)現當非欺詐公司數量增加時識別準確率會上升。該分析框架比采用金融指標的計算方法效果更好,也表明社交媒體特征可以作為現有財務欺詐識別方法的一個補充。
  研究三的理論貢獻在于首次將金融社交媒體用于欺詐識別,并將非結構化的社交媒體內容分解為詞匯權重特征、話題特征、情感相關特征和社交網絡特征,從而將社交媒體內容變成了機器可處理的格式。并且本研究首次驗證了金融社交媒體內

15、容對欺詐識別存在提前效應,說明了基于社交媒體的識別方法可以作為現有基于財務指標識別方法的一個有效補充。
  概括地說,本文開發(fā)了三個用于公司財務欺詐識別的信息系統(tǒng)工具。一是用于財務報表文本分類的統(tǒng)計語言方法;二是能夠提取用于欺詐識別的有效特征的理論框架;三是可以分解非結構化社交媒體內容用于欺詐識別的分析框架。本文總的創(chuàng)新點在于:(1)現有的上市公司財務欺詐識別方法通常局限于對財務報告中的數值指標進行分析,本文使用自然語言處理技術對

16、財務報告中的文本進行分析并挖掘出有用的指標用于欺詐公司識別;并且首次基于系統(tǒng)性功能語言理論提出了一個最為系統(tǒng)性、全面的專用于公司欺詐識別的指標集;本文提出了新的財報文本分析方法,比現有的基于財務指標的方法準確率高;(2)鑒于社交媒體對欺詐披露的作用越來越明顯,本文抓取一主流金融社交媒體平臺數據,首次采用文本挖掘技術從非結構化的網絡數據中提取結構化的量化指標,并取得很好的識別準確率;并且本文發(fā)現金融社交媒體內容對識別欺詐有著領先效應,社交

17、媒體內容可以作為現有基于財務指標識別方法的一個補充。
  本文的研究成果也具備一定的實踐指導意義,當前公司欺詐識別的滯后問題會得到緩解,由公司欺詐丑聞帶來的對大規(guī)模股東的重大損失以及對金融系統(tǒng)的擾動將得到提前預測和阻止。本研究對于市場監(jiān)管者、政策制定者、審計師以及投資人有重大幫助。投資人,包括個人、機構投資者和評級機構等,由于無法接觸和獲取到公司內部信息,往往易受到誤導性財報的影響。本研究的預測方法有助于讓他們提前掌握所投資的公司

18、的財務風險,做出更好的投資決策,從而保證收益,規(guī)避風險。對于審計師來說,本文的方法可自動評估所審計的財報的風險,從而提前杜絕有欺詐嫌疑的報告流向公眾。對于市場監(jiān)管者來說,有效的欺詐識別方法使得他們在投入最小的人力物力基礎上能夠將精力集中在有欺詐嫌疑的公司上。此外,現有的審計分析標準SAS56還是三十年前提出的,隨著商務智能、大數據、人工智能技術逐步應用于公司審計,也促使這些條例標準做出修訂。未來的審計過程應更多的關注對財報中的文本分析以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論