我國參與中高風險金融資產投資的家庭識別及其影響因素分
本文是一篇投資分析論文,本文發現Logistic模型與隨機森林模型對于金融領域的客戶識別方面的應用有比較優良的表現,更適合作為識別我國參與中高風險金融資產投資的家庭的模型,該方法可以在現實中的金融機構進行客戶開發,以幫助金融機構應對大數據時代的挑戰。
1 緒論
1.1 選題背景與研究意義
1.1.1 選題背景
家庭是社會和經濟活動的基礎單元,而家庭參與投資的活躍程度更是國家經濟發展水平的重要衡量指標。2021年10月歐洲安聯集團發布的《2021年安聯全球財富報告》①對全球多個主要經濟體家庭資產負債的調研顯示,疫情并沒有對全球財富產生沖擊性的影響,2020年全球金融資產總額相較去年仍然增長了近10%,首度超過了200萬億歐元(約合人民幣1500萬億)。
而在中國,安聯發布的報告顯示,中國家庭金融資產總額在2019年與2020年連續兩年的增速超過10%,增速遠高于全球平均水平,2020年中國家庭金融資產總額超過2.5萬億歐元(約合人民幣18.6萬億),占亞洲金融資產總額的47%。報告還顯示,2020年中國家庭總凈金融資產同比增長13.9%,人均凈金融資產達到12430歐元(約合人民幣92643元)。而在2009年,中國家庭人均凈金融資產僅為3010歐元(約合人民幣22434元),11年來增長超過300%。由此可見我國的家庭金融資產總額還處在上升時期。此外,西南財經大學中國家庭金融調查與研究中心和螞蟻金服集團研究院聯合發布的《2020中國家庭財富指數調研報告》②研究表明,受疫情影響,我國家庭對理財的重視程度日益提高,對金融資產的配置也更加重視,家庭金融已經成為了我國金融結構中一個不容忽視的構成因素。
...........................
1.2 國內外研究
1.2.1 客戶識別的機器學習算法相關文獻
在運用機器學習的方法對客戶進行分類識別的研究領域,很多學者已經在不同的統計機器學習方法以及神經網絡等方面運用各種不同的分類算法取得了不俗的成果。
在運用聚類分析方面,趙銘、李雪、李秀婷、吳迪(2013)[49]等人綜合考慮客戶信息、價值和行為三個維度的指標,采用K-means聚類方法結合判別分析法進行商業銀行基金理財客戶分類研究,研究表明該方法能有效地識別基金理財客戶。羅彪、閆維維、萬亮(2013)[31]等利用網絡層次分析法(ANP)和K-means聚類算法,從客戶當前價值和潛在價值兩個維度對客戶群進行細分。結果表明,該模型能夠對客戶價值進行全面、客觀的評價和分類。
在運用支持向量機(SVM)方面,王波、郝艷友、劉勇奎、劉爽(2008)[38]等人的研究解決了支持向量機在房貸信用評估中的應用問題,證明了基于SVM的房貸信用評估方法效果很好,比銀行原有的方法更加有效。
在運用決策樹方面,張婷婷、賀昌政、肖進(2012)[47]等研究了不完整數據中的客戶分類問題,提出了一種使用動態分類器集成選擇的不完整數據分類方法,結果表明,與現有算法相比,使用該算法分類具有更高的準確率和穩定性,能夠更有效地對客戶進行分類。盧媛媛,、張劍、何海燕(2011)[30]等選取客戶的基本信息和交易數據,采用決策樹方法進行挖掘分析,使用WEKA算法對客戶交易數據訓練集進行訓練、測試和驗證,構建客戶分類決策模型,對客戶分類系統的分析和設計具有很大的參考意義。國外學者Young Moon Chae,Seung Hee Ho(2001)[17]等人在韓國的一個醫學數據庫中應用了機器學習技術,通過 Logistic回歸和兩種決策樹方法對高血壓患者進行了預測。楊彬、田甜(2011)[42]等對銀行理財產品營銷的關聯規則進行挖掘,通過最小化挖掘出來的規則與測試數據間的差異來對客戶理財能力進行劃分,為銀行有效地營銷產品、增加收益、提高客戶財富值提供了參考。
.............................
2 理論基礎
2.1 金融資產、家庭資產與家庭金融資產
金融資產[53]是廣義意義上的無形資產,他擁有對實物資產的索取權,能夠給其持有者帶來一定的貨幣收入。包括現金、儲蓄存款、債券投資、股票投資、票據、保險等。此外金融資產可以直接在金融市場上進行交易,相比起一些實物資產,金融資產有更強的流動性。此外,與其他有形的實物資產不同,金融資產不一定具有固有的實物價值,它們的價值反映的是它們在交易市場的供求關系,以及其所承擔的風險水平,會隨著時間的變化而有所不同。
家庭資產主要分為非金融資產與金融資產兩大類,家庭非金融資產大部分是一些有形實物資產,包括房產、汽車、耐用消費品、金銀首飾以及其他的貴重物品。家庭金融資產是指以債權、權益等無實物存在形式的無形資產,例如現金、儲蓄、股權股票、債券、保險、票據等金融產品與金融衍生品,家庭金融資產在家庭資產中占有重要地位。
.................................
2.3 決策樹模型
2.3.1 決策樹模型基本原理
決策樹是一種由結點與有向邊組成的樹,這里的結點又分為葉結點和內部結點,內部結點代表著樣本數據的一個屬性或特征,而葉結點代表分類結果。圖2.1是一個決策樹示意圖,小圓點表示決策樹的內部結點,小方框表示決策樹的葉結點。
投資分析論文怎么寫
決策樹模型是一種比較常用的分類算法模型,根據不同的數據集劃分標準有不同的樹,通常的劃分標準有信息增益,信息增益率、基尼系數,根據信息增益,信息增益率、基尼系數這三種數據集的劃分方法分別有決策樹的ID3算法、C4.5算法以及CART算法,本文主要介紹和應用基于基尼系數的CART算法。
................................
3 數據來源、變量選擇與數據預處理 ......................... 16
3.1 數據來源 ....................................... 16
3.1.1 中國綜合社會調查(CGSS)數據庫介紹 ......................... 16
3.1.2 中國綜合社會調查(CGSS)問卷介紹 ........................... 16
4 我國參與中高風險金融資產投資的家庭識別 ................................ 24
4.1 分類模型類不平衡問題及其處理 .............................. 24
4.2 Logistic模型的建立與識別 .................................... 26
5 我國家庭參與中高風險金融資產投資影響因素分析 ....................... 36
5.1 隨機森林變量重要性指標 ......................... 36
5.2 隨機森林模型中各變量重要性情況 ................................ 36
5 我國家庭參與中高風險金融資產投資影響因素分析
5.1 隨機森林變量重要性指標
根據前面對Bagging算法的介紹,我們知道在隨機森林模型中,訓練每一棵決策樹的時候都會產生袋外數據(OOB)。通常在計算每棵決策樹的預測誤差時,能夠利用其袋外數據,具體做法是對于某個特征X,先對其計算一次誤差,然后對該特征隨機地加入噪聲干擾,加入噪聲干擾后再計算一次誤差,兩次誤差的變化就是該決策樹中特征X的變量重要性,而隨機森林模型中特征X的變量重要性則是模型中全部決策樹特征X變量重要性的平均值,若這個值大說明這個特征對樣本分類結果的影響很大,說明該屬性特征的重要性就比較大。因此,在采用隨機森林算法時,根據各特征的變量重要性程度,可以對各屬性的重要程度進行排序。
由以上章節可知在實證的幾個模型之中,Logistic模型與隨機森林模型的分類效果是比較好的,所以,運用這兩種模式對我國家庭參與中高風險金融資產的影響因素進行分析是較為合理的,本章運用Logistic回歸系數和隨機森林模型的變量重要性指數,對我國家庭參與中高風險金融資產的影響進行探討。
投資分析論文參考
......................................
6 結論與建議
6.1 結論
在我國參與中高風險金融資產投資的家庭的識別方面,對比三個模型發現Logistic回歸模型正例的查全率和查準率分別為0.87和0.81,AUC指標達到0.90,隨機森林模型正例的查全率和查準率分別為0.88和0.79,AUC指標也達到了0.89,而決策樹模型的效果則比較差,正例的查全率和查準率分別為0.77和0.73,其AUC指標也僅僅達到0.80,Logistic回歸模型與隨機森林模型相比起決策樹模型有更好的性能以及更高的準確率。
同時,本文還發現了影響我國家庭參與風險金融資產投資的主要因素,并進行了相應的實證分析。表5.1表明,在所有自變量中,最重要的18個自變量的重要性之和達到75.92%,從地域上來看,上海市、北京市、廣東省、浙江省4個經濟比較發達的省份的變量重要性占據了地域重要性排名的前四位,說明經濟發達地區省份的家庭普遍要比經濟比較不發達地區的省份的家庭對于中高風險金融資產投資的意愿要高,從戶口性質上看可以發現持農村戶口的家庭對比持城市居民戶口的家庭有更低的中高風險金融資產投資意愿,說明農村地區家庭普遍都是風險厭惡,除地域與戶口因素外,一個家庭是否參與中高風險金融資產投資的原因還有社會、家庭、個人三個維度的原因::
(1)在個人因素方面,變量a7a(最高受教育程度)、a8a(個人年收入)、a5152(英語水平)、a30(是否使用網絡支付)、a4950(普通話水平)、a31(年齡)重要性程度排在前列,這其中最高受教育程度、個人年收入、普通話水平以及英語水平這幾個因素較為重要。
(2)在家庭因素方面,變量a62(全家家庭總收入(2016年))、isurban(所在地是否為城市)、a66(家庭是否擁有家用汽車)、a68(子女數量)、a90b(母親最高受教育程度)、a89b(父親最高受教育程度)、a11(住房面積)重要性程度排在前列,這其中全家家庭總收入以及所在地是否為城市兩個因素較為重要。
(3)在社會因素方面,變量a285(互聯網使用程度)、a611234(對社會保障項目的重視程度)、a445(政治參與積極程度)重要性程度排在前列,這其中最重要的是互聯網使用程度。
參考文獻(略)
- 中國人壽保險(集團)公司股權投資案例分析2020-03-15
- JA公司養老服務中心項目投資效益分析2020-04-20
- 中部四省宏觀經濟波動比較投資分析 --基于SVAR模型2020-06-25
- CH集團公司社會影響力投資分析研究2020-07-26
- 毅雷私募基金公司風控管理策略的優化研究2020-09-27
- 環境不確定性、客戶集中度與銀行貸款成本—基于我...2020-10-03
- A公司投資效率的提升對策研究2020-10-09
- 浮梁通用機場項目投資分析2021-02-03
- 蘆淞國投AA房地產項目投資分析研究2021-02-05
- 通發公司零部件加工中心建設項目投資分析2021-02-07