跳轉到主要內容
工程的博客

數據驅動的方法對環境、社會和治理

2020年7月10日, 工程的博客

分享這篇文章

未來的金融與社會責任,環境管理和企業道德。為了保持競爭力,越來越多的金融服務機構(FSI)披露更多的信息關於他們的環境、社會和治理(ESG)性能。通過更好地了解和量化投資的可持續性和社會影響一個公司或業務,FSIs可以降低聲譽風險和維護信任與他們的客戶和股東。磚,我們越來越多地聽到客戶環境、社會和治理已成為管理者優先。beplay体育app下载地址這不是僅僅由利他主義也經濟學:更高的環境、社會和治理評級通常與估值和盈利能力呈正相關而與波動性負相關。在這篇文章中,我們提供了一個新穎的方法,可持續投資結合自然語言處理(NLP)技術和圖像分析提取關鍵戰略環境、社會和治理計劃和學習公司的關係在全球市場和市場風險計算的影響。

使用磚統一數據分析平台,我們將演示如何Beplay体育安卓版本Apache火花TM,三角洲湖MLflow可以使資產管理公司來評估其投資的可持續性和賦予他們的業務整體環境和數據驅動的觀點,社會和公司治理策略。具體來說,我們將每年提取的關鍵環境、社會和治理計劃傳達PDF報告和比較這些分析數據與實際的媒體報道新聞。

使用金融新聞小說環境、社會和治理方式得分,NLP和圖表分析

在這篇文章的第二部分中,我們將學習之間的聯係公司和理解的積極或消極的環境、社會和治理後果這些連接可能需要您的業務。而這個博客將專注於資產管理公司來說明現代環境、社會和治理和社會責任投資方法,這個框架能夠適用於所有部門在媒體經濟從消費必需品和能源和醫療保健。

提取關鍵的環境、社會和治理計劃

金融服務機構目前正麵臨越來越多的壓力,他們的股東披露更多信息環境、社會和治理策略。通常在他們的網站上發布每年作為PDF文檔的一種形式,企業交流等關鍵環境、社會和治理計劃在多個主題如何價值員工,客戶或客戶,如何積極回饋社會,甚至如何減緩氣候變化,例如,減少或承諾減少碳排放。beplay体育app下载地址由第三方機構(如使用摩根士丹利資本國際(msci)csrhub),這些報告通常是鞏固和基準測試各行業創造環境、社會和治理標準。

從環境、社會和治理中提取報表報告

在這個例子中,我們希望以編程方式訪問40 +環境、社會和治理報告從頂級金融服務機構(一些報道如下表)和不同主題的學習關鍵項目。然而,由於沒有標準模式和監管方針,交流這些PDF文檔可以多種多樣,這種方法使一個完美的候選人使用機器學習(ML)。

巴克萊(Barclays) https://home.barclays/content/dam/home barclays/documents/citizenship/esg/barclays - plc - esg - - 2019. - pdf報告
摩根大通(JP Morgan Chase) https://www.jpmorganchase.com/content/dam/jpmc/jpmorgan chase -和- co/documents/jpmc - cr - esg - 2019. - pdf報告
摩根士丹利(Morgan Stanley) https://www.morganstanley.com/pub/content/dam/msdotcom/sustainability/Morgan-Stanley_2019-Sustainability-Report_Final.pdf
高盛(Goldman Sachs) https://www.goldmansachs.com/our-commitments/sustainability/sustainable-finance/documents/reports/2019-sustainability-report.pdf

雖然我們的數據集相對較小,我們展示了一個可以分發刮過程使用一個用戶定義函數(UDF),假設第三方庫的PyPDF2在引發環境中都可用。

進口請求進口PyPDF2進口io@udf (“字符串”)defextract_content(url):#獲取PDF二進製流響應= requests.get (url)open_pdf_file = io.BytesIO (response.content)pdf = PyPDF2.PdfFileReader (open_pdf_file)#返回連接的內容文本= [pdf.getPage(我).extractText ()範圍(0pdf.getNumPages ()))返回“\ n”. join(文本)

除了正則表達式和相當複雜的數據清理(在連接筆記本電腦),我們也想利用更先進的NLP能力tokenise內容語法正確的句子。鑒於時間負荷訓練NLP管道在內存中(如以下的寬大的庫),我們確保我們的模型每個火花執行者隻加載一次使用PandasUDF策略如下。

進口gensim進口寬大的pyspark.sql.functions進口pandas_udf, PandasUDFType@pandas_udf (“數組”,PandasUDFType.SCALAR_ITER)defextract_statements(content_series_iter):#僅加載一次英語寬大的模型spacy.cli.download (“en_core_web_sm”)nlp = spacy.load (“en_core_web_sm”)#提供process_text功能與我們的NLP模型加載#清潔和標記一批PDF內容content_seriescontent_series_iter:收益率content_series。地圖(λx: process_text (nlp, x))

通過這種方法,我們能夠生PDF文檔轉換成定義良好的句子(下表有些報道)為每個40 +的環境、社會和治理報告。作為這個過程的一部分,我們也lemmatised內容——也就是說,將一個單詞轉換成簡單的語法形式,如過去時態轉換為現在的形式或複數形式轉換為單數。這種額外的過程將還清在建模階段通過減少學習主題的單詞的數量。

高盛(Goldman Sachs) 我們建立了一個新的政策隻拿公共這些公司在美國和歐洲至少有一個多樣化的董事(從明年開始,我們將增加我們的目標兩個)
巴克萊(Barclays) 這對我們非常重要,我們所有的利益相關者可以清楚地理解我們如何管理我們的業務。
摩根士丹利(Morgan Stanley) 2019年,我們的兩個融資幫助創造近80的低收入和中低收入家庭負擔得起的公寓單位索諾瑪縣的極度短缺。
Riverstone 在過去的四年,該基金保存了15000英畝的窪地硬木森林,有望達到35000英畝的目標建立的基金

雖然是人眼相對容易推斷出這些語句中每一個主題(在這種情況下,多樣性、透明度、社會環境),這樣做以編程方式和在不同的複雜性和規模是需要先進的科學使用的數據。

環境、社會和治理語句分類

在本節中,我們想要自動分類的8000句我們從40 +環境、社會和治理報告。與非矩陣factorisation一起,潛在狄利克雷分配(LDA)是一個在主題建模阿森納的核心模型,使用分布式版本火花毫升或其內存sklearn等效如下。我們計算項頻率和捕捉LDA模型和hyperparameters用MLflow實驗跟蹤。

sklearn.feature_extraction.text進口CountVectorizersklearn.decomposition進口LatentDirichletAllocation作為喬治。進口mlflow#計算詞的頻率#停止詞是常見的英語單詞+銀行相關的術語word_tf_vectorizer = CountVectorizer (stop_words = stop_words ngram_range = (1,1))word_tf = word_tf_vectorizer.fit_transform(環境、社會和治理(“引理”])# ml-flow跟蹤實驗mlflow.start_run (run_name =“topic_modeling”):與9 #火車LDA模型主題lda = lda (random_state =42n_components =9learning_decay =3)lda.fit (word_tf)#日誌模式mlflow.sklearn.log_model (lda),“模型”)mlflow.log_param (“n_components”,“9”)mlflow.log_param (“learning_decay”,“3”)mlflow.log_metric (“困惑”lda.perplexity (word_tf))

多次實驗後,我們發現9主題最好總結我們的語料庫。通過更深層次的在每個關鍵詞的重要性,從我們的模型,我們試圖描述我們9主題到9具體類別,如下表中報道。

顯示的名字 LDA描述性的關鍵字
公司戰略 董事會、公司、企業、治理、管理、行政、董事、股東,全球參與,投票,術語,責任,業務團隊
綠色能源 能源、排放、百萬、可再生、使用項目,減少碳排放,水,十億,力量,綠色,總,氣體源
客戶關注 客戶、提供業務、改善金融支持,投資,服務,年,可持續發展,財政,全球,包括幫助,主動
支持社區 社區、人員、業務、支持新的小,收入,真實的,女人,發射,房地產,訪問顧客,英國,包括
倫理投資 投資、氣候、公司、變化、組合,風險,責任,部門,轉變,股票,投資者,可持續的業務機會,市場
可持續金融 可持續發展、影響、可持續性、資產、管理、環境、社會、投資、公司,十億,浪費,客戶,基準麵,投資,提供
的行為準則 包括政策、信息、風險評估、管理、投資公司,投資組合,過程中,環境、治理、範圍、行為準則,基準
強有力的治理 風險、業務、管理、環境、客戶管理、人類、社會、氣候、方法,進行頁麵,客戶端,影響,戰略
價值的員工 員工,工作人,支持、價值客戶,公司的幫助,包括提供社區項目,多樣化,客戶服務

與我們9機器學習的話題,我們可以很容易地比較每個FSI並排的環境、社會和治理報告,以便更好地理解的關鍵優先關注。

Comparaison的環境、社會和治理計劃30金融服務組織

使用seaborn可視化,我們可以很容易地國旗關鍵差異在我們公司(組織的名稱修訂)。當一些組織將更專注於評估員工,促進多樣性和包容性(比如ORG-21),一些似乎更關注於倫理投資(ORG-14)。LDA的輸出是一個概率分布在我們9主題,而不是一個特定的主題,我們很容易推出最描述性的環境、社會和治理計劃對於任何給定的組織使用一個簡單的SQL語句和一個分區函數,捕獲概率最高的為每個主題。

排名(選擇e.topic,e.statement,e.company,dense_rank()(分區通過e.company, e.topic訂單通過e.probabilityDESC)作為排名esg_reports e)選擇t.topic,t.statement排名t在哪裏t.company=“高盛”t.rank=1

這個SQL語句為我們提供了一個NLP為高盛(Goldman Sachs)(見生成執行概要原始報告),總結一個複雜70 +頁文檔轉換為9環境、社會和治理計劃/行動。

主題 聲明
支持社區 稱為女性企業家機會基金(WEOF),該計劃旨在解決未滿足融資需求的企業在發展中國家,女性認識到女性企業家麵臨的重大障礙,在獲得所需的資本發展他們的業務。
強有力的治理 ERM框架使用一個全麵的、綜合的風險管理方法,和它的目的是使通過我們強大的風險管理流程識別、評估、監控和管理的風險我們承擔開展業務活動。
可持續金融 除了瑞典主要設施,Northvolt也與大眾集團成立了一家合資企業,以建立一個16、婦女電池gigafactory在德國,將大眾在Northvolt總投資約10億美元。
綠色能源 除了減少肯尼迪溫室氣體排放量約7000噸(相當於約1400輛汽車的排放),該項目預計將降低港務局的大約10%的溫室氣體排放在機場GSAM可再生電力集團將持有項目的電力購買協議,而太陽能公司將開發和構建基礎設施在肯尼迪。
客戶關注 項目校友也可以加入10千瓦大使計劃,一個先進的課程在2019年推出,使得企業家進一步擴展企業。在北京,10000年在中國10000名女性措施影響女性舉行了10年的校友峰會清華大學經濟與管理學院。
倫理投資 我們的第一個美國公司向白宮提交2015年美國的商業行為對氣候承諾;我們簽署了一份公開信和其他29首席執行官在2017年支持我們住在巴黎的協議;最近,我們是一群80 +的一部分ceo和工黨領導人重申我們的支持,在巴黎協議將加強美國在全球市場的競爭力。
員工的價值 其他關鍵舉措,加強我們的多樣性角度包括:Returnship倡議,幫助專業人士後重新啟動他們的職業生涯一個擴展缺席勞動力的力量我們的文化,我們的能力來執行我們的戰略,我們給客戶的相關性都依賴於一個多樣化的勞動力,一個包容的環境,鼓勵廣泛的觀點。
公司戰略 強調我們的信念,不同的觀點可以對公司業績有強烈影響,我們優先董事會多樣性管理的努力。
的行為準則 13%請見96頁的2019表格10 - k方法的進一步整合環境、社會和治理(ESG)因素信貸analysisDiscussion和analysisfn - cb - 410 a。2環境政策框架

雖然我們可以觀察一些誤分類(主要是關係到我們如何命名每個主題),可能需要調整我們的模型,我們演示了如何使用NLP技術有效地從複雜的PDF文檔中提取定義良好的計劃。然而,這些可能並不總是反映公司的核心重點也不捕捉每一個計劃為每個主題。這可以進一步解決使用借用了異常檢測技術,將語料庫分組為更廣泛的集群和提取句子最偏離常態(即句子具體到一個組織和非主流)。這種方法,使用k - means,討論在我們的筆記本上。

創建一個數據驅動的環境、社會和治理分數

覆蓋在前一節中,我們能夠並排比較企業在9個不同的環境、社會和治理計劃。雖然我們可以嚐試獲得環境、社會和治理得分(許多第三方機構將使用的方法),我們希望我們的分數不主觀,但真正的數據驅動的。換言之,我們不想僅僅我們的假設基於公司的官員披露,而是對公司的聲譽被認為在媒體上,在所有3環境、社會和治理變量。為此,我們使用GDELT事件的全球數據庫位置和音調。

數據采集

鑒於GDELT可用的數據量(僅1億條記錄在過去的18個月),我們利用lakehouse從原始模式通過移動數據,過濾,濃縮,分別從青銅、白銀和黃金層,和擴展我們在近乎實時的操作過程(每15 mn GDELT文件發表)。為此,我們使用一個結構化流方法“觸發”批處理模式與每一批操作數據增量。通過統一的流和批處理,引發對數據操作的實際標準,ETL過程在現代數據基礎設施。

gdelt_stream_df=火花\.readStream \.format \(“δ”)(“esg_gdelt_bronze”) \.withColumn(“主題”,filter_themes (F.col(“主題”)))\.withColumn(“組織”,F.explode (F.col(“組織”)))\選擇(F.col (“publishDate”),F.col(“組織”),F.col .alias (“documentIdentifier”) (“url”),F.col(“主題”),F.col (“tone.tone”))
              gdelt_stream_df \.writeStream \觸發(Trigger.Once) \.option (“checkpointLocation”、“/ tmp / gdelt_esg”) \.format \(“δ”)(“esg_gdelt_silver”)

從GDELT中可用的各種維度,我們隻關注情緒分析(使用語氣變量)對金融新聞相關的文章。我們假設金融新聞文章被GDELT分類法從ECON_ *。此外,我們假設所有環境文章被捕獲ENV_ *和社會的文章被UNGP_ *分類法(聯合國人權指導原則)。

情緒分析作為環境、社會和治理的代理

沒有任何行業標準和現有的模型來定義環境、社會和治理標準,和沒有任何地麵真理提供給我們在這項研究中,我們假設捕獲的整體基調從金融新聞文章是一個很好的代理公司的環境、社會和治理分數。例如,一係列負麵新聞文章相關的海上災難和石油泄漏會強烈影響一個公司的環境績效。相反,新聞文章[…]發展中國家的婦女擁有的企業的融資需求(更加積極的基調將一個更好的環境、社會和治理作出積極貢獻,得分。我們的方法是查看一個公司的區別情緒及其行業平均水平;多少“積極的”或“負”公司被認為在所有金融服務新聞文章。

在下麵的示例中,我們表明,不同情緒(使用15天移動平均線)之間的一個關鍵FSIs及其行業平均水平。除了一個特定的時間窗口周圍COVID-19病毒爆發在2020年3月,本公司不斷執行優於行業平均水平,表明一個好的環境整體得分。

情緒分析金融新聞文章相對於行業平均水平

總結這種方法中提到的每個實體GDELT數據集,我們不再局限於少數FSIs的我們有一個官方的環境、社會和治理報告和能夠創建一個內部得分為每個和每一個公司在他們的環境,社會和治理維度。換句話說,我們已經開始改變我們的環境、社會和治理鏡片從主觀數據驅動。

引入加權傳播環境、社會和治理指標

在全球市場,企業和企業緊密相聯的,的環境、社會和治理績效(如賣方)可能會影響另一個(例如買家)的聲譽。作為一個例子,如果一個公司繼續投資公司直接或間接相關的環境問題,這種風險應該被量化,必須反映在公司的報告作為倫理投資策略的一部分。我們可以引用的例子巴克萊的聲譽在2018年末,因為它影響間接連接瀝青砂項目()。

確定影響因素

較之web索引由穀歌,網頁排名是一種常見的技術用於識別在大型網絡中節點的影響。在我們的方法中,我們使用網頁排名的變體,個性化的網頁排名,確定有影響力的組織相對於我們的關鍵的金融服務機構。這些連接更有影響力,他們越有可能(積極或消極)有助於我們的環境、社會和治理分數。說明這種方法的報道低於間接連接瀝青砂行業負麵可能導致公司環境、社會和治理分數成正比個性化網頁排名的影響。

使用Graphframes的公司,我們可以很容易地創建一個網絡共享一個共同的媒體報道。我們的假設是,越來越多的公司在新聞文章所提到的,他們的鏈接將越強(邊緣重量)。雖然這個假設也可能推斷出錯誤的連接因為隨機同現的新聞文章(見後),這個無向加權圖將幫助我們找到公司的重要性相對於我們的核心FSIs我們希望評估。

val buildTuples = udf ((組織:Seq [字符串])= >{/ /無向,我們創建兩個連接organisations.flatMap (x1= >{organisations.map (x2= >{(x1, x2)}).toSeq.filter ({})情況下(x1, x2)= >x1, x2 =/ /刪除自我邊緣})})val邊緣= spark.read.table (“esg_gdelt”).groupBy (“url”).agg (collect_list(坳(“組織”)。as (“組織”)).withColumn (“元組”,buildTuples(坳(“組織”))).withColumn (“元組”爆炸(坳(“元組”))).withColumn (" src "坳(“tuple._1”)).withColumn (“dst”坳(“tuple._2”)).groupBy (" src ",“dst”).count ()進口org.graphframes.GraphFrameval esgGraph = GraphFrame(節點、邊)

通過進一步研究這張圖表,我們遵守法律的力量分布的邊的權值:90%的關係的企業共享一個很少聯係。我們大大減少圖像大小從51679930年到61143年由過濾邊緣連接200或以上的重量(領導經驗閾值)。運行網頁排名之前,我們也優化圖通過進一步減少連接的數量最短路徑算法和計算的最大跳數一個節點需要遵循達到我們的核心FSIs頂點(在“地標”數組)。深度圖的每一個最短路徑的最大可能,或為任何隨機節點的連接數達到任何其他人(深度越小,密度是我們網絡)。

val shortestPaths = esgGraph.shortestPaths.landmarks(裏程碑).run ()val filterDepth = udf ((距離:地圖(字符串,Int))= >{distances.values.exists (_
              我們過濾圖最大深度4所示。這個過程可以減少圖像進一步下降2,300年企業和54,000年連接,允許我們運行網頁排名算法更廣泛更多的迭代以便更好地捕捉行業影響力。
              
val prNodes = esgDenseGraph .parallelPersonalizedPageRank .maxIter (100) .sourceIds(裏程碑).run ()

我們可以直接想象前100名有影響力的節點特定業務(在這種情況下,巴克萊集團(Barclays PLC))按照下麵的圖。沒有任何驚喜,巴克萊銀行與我們的大部分核心FSIs(如機構投資者摩根大通、高盛和瑞士信貸(Credit Suisse)),也向證券交易委員會、美國聯邦儲備理事會(美聯儲,fed)和國際貨幣基金組織(imf)。

巴克萊與環境、社會和治理分數的影響

進一步降低該分布,我們發現雪佛龍等公共和私人公司,星巴克或約翰遜和約翰遜。強烈或鬆散相關,直接或間接的聯係,所有的這些企業(或實體從NLP的角度看)理論上可以影響巴克萊ESG性能,無論是積極的還是消極的,因此影響巴克萊的聲譽。

環境、社會和治理作為一個傳播指標

結合我們的環境、社會和治理得分之前捕獲這些實體的重要性,很容易應用加權平均在每個業務的“巴克萊網絡”有助於巴克萊的環境、社會和治理分數比例的相對重要性。我們稱這種方法為加權傳播環境、社會和治理分數(PW-ESG)。

我們觀察的消極或積極的影響公司的網絡使用一個詞雲可視化。在下圖中,我們展示了負麵影響(實體造成消極ESG)為一個特定的組織(名稱修訂)。

Wordcloud代表給定組織消極的環境、社會和治理影響的公司

由於新聞的本質分析,觀察並不令人驚訝的新聞出版公司(湯森路透和彭博等)或社交網站(Facebook、Twitter)強連通組織。不能反映真正的連接給定的業務,而是解釋為一個簡單的同現新聞文章,我們應該考慮過濾出來之前我們的網頁排名過程通過移除節點與高度的關係。然而,這些額外的噪音似乎不斷在我們的食品安全檢驗局,似乎並沒有不利的一個組織。另一種方法是使用建立連接,構建圖像提取先進使用NLP的原始文本內容。然而,這將大大增加這個項目的複雜性和相關的成本與新聞抓取過程。

最後,我們原來的環境、社會和治理分數表示為計算在前一節中,又有多少這些分數的減少(或增加)使用我們PW-ESG方法在環境、社會和治理維度。在下麵的示例中,對於一個給定的公司,最初的69年,62年和67年已減少到57歲的53歲和60,PW-ESG的負麵影響在其環境覆蓋(-20%)。

然後環境、社會和治理分數降低PW-ESG影響力

使用的靈活性Redash加上磚的效率運行時,這一係列的見解可以迅速被打包成一個BI / MI報告,將環境、社會和治理作為服務你的組織資產管理公司更好地投資於可持續的和負責任的財政。

值得一提的是,這個新框架是一般足以容納多個用例。同時核心FSIs可能認為自己的公司是一個具有裏程碑意義的網頁排名為了更好地評估聲譽風險,資產管理公司可能會考慮所有頭寸相對地標,以更好地評估可持續性的投資決策。

環境、社會和治理應用於市場風險

為了驗證我們最初的假設[…]更高的環境、社會和治理評級通常與估值和盈利能力呈正相關而與波動性負相關,我們創建一個合成隨機組合的股票我們貫穿PW-ESG框架和結合實際從雅虎財經股票信息檢索。如下圖中報道,盡管明顯缺乏數據,得出科學的結論,似乎我們的最高及最低的環境、社會和治理評級公司(我們報告情緒分析作為一個代理的環境、社會和治理前圖)分別是最好的或最賺錢的工具在我們的投資組合在過去的18個月。

環境、社會和治理分數和盈利能力之間的相關性

CSRHub報道恰恰相反,有趣的是,皮爾森(媒體)10分以上美國普洛斯集團(房地產租賃)的環境、社會和治理分數,強調環境、社會和治理評分的主觀性和什麼是溝通,什麼是觀察之間的矛盾。

跟進我們最近的博客文章現代化的風險管理,我們可以使用這個新信息對我們更好的風險計算。組成的組合分割成2不同的書籍,最好和最差的10%的我們的環境、社會和治理評價工具,在下麵的圖表中我們報告的曆史回報和其相應的風險價值(VaR)曆史的95%。

環境、社會和治理之間的相關性分數和市場波動,一個貧窮的環境、社會和治理評級導致更高的風險價值

沒有任何先驗知識的提取儀器以外的指標我們通過我們的框架,我們可以觀察到一個風險敞口是2倍的組合使貧窮的環境、社會和治理評級公司,支持的假設在文獻中發現,“可憐的環境、社會和治理[…與更高的市場波動”,因此更大的風險。

覆蓋在我們之前的博客,風險管理的未來在於敏捷性和交互性。風險分析師必須增強傳統數據和替代數據和另類見解為了探索的新方法識別和量化其業務所麵臨的風險。使用雲計算的靈活性和規模和水平的交互數據通過我們的磚中運行時,風險分析人員可以更好地理解他們的業務麵臨的風險由切割市場風險計算在不同的行業,國家,段,現在在不同的環境、社會和治理評級。這個數據驅動的環境、社會和治理框架允許企業問新的問題如:多少會減少了將環境風險評級的公司10分?多少接觸你會麵臨通過投資於這些工具給他們低PW-ESG分數?

改變你的環境、社會和治理策略

在這個博客中,我們演示了如何複雜的文檔可以很快總結成關鍵環境、社會和治理措施,以更好地理解每個的可持續性方麵的投資。使用圖分析,我們介紹了一種新穎的方式更好地識別影響全球市場的環境、社會和治理你的組織策略和聲譽風險。最後,我們給環境、社會和治理的經濟影響因素對市場風險計算。作為一個起點,一個數據驅動的環境、社會和治理的旅程,這種方法可以進一步提高了將內部數據你對各種投資和持有額外的指標從第三方數據,你可以把傳播的風險通過我們PW-ESG框架讓駕駛更可持續的金融和有利可圖的投資。

試試以下筆記本電腦在今天和磚加速您的環境、社會和治理開發的策略聯係我們了解更多關於我們如何幫助客戶提供類似的用例。beplay体育app下载地址

免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map