基于环境气象因素影响的异常就诊量预测
基于環境氣象因素影響的異常就診量預測
于廣軍1,2,熊贇3,4,彭思佳4,5,阮璐3,4
1. 上海市兒童醫院,上海 200040
2. 上海交通大學醫學院,上海 200025
3. 復旦大學計算機科學技術學院,上海 200433
4. 上海市數據科學重點實驗室,上海 200433
5. 復旦大學化學系,上海 200433
摘要:通過分析某兒童醫院傳染科就醫人數異常(突增、突減)情況,建立就醫人數與氣象特征間的分類模型,實現對傳染科就醫突變情況的高準確率預測,以便院方合理調配科室、安排醫生出診人數。建立的模型對就醫人數突增情況的預測準確率達到92.8%,召回率達到83.5%;對就醫人數突減情況的預測準確率達到87.4%,召回率達到92.4%,并與多種分類器進行比較,實驗表明該方法在預警傳染科就診人數的突變方面綜合表現更佳。
關鍵詞:環境氣象因素;隨機森林;異常預測
doi:10.11959/j.issn.2096-0271.2018030
論文引用格式:于廣軍, 熊贇, 彭思佳, 等. 基于環境氣象因素影響的異常就診量預測[J]. 大數據, 2018, 4(3): 54-60.
YU G J, XIONG Y, PENG S J, et al. Abnormal detection of hospital admissions based on meteorological factors[J]. Big Data Research, 2018, 4(3): 54-60.
1? 引言
環境氣象被認為是影響人類健康的因素之一,某些疾病的發生與惡化通常具有明顯的周期性氣候特征[1,2]。如春季氣溫回升,細菌滋生,小兒麻疹、 風疹、水痘、手足口病等病高發;秋冬季氣溫下降,肺結核、哮喘、肺炎、流行性感冒等疾病較為嚴重。另外,空氣污染物顆粒,如 NOx、NO2、CO、O3、SO2、PM2.5、PM10等,都有可能導致相關疾病發生率升高 [3,4]。
就醫人數作為疾病發生率的一種表現,易于統計,分析不同科室就醫人數與氣候變化的關系,為就醫人數建立預測模型和公共衛生部門做出決策提供支持[5],同時可以為人們選擇就醫時段提供參考。當前,反映氣候狀況的氣溫、空氣環境的相應指標數據可以被準確全面地記錄和整理。因為涉及隱私,對特定疾病發病情況的收集相對困難,而特定科室的就醫人數也可以在一定程度上反映疾病的發生情況。
利用大數據技術從醫療相關數據中發現潛在的關系與模式,幫助醫院和公共衛生部門做出決策已經受到關注。例如, 2009年,Google公司借助大數據技術從用戶的搜索行為中預測了甲型H1N1流感的爆發,比美國疾病控制與預防中心先一步發出預警[6];一些研究根據用戶在Twitter上的文章構建了流感樣病例率的預測模型,取得了較準確的結果[7]。這表明大數據可以幫助預測疾病(尤其是流行病)的爆發趨勢,然而,這一領域的研究存在以下問題。
(1)數據的隱私保護
不管是用戶的搜索行為、社交網絡的言論,還是醫院或實驗室的醫療數據,都涉及用戶隱私,如何在保護隱私的前提下對數據進行分析與挖掘是一大挑戰。
(2)數據的規模
數據是大數據分析技術的基礎,在需要用戶授權的情況下,目前往往只能收集到少量的用戶行為數據,無法得到具有普遍性的結論。
(3)就診量的波動性
特定科室的就醫人數聚合了多種疾病的發病率信息,就醫人數與氣候指標間未必存在直接相關性,如何給出合理的預測預警是需要考慮的問題。
不同于現有的研究,本文利用反映氣候狀況的氣溫、空氣環境的相應指標數據對就診量進行預測,數據準確且規模大;通過對特定科室的就醫人數進行預測,間接預測了特定類型疾病的發生發展情況,避免了對涉及隱私的病人發病情況的收集;并且側重于預測就醫人數的突發,建立就醫人數突發的預警模型。
2 ?基于環境氣象因素的就診量預測模型
環境氣象因素與一些特定疾病的發生息息相關,尤其是流行病和小兒疾病。當前,反映氣候狀況的氣溫、空氣環境的相應指標數據可以被準確全面地記錄和整理。因此,通過環境氣象因素來對就診量進行預測,是一個合理的選擇。本文用到的環境因素包括兩類:氣溫和大氣污染物。氣溫因素包括3個指標:最高氣溫、最低氣溫和平均氣溫;大氣污染指標包括PM2.5、SO2、NO2、CO。
由于環境因素并不是就診量變化的唯一因素,因此直接對就診量的數值進行預測是不合適的。本文試圖對就醫人數的異常情況建模,即預測就診量的環比變化情況。比如,預測當天的就醫人數相對前幾天是平穩的還是突變的。因此,預測模型是一個分類模型。筆者選擇隨機森林[8]作為分類器。
將氣溫因素和污染物因素及醫院傳染科平均就醫人數作為模型的特征,建立就醫人數與環境特征間的隨機森林分類器,實現對就醫突變情況預測。具體如下。
選擇溫度、PM2.5、SO2、NO2、CO指標和平均就醫人數作為模型的特征,并假定各特征之間相互獨立。變量Tt=<Tmin,t,Tmax,t,Tmean,t>表示日期t當天的最高氣溫、最低氣溫和平均氣溫。考慮就醫人數與溫度的時滯效應,選擇預測日期前N天(不含當日)的溫度變化作為特征,分別計算N天平均溫度T?NT^N、(N+1)天內最大溫差Dev(TN),其中:
對PM2.5、SO2、NO2、CO指標做同樣的處理,形成污染物的特征P?NP^N、S?NS^N、N?NN^N、C?NC^N,表示N天內PM2.5的平均值。V?NV^N 表示經過標準化后的前N天的平均就醫人數(不含當日)。因此模型的特征集表示為:
對就醫人數的異常情況建模,異常情況是指環比變化情況。模型的目標變量應該反映預測當天的就醫人數的突變情況,假定閾值α>0,β<0,G=(Vt?V?)/std(Vt)G=(Vt?V^)/std(Vt),當G>α時,判定就醫人數突增,當G<β時,判定就醫人數突減,即當標準化后的就醫人數偏離超過均值的α或β倍標準差時判定為就醫人數突增或突減,見表1。
表1? 判定就醫異常情況
其中,將L(Y)作為標簽,特征集F中,,V?MV^M的取值為連續變量,L為類別標簽。
本文在訓練樣本集上構造了10棵決策樹組合的隨機森林分類器。
3 ?實驗分析
(1)數據集
模型涉及多源數據集,包括大氣污染物監測數據、氣溫數據和就醫人數的數據,下面以某市為例進行說明。
● 大氣污染物監測數據來源于國家氣象中心,包括該市2013年1月1日—2014年11月30日的大氣SO2、NO2、CO、PM2.5污染物濃度。
● 氣溫數據為國家氣象信息中心提供的2013年1月1日—2014年11月30日該市氣象站每日常規連續監測數據,包括最高氣溫、最低氣溫和平均氣溫。
● 就醫數據是2013年1月1日—2014年11月30日該市某兒童醫院傳染科科室就醫人數每日變化數據。
上述3個數據集描述性統計結果見表2。
表2? 描述性統計結果
(2)環境氣象與就診人數趨勢相關性分析
圖1為該市PM2.5濃度的日平均值,為每日連續監測數據,可見濃度在冬季(2013年12月—2014年2月)達到當年最高值,春季次之,夏季(2014年9月—2014年10月)最低。污染物取值大于零,對污染物水平取對數發現,其對數取值滿足正態分布。圖2、圖3、圖4是該市大氣污染因子SO2、NO2、CO的連續分布圖,類似的,污染物在冬季(2013年12月—2014年2月)達到當年最高值,春季次之,夏季(2014年9月—2014年10月)最低。
圖1 ?2013年1月1日—2014年11月30日某市PM2.5濃度隨時間變化的趨勢
圖2 ?2013年1月1日—2014年11月30日某市SO2濃度隨時間變化的趨勢
圖3 ?2013年1月1日—2014年11月30日某市NO2濃度隨時間變化的趨勢
圖4 ?2013年1月1日—2014年11月30日某市CO濃度隨時間變化的趨勢
如圖5所示,該市日氣溫變化具有明顯的時間規律性,高峰值出現在夏季的8月,低峰值出現在冬季的1月。
圖5 ?2013年1月1日—2014年11月30日某市氣溫隨時間變化的趨勢
傳染科就診人數變化趨勢如圖6所示,具有明顯的周期性,其高峰值出現在初夏(6月—7月),8月—9月為次低谷,低峰值出現在深冬(1月—2月)。初夏之際,氣溫驟升,適合細菌繁殖,因此傳染科的就診量最高。而在1月—2月,氣溫是一年中最低的,不利于細菌的繁殖,就診量也就相對較低。
圖6 ?2013年1月1日—2014年11月30日某市兒童醫院傳染科就診人數變化趨勢
(3)實驗結果
實驗以該市2013年1月1日—2014年11月30日氣溫數據,PM2.5、SO2、NO2、CO大氣污染濃度和該市兒童醫院傳染科日就診人數為基礎,構造上述特征和標簽,對就醫人數進行了前文所述的標準化處理,并且根據標準化后的就醫人數最多及最少的20%界定。實驗采用隨機森林作為分類器,以十折交叉驗證的方式分別計算分類器在突增、突減以及正常情況下的預測準確率。為評估就診人數隨環境變化的時滯效應,研究延遲天數N從1到7變化時,各情況下的準確率和召回率,具體情況見表3。
表3? 隨機森林分類器預測準確率及召回率隨延遲變化
實驗結果表明,在N較小(N=1或N=2)時,分類的準確率都不高,表明環境的變化無法在短時間內立刻影響到就醫人數。隨著N的增大,分類效果逐漸提升,并在延遲4日時效果最好,此后隨時間的增加,分類效果遞減。這表明環境因素對傳染科就診人數的影響時滯在4日左右,延遲如果過大,則環境因素的影響變弱。實驗結果表明分類模型可取N=4來獲取最好的分類效果。
在延遲設定為4日(N=4)時,就醫人數突增預測的準確率為92.8%,召回率為83.5%;就醫人數突減預測的準確率為87.4%,召回率為92.4%;就醫人數沒有明確波動的情況預測準確率為80.5%,召回率為78.1%。總體上看,分類器對正常情況的預測表現一般,這是因為就醫人數受多種因素影響,其他變量的變化也會導致就醫人數發生異常變化,使得結果不屬于正常情況。可以將其他因素加入分類器中,提高對正常情況的預測效果。分類器對突增和突減情況的預測要明顯好于對正常情況的預測,具有較高的準確率和召回率,說明從環境因素預測就診量的異常波動是有效的。
隨機森林的分類結果通過K個決策樹結果的投票來決定,提升了單個決策樹的分類精度,防止了過擬合的出現,是一種比較可靠的分類方法。為了評估 隨機森林分類效果,本文挑選了6種常用的分類算法(高斯樸素貝葉斯、SVM、K近鄰、決策樹、XGBoost、邏輯回歸)進行分類試驗,并與隨機森林分算法進行對比。結果見表4。
表4? 各種分類算法進行分類試驗的結果
實驗表明各種分類算法在不同情況下各有優劣。高斯樸素貝葉斯方法在突增召回率上表現不錯,但是準確率過低,且對正常情況的預測效果很差,說明過多地將正常情況判定為了異常情況;SVM和XGBoost在突增上的表現和隨機森林接近,但在突減上表現略差。K近鄰在各項指標上的表現都較差。決策樹的召回率比較好,但準確率低。邏輯回歸算法在正常情況下的召回率太低。總體來說,隨機森林的表現要優于其他算法。
4 ?結束語
本文研究分析了分類模型在某兒童醫院傳染科就診人數突變的應用。抽取待預測日期前一段時間內氣溫、污染物濃度以及就醫人數整體水平作為分類模型的特征,利用隨機森林模型預測就醫人數的異常情況,具有較高的準確率和召回率。對就醫人數的預測可以輔助醫院合理安排醫療人員,亦可為公眾合理安排就醫時間提供幫助。由于科室就醫人數聚合了不同疾病患者的就醫信息,而不同疾病與外界環境的關系不盡相同,科室就醫人數與環境因素間的相關性在一定程度上被弱化了。為判明特定疾病與環境因素間的關系需要收集更精準的數據,這是未來要完成的工作。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
于廣軍(1970-),男,博士,上海市兒童醫院研究員、院長,國家衛生信息工程技術研究中心副主任、中國醫院協會信息管理專業委員會常委、上海副主委。2006年開始負責具體組織實施上海“醫聯工程”。2011年、2013年分別獲得上海市科技進步獎一等獎、中國醫院協會科技創新獎一等獎和國家科技進步獎二等獎。
熊贇(1980-),女,博士,復旦大學計算機科學技術學院教授。2004年起從事數據領域方面的研究工作,作為項目負責人主持國家自然科學基金、上海市科學技術工作委員會發展基金以及企業合作項目。相關研究成果在本領域國際權威期刊或會議發表論文40余篇、出版著作3本。目前主要研究方向為數據科學和大數據。
彭思佳(1995-),女,復旦大學化學系本科生。2015年起進行能源相關催化材料的研究,相關研究成果在SCI期刊發表論文3篇。目前主要研究方向為數據科學。
阮璐(1992-),女,復旦大學計算機科學技術學院碩士生,主要研究方向為異質網絡、網絡表示學習。
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的基于环境气象因素影响的异常就诊量预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【2017年第2期】应用驱动的大数据融合
- 下一篇: UCOSIII移植问题说明