当前位置 > 威尼斯城所有登入网址 > 优秀会员推荐 > 基于新型冠状病毒肺炎疫情下的数据与模型思考

基于新型冠状病毒肺炎疫情下的数据与模型思考

来源:威尼斯城所有登入网址-官网9778818行业网 | 时间:2020-06-03 | 作者:数据委

以下文章来源于山东智谷数据分析师事务所
作者:徐斐飞
基本概述

2019年12月以来,湖北省武汉市部分医院陆续发现了多例有华南海鲜市场暴露史的不明原因肺炎病例,后已证实为2019新型冠状病毒感染引起的急性呼吸道传染病,随着疫情蔓延,我国其他地区及境外多个国家地区也相继出现此类病例。2020年2月,国家卫健委1号公告将新冠状病毒感染的肺炎纳入《中华人民共和国传染病防治法》规定的乙类传染病,并采取甲类传染病的预防控制措施。截至3月4日,国家卫生健康委员会(以下简称“国家卫健委”)官网已发布试行第七版的新型冠状病毒肺炎诊疗方案。随着疫情的不断蔓延,国家、省及各地区相应采取一系列防控措施,积极应对疫情发展。

 

在疫情全球肆虐之下,作为数据从业者,数据在哪些方面可以助力防控疫情,如何利用这些数据等问题,都值得我们去思考与研究。有专家学者表示,在疫情爆发前,数据就已经在发挥举足轻重的作用,数据可以清晰地描绘出人与动物接触的方式及频次,以及多地多物种数量的分布情况等,基于这些数据,专家学者不难分析出病毒有多少几概率是来源于动物。在此前的SARS、埃博拉病毒等大范围爆发的流行病,科学家估算出,约四分之三的新病毒都是源于动物,多达80万种未知动物病毒可以传染给人类,这正是通过数据解析之后获得有价值的信息。在此基础上,整合已知病毒、动物数量、人口统计等,利用新技术来预测新病毒可能出现的区域,从而帮助政府和公共卫生机构提前采取措施,在疫情爆发前做好准备及预防性工作。

 

新冠肺炎疫情发生以来,各地政府也通过多种渠道发布疫情数据,对于满足公众知情权,加强自我防护起到了积极重要的作用,还有些数据被专业人员进一步利用,开发出许多受欢迎的应用服务。但是,各地发布数据的内容和方式各有不同,带来的阅读体验和应用价值也不相同。本文将从数据源头入手,以不同的角度探讨此次疫情的数据标准及质量实施情况,并结合已发布的数据,分析呈现疫情趋势,尝试探讨构建趋势拟合模型。

 

由于本人能力有限,以及时间上的仓促,恐难免有以偏概全之论,不足之处,望予以批评指正。

 

 

数据来源

国家卫健委官方网站、国家各地区卫生健康委员会官方网站、山东省公共数据开放网站、百度疫情实时大数据报告。

 

数据透析

基于政府发布的新型冠状病毒肺炎确诊病例、疑似病例、治愈出院情况、死亡病例等数据,从政府数据发布形式,提供格式等方面探讨数据标准、质量情况,并以公开发布数据呈现分析全国各地区、省(以山东省为例)、市(以泰安市为例)疫情发展趋势。

 

(一)全国疫情数据

 

1.?数据采集

国家卫健委在其官方网站最显著位置增设疫情防控专题模块,涵盖疫情通报、防控动态、通知公告、医者风采、防控知识、你问我答、普法知识、新闻报道功能,其中本文全国疫情数据均来自疫情通报。

 

国家卫健委每日发布昨日数据,包括31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例、新增死亡病例、新增疑似病例、当日新增治愈出院病例、解除医学观察的密切接触者、累计治愈出院病例、累计死亡病例、累计报告确诊病例、现有疑似病例、累计追踪到密切接触者、尚在医学观察的密切接触者等统计数据,另外湖北省疫情数据再单独通报一次,并发布港澳台地区的通报确诊病例。疫情通报数据格式如下(文字+数字):

 

 

2020年1月10日起,每日通报疫情数据,1月10日至1月19日数据以武汉地区为主;2月12日,对湖北省以及湖北省以外其他省份的病例诊断标准进行了区分,湖北省增加了“临床诊断病例”分类,对疑似病例具有肺炎影像学特征者,确定为临床诊断病例,以便患者能及早按照确诊病例相关要求接受规范治疗,进一步提高救治成功率,因此会导致确诊病例数量突然大量增加;2月13日,湖北省因重复统计,核减108例;2月21日,湖北省将19日、20日核减的病例数重新加回到确诊病例,并对当日新增病例数进行了校正。疫情通报数据格式期间更改过一次,整体数据比较完善。

 

各省级疫情数据均来自各省卫健委网站疫情通报。各省卫健委疫情通报模块,大部分与上级单位一致,疫情前期每天通报昨天数据,中途更改为每半天通报一次,通报格式略有调整。无论是开始的“文字+数字”形式,还是现在 “文字+数字+图片”形式,均不便于被开发利用,需要对这些数据先做一些技术处理,将数据从这些文字中、图片中提取出来,整理成结构化数据。

 

2.?数据呈现

数据呈现主要从累计确诊病例、累计治愈病例、累计死亡病例、每日新增病例和累计疑似病例等五个方面展示全国及各地区疫情形势。

 

 

从上图,可以看出2月11日全国累计确诊病例持续增长,2月12日突然呈垂直增长,经查询材料发现,2月12日骤增的重要原因主要是,为做好新型冠状病毒肺炎患者早诊早治,落实好湖北病例应收尽收、应治尽治工作,按照《新型冠状病毒肺炎诊疗方案(试行第五版?修正版)》,对湖北省以及湖北省以外其他省份的病例诊断标准进行了区分,湖北省增加了“临床诊断病例”分类,对疑似病例具有肺炎影像学特征者,确定为临床诊断病例,湖北省报告的13,332例临床诊断病例纳入确诊病例统计,以此来降低病死率,所以导致当天,数据异常增长。累计疑似病例从2月8日起,持续下跌,每日增加确诊病例数自2月12日起,持续下跌,累计治愈病例数呈指数增长,可见疫情在全国上下齐心一致抗击疫情下,态势得到了良好的控制。

 

从每日确诊病例热力图中看出,2月12日颜色程度较深,表明这一天确诊病例较其他时间确诊人数众多。自2月下旬以来,颜色程度较浅,也印证了确诊病例每日持续下跌的事实。

 

(二)省级疫情数据(山东)

 

1.?数据采集

省卫健委与国家卫健委同样,在其官方网站最显著位置增设疫情防控专题模块,涵盖通知公告、防控动态、医者风采、健康知识、媒体视窗、一封家书等功能,其中本文省级疫情数据均来自通知公告。另外,省卫健委在官网威尼斯城所有登入网址增设了万众“疫”站 谨防严控和“疫”线视频两个专题模块。

 

省卫健委提供数据格式1月份与国家卫健委一致,“文字+数字”的形式对外公布,自1月30日12时~24时开始,通报形式变为“文字+数字+表格图片”,表格图片对于一般读者,便于阅读和理解,但是对于数据使用者来说,但还不好用,如要对这些数据进行分析,需要先将图片中的数据转化为机器可以读取和处理的结构化数据。数据表格在不同的时间发布,呈现为不连续的、碎片化,如果想要分析某段时期内的趋势,就要把之前发布的一条条通报搜寻出来,然后再把其中的数据整合起来。

 

为充分分析挖掘疫情数据,向社会提供可获取的、完整的、结构化的数据,用于疫情防控、帮助公众理解数据背后信息等应用的开发,省卫健委在官网通知公告中每日通报外,还通过省数据公共开放网,将全省及各地区疫情数据以开放数据为基本标准,向社会提供excel、csv、XML、json、API等形式的疫情数据服务,数据内容丰富,数据整体质量较高。

 

 

本部分利用的数据主要来源于省卫健委官方网站的通知公告,省公共数据开放网发布的疫情数据作为补充。

 

2.?数据呈现

省级数据呈现主要从累计确诊病例、累计治愈病例、累计死亡病例、每日新增病例和累计疑似病例等五个方面展示山东省及各地市疫情形势。

 

 

 

从上图,可以看出2月10日山东省累计确诊病例持续增长,2月11日至2月19日累计确诊病例增速放缓,但在2月20日,突然骤增,经查询材料发现,2月20日骤增的重要原因主要是,山东省任城监狱疫情感染事件造成的,当天仅任城监狱新增确诊200例,2月21日起累计确诊病例趋于平缓。累计疑似病例从2月13日起,持续下跌,每日增加确诊病例数自2月10日起,持续下跌,仅因任城监狱感染事件,出现异常数据外,其余时间一直保持下跌态势。累计治愈病例数持续增长,在省委省政府及各地市政府共同努力下,疫情发展态势得到了控制,为复工复产奠定了良好的基础。

 

从省每日确诊病例热力图中看出,2月20日颜色程度较深,表明这一天确诊病例较其他时间确诊人数众多。自2月下旬以来,颜色程度较浅,也印证了确诊病例每日持续下跌的事实。

 

(三)市级疫情数据(泰安) 

1.?数据采集

 

同样,在市级卫健委官网醒目的位置,设置有新型冠状病毒肺炎疫情防控专栏。每半天更新上半天的数据,数据格式到目前为止,主要是“文字+数字”一直未有更改,但数据更新时间,多次调整(由一天更新一次,变为两次,中途又出现一天更新一次),自2月9日到现在,数据更新时间(一天两次)保持一致。 

本部分采用的数据均来自本级卫健委官网发布的疫情通告,在数据存在异议的情况下,结合上级部门的数据进行校正。

 

2.?数据呈现

市级数据呈现主要从累计确诊病例、累计治愈病例、累计死亡病例、每日新增病例和累计疑似病例等五个方面展示泰安市及各县市区疫情形势。

 

 

从上图,可以看出2月10日泰安市累计确诊病例持续增长,2月11日至2月18日累计确诊病例不再增加,2月19日至2月21日增长速度放缓,随后不再有病例增加。累计疑似病例从2月4日起,持续下跌,每日增加确诊病例数自2月10日起,下跌至0,除2月19日至2月21日期间每日新增1例确诊病例外,后期均无新确诊病例。累计治愈病例数一直呈增长态势。?

从市级每日确诊病例热力图中看出,2月10日颜色程度较深,表明这一天确诊病例较其他时间确诊人数众多,2月1日、2月5日确诊人数次之。自2月下旬以来,颜色程度较浅,印证了确诊病例每日持续下跌的事实。疫情态势的良好控制,得益于市委市政府在疫情期间积极落实上级防控政策,因地制宜的采取一系列符合现实状况的防控措施。

 

疫情模型

 

通过构建统计学模型、数学模型,或者利用机器学习、深度学习方法拟合疫情发展趋势,利用历史数据对未来的确诊病例等疫情形势进行预测,比如说,逻辑斯蒂生长曲线拟合数据,预测未来几天可能的发展趋势;或者利用时间序列模型构建预测模型;也可用LSTM构建预测模型,一种特殊的RNN网络。以上方法,除生长曲线外,其他模型,需要大量数据做训练,就目前情况看,数据量并不大,即使构建出模型,参考价值并不大,并没有与业务做融合,只是以数据理解数据。

 

另外一个建模思路,可以从传统疾病传播模型(SIS、SIR、SEIR等),建立传染病模型,结合此次冠状病毒的传播特性,利用现有的样本数估计出一个大概的参数,建立适当的传染病数学模型,能较为精准的预估疫情的发展趋势,当然这是一个较为复杂且专业的问题。近日,由钟南山院士团队研究构建的「具有饱和发病率(其解释,任何传染病都具有饱和发病率,即不可能完全被消灭) SIQS 传染病模型」虽然被国外权威期刊退回,但研究成果还是符合国内疫情发展趋势。

 

据有关学者介绍,SIQS传染病模型实际上是在传统SEIR模型基础上,加上两个干预因素,即国家的强力干预和春节后的回程高峰,另外,2020年2月28日,钟南山院士团队发表了一篇名为《公共卫生干预下COVID-19流行趋势的 SEIR和AI预测修正》,将2020年1月23日前后的人口迁移数据及最新的新冠肺炎流行病学数据整合到SEIR模型中生成流行曲线,同时,团队还利用人工智能技术,以2003年SARS数据为基础进行训练,从而更好地预测新冠疫情。研究团队还使用长短期记忆模型,预测新增感染数随时间的变化。对于基本训练数据集的处理,研究团队利用 2003年4-6 月SARS的病例统计,纳入COVID-19流行病学参数。从钟南山院士团队的研究成果来看,假设是一支纯技术团队,是无法作出解释性强、可信度高的预测模型,所以说数据建模不仅仅依靠的是技术工具,更多的是业务理论背景,模型不应该是冰冷的技术实现,更应该是有温度、有内涵的业务与技术的融合。

 

因本人不具备传染病、医疗专业领域相关知识,从非专业角度,尝试利用Logistic生长曲线模拟泰安地区累计确诊病例数量,并试着简单叙述传统疾病传播模型-SEIR。 

(一)Logistic生长曲线

 

逻辑斯蒂曲线是由比利时数据学家首次发现的特殊曲线,后来,生物学家皮尔(R.Pearl)和L·J·Reed根据这一理论研究人口增长规则,因此,逻辑斯蒂生长曲线也被称为生长曲线或者珍珠德曲线。逻辑斯蒂生长曲线一般形式如下:

 

L,a,b均为未知参数,需要根据历史数据进行估计。生长曲线在现代商业、生产行业、生物科学等方面有着非常广泛的应用。

 

我们利用生长曲线模型,拟合泰安本地累计确诊病例数据,建立生长曲线模型。数据拟合如下图所示,蓝色部分显示的确诊病例观测值,红色部分显示的是确诊病例预测值,并计算出未来7天的确诊病例数据。

 

从上图预测值生成的曲线来看,生长曲线模型整体呈现“S”型,按照相关参考文献说明,生长曲线可以分为初期、中期和末期三个阶段:

 

在初期,虽然 t处于增长阶段,但是 y 的增长较为缓慢,这时曲线呈现较为平缓的上升;在中期,随着t的增长,y 的增长速度逐渐增快,曲线呈现快速上升的态势;当达到拐点(t,Y)后,因函数饱和程度的增长达到末期,随着t的增长 y 的增长较为缓慢,增长速度趋近于0,曲线呈水平状发展。

 

在了解模型特点后,假设外部因素干预事件发展,就会导致数据的突然增多或减少,会影响模型的预测精度。因此,logistic增长模型只是对疾病进行预估,并不能准确判断,也并不是最佳模型。当然可以通过模型优化,来提高预测精度,有的文献提出可以根据华罗庚提出的0.618选优法,对得到的模型进行优化(计算该模型是否能得到预测值和测量值最小残差平方和)。这里我们就不再展开,可以后期进行探讨学习。

 

(二)疾病传播模型-SEIR

查阅相关文献后,发现常见的传染病模型按照传染病类型分为SI、SIR、SIRS、SEIR 模型等,用于研究传染病的传播速度、空间范围、传播途径等问题,用来指导对传染病的预防和控制。模型中涉及S、E、I、R、r、β、γ、α参数:

 

S类:表示易感者 (Susceptible),指未得病者,但缺乏免疫能力,与感染者接触后容易受到感染;E类:表示暴露者 (Exposed),指接触过感染者,但暂无能力传染给其他人的人,对潜伏期长的传染病适用;I类:表示感病者 (Infectious),指染上传染病的人,可以传播给 S 类成员,将其变为 E 类或 I 类成员;R类:表示康复者 (Recovered),指被隔离或因病愈而具有免疫力的人。如免疫期有限,R类成员可以重新变为 S 类。

 

r:感染患者(I)每天接触的易感者数目;β:传染系数,由疾病本身的传播能力,人群的防控能力决定;

 

γ:恢复系数,一般为病程的倒数,例如流感的病程5天的话,那么它的γ就是1/5;α:潜伏者的发病概率,一般为潜伏期的倒数。

我们这里不再利用采集到的数据,模拟疫情发展形式,一方面原因是我们并不能较好的估计模型中涉及到各个参数, 需要考虑的的参数较多,另一方面数据并不能支撑其模型推导,特别是疫情的政府干预因素、社会舆情因素,对疫情发展趋势都会产生一定的影响,应将相关的因素考虑进去,所以这个问题相对来说是比较复杂的过程,我们这里不再进行过多探讨。大家有兴趣的可以去查找相关文献材料,进行深入研究学习。

 

 

 

 

参考文献

[1] 百度百科. 新型冠状病毒肺炎[EB/OL].

https://baike.baidu.com/item/%E6%96%B0%E5%9E%8B%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92%E8%82%BA%E7%82%8E/24282529?fr=aladdin.

[2]?刘俊寰.?疫情中数据的作用无法忽视,但也不能盲信模型?| 专访前DHS生物监管总监[EB/OL].

http://www.bigdatadigest.cn/#/articleDetail?articleId=591&type=0

[3] 国家卫健委官网.?全力做好新型冠状病毒肺炎疫情防控工作[EB/OL].

http://www.nhc.gov.cn/xcs/xxgzbd/gzbd_index.shtml

[4] 山东省卫健委官网. 全力做好新型冠状病毒肺炎疫情防控工作[EB/OL].

http://wsjkw.shandong.gov.cn/ztzl/rdzt/qlzhfkgz/index.html

[5] 泰安市卫健委官网. 新型冠状病毒肺炎疫情防控?[EB/OL].

http://wjw.taian.gov.cn/col/col119732/index.html

[6] 百度. 新型冠状病毒肺炎疫情实时大数据报告[EB/OL].

https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1

[7]?山东省大数据局.?山东公共数据开放网[EB/OL].http://data.sd.gov.cn/

[8]?金涛. 逻辑斯蒂增长曲线模型的优选研究[J].1003-8965(2015)04-0130-01

[9] 雷锋网.?钟南山等人用?LSTM 力证“早发现早隔离”重要性[EB/OL].

https://www.sohu.com/a/377229230_114877

[10] CSDN昵称:土豆西瓜大芝麻.SEIR传染病模型[EB/OL].

https://blog.csdn.net/jinking01/article/details/104145509

[11] 郑磊.?哪些地方开放了真正“能用”和“好用”的疫情数据?这些数据能用来做什么?[EB/OL].

https://mp.weixin.qq.com/s/2V6tfS8gJkxA4-GLRbJ1mw

 

?
XML 地图 | Sitemap 地图