2020-06-15
当前,能源生产革命方兴未艾,如何加速能源技术成果转换和扩散是亟待解决的现实问题。技术变化带来的成本下降是能源革命的重要推动力,但包括市场拓展、税收和供应链等在内的软成本已经成为可再生能源发电成本的主要构成部分,降低这类软成本具有重大现实意义。基于上述研究背景,董长贵助理教授和合作者Benjamin Sigrin以美国光伏太阳能为例,通过机器学习XGBoost的方法预测了美国屋顶太阳能光伏发电系统安装的情况。
研究背景和问题提出
从全生命周期来看,以光伏为代表的可再生能源发电产生的碳排放远低于传统化石能源,在缓解气候变暖、提升环境质量方面有着化石能源无可比拟的优势。近几十年来,可再生能源在各国政府的推动之下,在中国、美国等许多国家取得了指数级别的增长。尽管经历了强劲的增长,光伏太阳能在美国2019年的发电量占比仍然只有1.8%,其应用前景仍十分广阔。因此,如何进一步推动光伏新能源的增长,不仅是工业技术领域的核心命题,也为政策设计者和政策研究者提出了考验。
可再生能源增长的一大阻力在于其高昂的发电成本。发电成本可以分为硬件成本和软成本。就硬件成本而言,随着近年来光伏太阳能的技术进步,太阳能组件、逆变器等硬件价格迅速下降,使硬件成本制造的障碍得以消解;然而,硬件成本的快速下降同时意味着软成本例如劳动力、审批程序、市场拓展等在光伏发展的过程中占比越来越大,亟需我们提出方案,帮助光伏企业降低成本,从而更好地推广光伏太阳能。
在众多软成本因素中,本研究主要关注客户获取(Customer Acquisition)。客户获取是软成本的一项重要组成部分,它的提升意味着光伏企业能够更好地识别光伏太阳能的安装用户(PV Adopter),从而降低客户搜寻和产品推广成本。因此,这项研究的问题聚焦于——如何使用机器学习方法和高度可见的变量来更好地识别和预测安装用户和非安装用户?
研究的重要性和文献回顾
本研究的重要性体现在以下几点:首先,降低光伏企业的客户搜寻成本有着重要的现实意义;其次,这项研究能够快速应用于实践,提升光伏太阳能的技术扩散速度,从而对缓解气候变暖、提升环境质量带来直接效益;第三,已有的研究重点关注哪些变量能显著影响光伏的采纳,聚焦拟合而非预测,因而其可推广性不大。
正如重要性所示,已有文献普遍存在关注拟合而非预测的特征。这些研究致力于找到显著影响用户的光伏采纳的因素。由于采用了不同样本,得出的结论并不一致。另外,logistic回归是这类研究的主流方法,在本次讲座中董长贵助理教授重点讨论了机器学习方法与该方法在预测方面准确性的比较。最后,由于数据收集的高昂成本,多数研究的样本量小于1000,因而其模型估计的有效性值得商榷。
研究设计
本研究利用获得的数据集,重点对比了经典logistic方法和机器学习方法在预测光伏采纳方面的准确性。另外,这项研究舍弃了收集难度大的主观变量(例如个体意愿、社会价值等),主要纳入了那些易获得的、可观测的变量。最后,本研究采用了机器学习中被广泛采用的XGboost方法,使用20%的样本对模型进行验证。
本研究的数据来源于NREL在2014年6月至2015年4月对美国加利福尼亚州、亚利桑那州、新泽西州和纽约州共3600个家庭是否安装户用太阳能光伏及其他一系列变量的调查。经过数据清洗后,最终用于本研究的样本为2549个。由于样本量较小,本研究采用了XGBoost而非流行的深度学习方法。
XGBoost是极端梯度提升(eXtreme Gradient Boosting)模型的简称,源于梯度提升框架,但是其预测性能更优、训练速度更快。此外,本研究的因变量为非连续的二分变量,更符合决策树的概念。因此,对于该研究而言,XGBoost方法具有较好的适用性。董长贵老师还讲解了XGBoost方法的基本原理:一是要控制预测结果和实际观测值的差距,将损失函数最小化;二是要控制树形结构的复杂程度,因为模型复杂程度越低,其外推效果会越好。
研究结论
这项研究展示并比较了两种识别和预测了光伏采纳用户和非采纳用户的方法:logistic回归和机器学习方法XGBoost。在对采纳用户的预测上,机器学习方法的准确率比传统的logistic方法高出了百分之三十(如下图),为光伏企业有非常好的应用意义。由于本研究在大幅提升真正率(正确预测采纳用户)的同时也没有降低真负率(正确预测未采纳用户),使本研究的结果更具推广性。
另外,在模型设定上,传统的logistic回归方法需要研究者提前主观设定模型形式,对现实问题作不可避免的“简化”,机器学习方法考虑了非线性作用和变量间的相互作用、并用正则化控制了模型的过拟合,从而可以克服这一问题,设定出更符合现实的模型。
本研究还刻意排除了一些有观测难度的变量,如感知和社会价值。尽管这些变量被已有研究确定,但它们无法被太阳能企业轻易收集或测量,不具有现实意义。机器学习方法的预测结果证明了这一策略是有效的。根据XGBoost方法的结果,夏季用电量、年龄、收入和房屋面积是最为重要的变量,这些变量能够更好地应用于光伏企业的实践当中。
政策启示和给研究生的建议
本研究的研究方法、变量选取策略和研究结论有一系列的政策启示。首先本研究通过机器学习方法准确预测光伏系统安装用户,有着多重直接的政策效益:降低光伏太阳能的软成本、加快技术扩散过程、扩大客户群和产业基础,从而实现更大的气候变化效益。另外,本研究的研究过程还倡导使更多的数据透明和公开,并利用合作生产的力量,通过全球公开比赛,进一步提高预测的准确性。第三,本研究说明了相较于主流以显著性为基础的研究,以预测为导向的研究所蕴含的巨大价值。最后,本研究的研究方法可推广性很强,可以应用于类似的政策问题和领域,如能源效率、电动汽车、垃圾分类等。
在讲座最后,关于如何讲出好故事、做出好研究,董长贵助理教授还在分享研究经历的同时为研究生们提供了五点宝贵的建议。第一,应当关注行业知识,在一个特定的政策领域深耕,这样才能够建立系统的“实质性”知识。第二,夯实方法基础,在硕博期间接受系统的定量方法训练能够帮助我们驾驭研究问题、读透相关研究。第三,抓住数据机会,巧妇难为无米之炊,优质数据能够帮助我们做出高质量的研究,例如这篇研究的数据即来源于NREL实验室的问卷调查数据。第四,锻炼编程技能,编程已成为当代文科生的必备技能,精通STATA、R、Python等能够为我们的研究如虎添翼。第五,研读前沿文献能帮助我们寻找已有文献的不足,做出有创新性的文章。
本次讲座的政策领域和研究方法引起了与会师生的强烈兴趣。杨宏山教授针对文章的变量选取、可再生能源的发展前景等与董长贵助理教授作了商榷;其他同学提出了关于XGBoost方法的技术性细节方面的问题,表现出对机器学习方法应用于公共管理的浓厚兴趣。