机器学习

  • 详情 使用机器学习方法预测中国上市公司“漂绿”
    本研究开发了一种创新方法来预测中国上市公司的"漂绿"行为。通过将大型语言模型BERT整合到机器学习框架中,我们构建了一个先进的漂绿预测模型。这种方法能够捕捉企业社会责任报告和年度报告的环境披露中微妙的语言线索和语义细节,显著提高了识别漂绿的精确度。研究采用了多种机器学习模型,包括支持向量机(SVM)、随机森林(RandomForest)和随机欠采样算法(RUSBoost),并在三种不同的数据集上进行了测试:基础财务数据集、扩展的Word2Vec环境披露数据集,以及BERT优化的环境披露数据集。结果表明,RUSBoost算法结合BERT调整的环境披露数据在各项评估指标上表现最佳,凸显了先进自然语言处理技术在分析环境披露文本方面的优势。此外,我们的研究发现预测的漂绿指标与ESG评级机构间的评级分歧显著相关,验证了本研究所开发的漂绿变量。本研究为识别和预测企业漂绿行为提供了一个创新的、基于文本的方法。这一工具对投资者、监管者和政策制定者具有重要价值,有助于捕捉公司的欺骗性环境披露。
  • 详情 中国城市产业智能化空间关联网络及其驱动机制
    把握新技术革命发展机遇,推动产业智能化升级,对于新形势下实现经济高质量发展具有重要作用。文章基于 2003—2019 年中国 283 个地级市数据和网络爬虫获得的企业微观数据构建城市产业智能化指数,采用社会网络分析方法考察产业智能化的空间关联网络特征;此外,运用机器学习中的极限梯度提升树算法(XGBoost)识别出产业智能化的核心驱动因素,在此基础上借助加权指数随机图模型(ERGM)探析产业智能化空间关联网络驱动机制。研究发现:(1)样本期间产业智能化空间关联强度不断提高,但整体处于较低水平,存在较大的提升空间;大部分城市位于网络边缘位置,主要依靠城市群或中心城市对周边城市产业智能化产生辐射带动作用。(2)XGBoost 算法测算结果表明,技术创新、产业结构升级和对外开放是产业智能化的核心影响因素,累积贡献率高达 92.72%。(3)技术创新、产业结构升级和对外开放有利于加强城市间的产业智能化合作。异质性分析发现,产业结构升级主要推动外围城市、高产业智能化水平城市形成紧密的产业智能化空间关联,而技术创新和对外开放对其驱动作用有限。据此,文章提出了推动产业智能化空间协调发展的相应政策建议。
  • 详情 公告溢价效应与资产定价:文本机器学习视角
    本文在中国股票市场中,针对上市公司公告文本数据,采用文本分析机器学习方法进行信息提取,研究了上市公司公告信息与资产预期回报之间的关系,并探讨其对资本市场的影响渠道。本文首先依据监督式训练方法构造了基于公告的文本情感词典,并以此为基础使用机器学习方法对公告效应进行实证分析。其次,本文探究了公告效应的预测来源,并进行了异质性分析。本文研究发现,基于机器学习的公告文本情感倾向能够显著正向预测股票收益,在全样本中多空投资组合的平均年化收益达到了 20.04%。公告效应在小规模、成长型公司中溢价显著;与国企相比,民营企业的公告效应更显著。在对公告效应的来源分析中,本文发现金融机构关注度和公司信息披露质量较高的公司,公告效应相对较弱,而散户投资者的关注度会加强公告效应。
  • 详情 新冠肺炎疫情对线下微型商户短期冲击的定量估算——兼论数字金融缓解冲击的价值
    新型冠状病毒肺炎疫情给国民经济运行,特别是线下微型商户的经营造成严重冲击,但由于数据缺失,相关定量评估分析比较困难。本文基于支付宝旗下支付工具“码商”的海量数据,利用机器学习方法推算了如果没有疫情发生,2020年春节后线下微型商户运行应该具有的“反事实结果”,进而定量估算了疫情造成的冲击。结果表明,2020年正月初七后的两周,线下微型商户活跃商户量与营业额较估算的没有疫情冲击的“反事实结果“,分别下降了约40.4%和52.4%。进一步分析显示数字金融发展可以缓解疫情对线下微型商户的冲击。本文的研究在结论上和方法论上,对当前其他国家应对疫情,以及我国未来可能发生的其他突发公共卫生事件,均具有非常好的借鉴价值。
  • 详情 在大数据框架下建立与国际接轨并适合中国金融市场国情的主体信用评级体系
    信用评级行业是现代金融市场经济中的重要组成部分。经过近30年的发展,中国的信用评级业务已涉足金融市场的方方面面,但目前国内实施的信用评级体系仍面临评级虚高、区分度不足、事前预警功能弱等问题。中国的信用评级体系的发展除了需要针对金融行业本身在信用风险的披露进行专业的刻画和解读外,在借鉴国际金融市场和信用评级机构在评级方法实践的基础上,也需要结合中国的实际情况逐步探索出适合中国国情的信用评级的一般方法、分析框架和可落地实践的技术手段。本文的目的是在目前国内金融市场在信用评估(评级)实践中出现问题的基础上,讨论如何基于“全息画像”大数据分析平台为基础,利用大数据方法进行文本数据的分析,提取对应的(非机构化)文本数据的风险特征首先克服描述不好行为(即,违约,欺诈等行为)的“坏”样本数量不够的问题,然后建立支持风险评估相配套的风险业务流程分析框架,从而实现能够改善信用评级质量和提高评级区分度需要的特征指标的筛选,并结合违约模型和配套的信用转移矩阵指标,完成构建与国际通用的信用评级体系标准接轨并适合中国企业主体信用资质表现的信评体系, 从而达到解决挑战中国金融市场发展的三大核心问题:1)信用评级虚高;2)信用评级区分度不足;和 3)信用评级事前预警功能弱的问题。
  • 详情 中国商业银行系统性风险上升了吗?-基于集成机器学习技术的新证据
    保持金融稳定是目前中央“六个稳定”政策中的重中之重,系统性金融风险关乎经济发展。本文手工整理了 2010 年~2017 年非上市银行数据,利用集成机器学习(Ensemble ML) 技术测算中国 5 家国有商业银行、12 家股份制商业银行及 103 家城市商业银行的系统性风险,弥补了V-Lab 仅包含部分上市银行的缺陷。发现:总体系统性风险不断上升,各年度平均有 25%以上的急速增长,2016 年底出台的一系列政策有效控制了这一上升趋势,2017 年显著下降 10.3%;SRISK 份额最高的 5 大国有商业银行仅占 54.78%,城市商业银行的系统性风险份额不断上升、已成为中国系统性风险的潜在累积点;区域性演进上呈现向东南沿海积聚的特点。控制区域性发展的回归模型进一步揭示了商业银行系统性风险出现和上升的影响机制:总资产有显著的正向影响,支持“大而不能倒”的观点;杠杆率和期限错配是重要影响因素,银行的杠杆率降低 1%,系统性风险上升的概率显著下降 0.2%,系统性风险出现的概率下降 0.84%,上一年度出现风险的银行该年系统性风险上升的概率下降 0.5%,支持了“降杠杆”政策,且对非系统重要性银行降杠杆的效果更显著;提高流动性有利于显著降低系统性风险,但调控效果没有降杠杆强。最后利用国家层面和省际层面累计的系统性风险,发现金融风险对经济增长的确存在显著影响。
  • 详情 人工智能、企业生产率与劳动力技能匹配
    作为新一轮科技革命和产业变革的重要驱动力量,人工智能对企业提高生产率、优化劳动力结构方面有重要影响。本文收集了 2007-2018 年中国沪深 A 股上市公司年报和专利文本信息,采用机器学习的方法构建了企业层面的人工智能指标,究了人工智能对企业生产率的影响以及劳动力技能的匹配过程。本文发现人工智能显著提升了中国上市公司的生产率。为了发挥人工智能的生产率效应,企业会提高劳动力总数,增加非常规高技能劳动力数量,减少常规低技能劳动力数量。人工智能的生产率效应在国有企业、劳动密集型企业、拥有技术型董事会的企业、高技术行业、高要素市场发育程度的地区以及拥有较大政府支持力度的地区中更显著。最后,本文发现人工智能有助于提高公司价值。本文加深了微观企业层面对人工智能在生产过程中所扮演角色的理解和认知,并在企业和政策层面推动人工智能技术发展给出了建议。
  • 详情 中国商业银行系统性金融风险上升了吗?
    :本文手工整理了2010 年~2017 年非上市银行数据,利用集成机器学习技术测算中国商业银行的系统性风险,弥补了V-Lab 仅包含部分上市银行的缺陷。发现:总体系统性风险不断上升,2016 年底出台的一系列政策有效控制了这一上升趋势,2017 年显著下降10.3%;SRISK 份额最高的5 大国有商业银行仅占54.78%,城市商业银行的系统性风险份额不断上升、已成为中国系统性风险的潜 在累积点;区域性演进上呈现向东南沿海积聚的特点。控制区域性发展的回归模型进一步揭示了商业银行系统性风险出现和上升的影响机制:资产规模有显著的正向影响,支持“大而不能倒”的观点;杠杆率和期限错配是重要影响因素,银行的杠杆率上升1%,系统性风险上升的概率显著上升0.34%,支持了“降杠杆”政策,这一结论对是否是系统重要性银行都稳健;提高流动性有利于显著降低系统性风险,调控效果没有降杠杆强,但对小规模银行更有效。我们还观察两个银行机构特征,银行主动承担风险使得银行自身系统性风险上升,帮助企业发现债券没有显著影响基本对非系统重要性银行也不会影响系统性金融风险。最后利用省级和城市层面累计的系统性金融风险,发现系统性金融风险对经济的增长和发展质量的确存在显著负作用,风险上升的省份和城市经济作用更显著,系统性金融风险是关乎经济发展的关键因素。
  • 详情 崩盘风险的测度、定价与择时
    股价的崩盘风险具有重要的研究价值与意义。着眼于由错误定价引发的崩盘风险,本文通过机器学习模型为每个股票-月份样本计算得到样本外崩盘风险信息,逐年样本外预测精确性的均值为89.06%,在一定程度上保证了崩盘风险信息的有效性。本文对崩盘风险信息的进一步研究发现:(1)崩盘风险的截面收益具有较高的统计与经济显著性,且具有边际的定价能力;(2)当在投资策略中加入崩盘风险的截面信息执行因子择时策略时,样本外夏普比率约为未加入的2.05倍,显示出崩盘风险的截面信息对于因子择时的突出贡献。本文的研究结果具有较强的现实意义,表现为基于崩盘风险信息,能够充分发挥资本市场中市场与非市场的力量,从而有效地降低系统性风险发生的可能性,为金融体系的健康发展保驾护航。
  • 详情 优胜劣汰还是逆向选择——基于上市公司质量与股价表现关联的研究
    优胜劣汰的高质量的股票市场是金融服务经济和供给侧改革的关键。本文使用90多个财务特征指标“大数据”和多种机器学习方法提取基本面信息,对上市公司质量进行评价并构建基本面综合质量指数,研究基本面质量与股价表现的关联关系。研究分析,上市公司基本面综合质量指数对股价表现具有显著为正的预测能力。其中,由偏最小二乘法构建的质量指数对股票横截面收益的预测能力最强,年化收益接近38%,且CAPM、三因子和五因子模型对此无解释能力。我们还进一步从行为金融和宏观经济周期视角探索公司质量对股票价格的影响机制,发现市场情绪、有限套利、公司投资决策和经济周期都有助于深入理解上市公司质量溢价现象。本文研究表明,我国股票市场定价效率已经稳步提高,进入了“优胜劣汰”和价值投资阶段。