自然语言处理

  • 详情 使用机器学习方法预测中国上市公司“漂绿”
    本研究开发了一种创新方法来预测中国上市公司的"漂绿"行为。通过将大型语言模型BERT整合到机器学习框架中,我们构建了一个先进的漂绿预测模型。这种方法能够捕捉企业社会责任报告和年度报告的环境披露中微妙的语言线索和语义细节,显著提高了识别漂绿的精确度。研究采用了多种机器学习模型,包括支持向量机(SVM)、随机森林(RandomForest)和随机欠采样算法(RUSBoost),并在三种不同的数据集上进行了测试:基础财务数据集、扩展的Word2Vec环境披露数据集,以及BERT优化的环境披露数据集。结果表明,RUSBoost算法结合BERT调整的环境披露数据在各项评估指标上表现最佳,凸显了先进自然语言处理技术在分析环境披露文本方面的优势。此外,我们的研究发现预测的漂绿指标与ESG评级机构间的评级分歧显著相关,验证了本研究所开发的漂绿变量。本研究为识别和预测企业漂绿行为提供了一个创新的、基于文本的方法。这一工具对投资者、监管者和政策制定者具有重要价值,有助于捕捉公司的欺骗性环境披露。
  • 详情 新闻叙事与资产定价——来自大语言模型的证据
    投资者对宏观经济风险的评估如何影响资产价格一直是实证资产定价的难点之一。已有研究指出新闻文本会改变投资者对宏观经济的判断和预期进而影响股价,但如何有效提取与宏观经济风险相关的文本叙事信息来解释或预测资产价格变动,尚未达成共识。本文基于2007-2021年中国七家专业财经媒体的新闻报道数据,首次结合人工智能前沿领域的BERT大语言模型来测度新闻叙事注意力信息,然后利用稀疏工具主成分(Sparse IPCA)估计影响基本面的状态变量和影响资产价格的叙事定价因子。基于A股市场的实证检验发现:第一,本文利用新闻文本估计的状态变量对于消费、产出、国债收益率等宏观经济指标具有显著的预测效果,这表明新闻叙事蕴含着影响经济运行的信息。第二,相比CAPM、三因子等基准模型,基于新闻文本构建的叙事因子模型能更好地解释资产错误定价现象,并对未来资产价格的变化有更强的预测能力。第三,与基于关键词的文本分析方法(如LDA主题模型)相比,利用BERT提取文本信息可在保证因子模型简约性的基础上获得更优异的定价效果。本文的研究结论对于解释资产横截面收益差异有新的启示,同时为应用大语言模型于经济金融学研究抛砖引玉。
  • 详情 芝麻和西瓜能一起捡吗?——商业银行金融科技与贷款配置
    增强服务实体经济的能力是发展金融科技的根本目的。本文在利用自然语言处理技术对上市银行年报进行分析,测度银行个体层面金融科技水平基础上,实证检验金融科技对银行贷款配置的影响及其作用机理,以此考察金融科技对提升金融服务实体经济能力的作用效果。研究发现,商业银行发展金融科技尽 管显著提高了零售贷款供给,但是对实体贷款供给产生了挤出效应,并且该挤出效应对于放贷资金紧张的商业银行更为显著。机制检验结果表明,挤出实体贷款与银行追求利益最大化的经营目标一致,是银行出于增加收益、减少损失和降低风险的理性决策行为,表现为在零售贷款相对于实体贷款收益率更高、实体贷款不良率更高以及风险资产率更高的银行中,该挤出效应更为明显;同时,商业银行发展金融科技能够显著降低总贷款的不良率和显著提高总贷款的收益率。进一步的证据还表明,该挤出效应对于拥有手机 APP的银行,在数字金融素养高和贷款需求旺盛的区域,以及在消费者信心指数高的宏观环境下也更为明显。本文的研究结论从商业银行金融科技影响贷款配置的视角揭示了一个金融科技影响实体经济增长的潜在负向效益,有助于深入理解技术驱动的金融创新与经济发展之间的关系,同时在监管层面为促进我国金融科技高质量发展提供重要参考和政策建议。