复旦创新与数字经济前沿讲座第七期回顾 | Accuracy, Bias, and Trust: Evaluating LLM-Driven Screening in Fintech Lending——香港浸会大学杨阳助理教授-复旦-图卢兹创新与数字经济研究院

研究院动态

我们向每个人分享关于创新和数字经济研究的洞见

研究院动态

复旦创新与数字经济前沿讲座第七期回顾 | Accuracy, Bias, and Trust: Evaluating LLM-Driven Screening in Fintech Lending——香港浸会大学杨阳助理教授

来源:

发布时间:2024-12-20

2024年12月20日下午,复旦创新与数字经济前沿讲座第7期在复旦大学经济学院510会议室召开。香港浸会大学商学院会计、经济及金融学系研究助理教授老师应邀分享其与合作者最新研究“Accuracy, Bias, and Trust: Evaluating LLM-Driven Screening in Fintech Lending”。讲座由复旦大学经济学院副教授刘学悦主持,吸引了众多教师与学生的积极参与。

讲座伊始,杨老师给出一家P2P网站上8个案例的借款理由,让大家猜测哪4个借款最终会违约。很遗憾,没有一个人能准确预测出哪4个借款最终会违约。通过这个小测验,杨老师让在场听众亲身感受到,人类对于网贷是否会违约的判断准确率极低。

接下来,杨老师介绍了大语言模型在识别网贷违约方面的重要作用。相较于人类,大语言模型对于违约概率的预测准确度显著更高。杨老师将P2P网贷的借款理由分别提供给大语言模型和参与实验的信贷从业人员,并让大语言模型与人类给出这一笔贷款的违约概率。实验发现,即使是具备一定专业知识的人类,识别网贷违约可能性的准确性只有约40%,而大语言模型可以将这一比例提升到约70%。无论让GPT4扮演男性或女性贷款者,大语言模型都会认为女性借款者的违约概率较低,而人类却认为女性借款者的违约概率更高。这在一定程度上说明,在网络借贷的情境下,人类的歧视更大程度上是基于偏好的歧视,而大语言模型的歧视更大程度上是基于统计的歧视。

进一步,杨老师希望模拟大语言模型与人类的交互对违约概率判断产生的影响。如果向大语言模型给出人类被试者或其他大语言模型的预测结论作为辅助信息,大语言模型会更加相信人类被试者的预测结论,但是其预测能力会随之下降;如果向人类被试者给出大语言模型的预测结果或者专家建议作为辅助信息,人类会更加相信专家建议。不过,在有大语言模型辅助信息的情况下,最终人类预测表现会得到显著提高,并超过大语言模型单独预测的结果。由此可见,人机交互并非总能提升预测能力,人类的预测有时会拖累机器决策,而机器的预测却能极大提升人类决策的准确性。

在全长约两小时的讲座中,杨老师与在场老师和同学们围绕研究设计、结果分析展开了深入的讨论,学术氛围浓厚。




最近的研究成果

Copyright © 2023 复旦大学-图卢兹创新与数字经济研究院