当前位置:首页  科研交流

【讲座预告】“南湖数智大讲堂”第四期:解密生成式AI——构建你的第一个Transformer模型

来源:信息工程学院发布日期:2026-04-15访问次数:11

一、讲座主题

解密生成式AI——构建你的第一个Transformer模型

二、主讲人简介

黄安辉博士是一位拥有深厚跨学科背景的资深专家,其研究领域横跨电子与计算机工程、生物信息学、统计学及生物技术。他于迈阿密大学获得电子与计算机工程博士学位,并被授予荣誉毕业生称号。在此之前,他分别在佛罗里达大学和南开大学完成了硕士与学士学位。博士毕业后,他先后工作于花旗银行,摩根斯坦利和第一资本银行,从事工程项目的横向研发和应用。

三、讲座内容

随着生成式人工智能的迅猛发展,以Transformer为核心的大语言模型在自然语言处理等领域取得了突破性进展。然而,这类模型通常依赖海量数据和庞大计算资源,难以在资源受限的学术实验室或中小型企业中落地。本次讲座以“用大模型的框架,做小模型的实践”为核心理念,系统介绍如何构建一个轻量级、可部署的Transformer模型,并在实际预测任务中实现优于传统机器学习模型的性能。

讲座首先回顾机器学习与深度学习的基本原理,对比传统模型(如线性回归、Lasso)与深度学习模型(如CNN、RNN、Transformer)在建模假设、数据需求与可解释性方面的差异。随后深入解析Transformer架构的核心机制,包括自注意力(Self-Attention)、多头注意力(Multi-Head Attention)、位置编码(Positional Encoding)以及编码器-解码器结构,并结合掩码机制说明其在序列建模中的优势。

在方法部分,讲座以客户行为预测为应用场景(如广告推荐、账户安全评估),构建一个参数量仅为12万左右的小型Transformer模型。针对客户交易记录的特点,设计“多塔Transformer”结构,分别处理动态行为序列(如支付记录)与静态特征(如年龄、账户年龄),有效提升了模型对异构信息的建模能力。

实验结果显示,该小型Transformer模型在AUC等评价指标上显著优于传统的梯度提升机(GBM)模型。此外,模型具备一定的可解释性,能够识别关键行为特征(如还款模式“111111”表示按时还款,“XX”表示逾期),为后续风控决策提供依据。

最后,讲座展望了未来发展方向,包括构建更丰富的特征嵌入表示、探索Decoder-only架构(如GPT风格)在序列建模中的应用,以及融合多源数据构建更完整的客户行为数据,为小规模团队在生成式AI时代的模型研发提供可行路径。

四、讲座信息

讲座时间:2026年4月21日(周二)下午14:00

讲座地点:创新创业大楼B栋108

活动对象:中南财经政法大学信息工程学院全体学生