金融
进展中 · 1 次更新Fact 9/10Revolut 发布 PRAGMA:在大规模银行数据上预训练的编码器基础模型
文章语言
简体中文
数字银行平台 Revolut 推出 PRAGMA,这是一种基于多源银行用户历史记录训练的编码器式基础模型。该模型采用大规模金融记录上的掩码建模进行预训练,可能支持金融服务中的用户行为理解与预测任务。
Open article · no sign-in required
来源与披露
All key factual claims in the article are directly supported by the provided arXiv paper snippets. The article accurately describes PRAGMA as an encoder-style foundation model from Revolut, trained on multi-source banking user histories using masked modeling on a large-scale corpus. It correctly identifies the model's purpose for user behavior understanding and predictive tasks, listing specific downstream applications like credit scoring, fraud detection, communication engagement, recommendation, and lifetime value tasks, which are explicitly mentioned in the source. The article maintains a neutral tone and adheres to reputation safety guidelines, discussing potential applications and limitations without overclaiming or speculation.
Market lens
Separate infrastructure signal from investable outcome
Treat market-linked stories as context: identify the mechanism, then wait for evidence before treating it as an outcome.
Impact path
Signal first, outcome later
Signals to watch
- Primary-source guidance and filings
- Price, volume, margin, and renewal evidence
- Follow-up reporting that confirms or rejects the mechanism
Verification schedule
D+1 · Jun 15
Is the mechanism visible in primary data?
D+3 · Jun 17
Do follow-up sources confirm direction and magnitude?
D+7 · Jun 21
Did the initial read overstate the market effect?
Informational context only — not investment, legal, tax, or financial advice.
数字银行平台 Revolut 推出了一种基于金融交易数据预训练的基础模型 PRAGMA。该模型采用编码器架构处理多源银行用户历史记录,并使用应用于大规模金融记录的掩码建模技术进行训练。
金融专用基础模型的出现
与通用语言模型或视觉模型不同,PRAGMA 是一款面向金融交易记录这一特定领域的基础模型。据报道,Revolut 使用了其平台上生成的交易历史、账户活动和支付模式作为训练数据。编码器式架构侧重于学习输入数据的表示,这种结构适合分类、异常检测和用户分群分析等下游任务。
掩码建模已在自然语言处理领域得到广泛应用。该技术通过遮蔽输入序列的部分内容并训练模型预测被遮蔽元素,从而帮助捕捉数据中的模式和上下文信息。将其应用于金融交易数据时,这种方法可以帮助模型学习消费习惯、交易时间分布以及不同类别之间的关联。
金融服务 AI 的运营背景
金融机构长期以来一直将机器学习用于异常检测、信用评分、个性化推荐和客户流失预测等任务。传统方法通常依赖为特定任务设计的单独模型。基础模型方法则允许将一个大规模预训练模型复用于多个任务,从而提升开发效率和一致性。
Revolut 成立于 2015 年,业务已在欧洲及其他地区扩展,截至 2024 年服务全球数千万用户。如此规模的用户基础有助于提供基础模型训练所需的大规模数据集。由于金融数据因敏感性和监管要求而难以对外共享,拥有专有数据的机构可能更适合开发领域专用模型。
“多源用户历史记录”这一表述表明,PRAGMA 不仅可以处理简单交易记录,还可以整合和处理多个数据流,包括账户类型、银行卡使用模式、转账历史和外汇兑换记录。这一能力有助于更全面地理解用户金融行为,并可能比仅依赖单一数据源的模型具有更好的泛化能力。
技术架构与训练方法
编码器模型专长于将输入序列转换为固定长度的向量表示。这些表示可作为用户画像、风险评估和行为预测等任务的基础。与以解码器为中心的生成模型不同,编码器模型更侧重于以压缩形式学习输入数据的语义结构。
掩码建模是一种自监督学习形式,能够从大规模无标注数据中学习表示。在金融交易序列中遮蔽特定交易,并训练模型根据上下文恢复这些交易,模型便可以学习交易之间的时间依赖关系、金额模式和类别转换规则。这是一种在没有显式标签的情况下捕捉数据结构特征的方法。
在大规模金融记录上进行预训练需要大量算力和基础设施,但所学到的表示可以通过迁移学习应用于多个下游任务。与针对每个任务从头训练模型相比,这种方法在数据效率和性能方面可能具有优势。对于标注数据有限的任务,预训练表示的价值尤为明显。
竞争格局与战略意义
大型金融机构也在投资自有 AI 能力。摩根大通一直在推进金融专用语言模型的开发,彭博则发布了 BloombergGPT。金融科技公司同样在利用数据优势开发领域专用模型。PRAGMA 反映了 Revolut 在这一更广泛格局中的技术策略。
尽管基础模型方法需要较高的开发成本和基础设施投入,但一旦成功实施,便可形成可复用于多个任务的表示学习资产。如果 Revolut 利用 PRAGMA 改善异常检测、个性化服务或运营效率,该模型可能成为其内部 AI 技术栈的一部分。
鉴于金融数据的性质,外部数据共享较为困难,拥有自身平台生成数据的公司在模型开发方面可能具有优势。这可以强化数据网络效应,形成用户规模越大、模型质量越高的循环。PRAGMA 可被视为用户规模应用于模型开发的一个案例。
不确定性与限制
公开信息并未披露 PRAGMA 的具体模型规模、训练数据规模、性能基准或部署计划。尽管该工作似乎以论文形式呈现,但商业服务集成或对外发布计划尚未明确。考虑到金融数据的敏感性,该模型或训练数据以开源形式发布的可能性似乎不高。
金融监管环境对 AI 模型的使用施加了严格要求。在欧洲,GDPR 等法规以及 AI Act 等框架会影响模型开发和部署。在美国,金融消费者保护规则和公平放贷要求也可能影响 AI 模型的可解释性与偏差管理。PRAGMA 若要集成到金融服务中,需要满足这些监管要求。
鉴于编码器模型的特性,PRAGMA 更适合分析和预测任务,而非生成任务。涉及客户交互或内容生成的用例可能需要单独的解码器或生成模型。因此,PRAGMA 更适合被理解为 Revolut AI 基础设施中承担特定角色的组成部分。
模型性能在很大程度上取决于训练数据的质量和多样性。如果 Revolut 的用户基础集中于特定地区或人口群体,模型的泛化能力可能受到限制。此外,金融行为模式会随着经济环境、监管变化和技术进步而变化,这可能需要持续更新和重新训练。
构建者启示
- 拥有金融专有数据的公司可以考虑开发领域专用基础模型。数据规模和质量是决定模型性能的重要因素,扩大用户基础有助于提升模型质量。
- 编码器架构与掩码建模的组合适合从交易记录和用户行为日志等序列数据中学习,能够形成适用于分类和预测任务的表示。自监督学习在标注数据有限的场景中尤其有用。
- 部署金融 AI 模型时,需要考虑 GDPR、AI Act 和金融消费者保护规则等监管要求。应在初始设计阶段就纳入可解释性和偏差管理框架。建立能够跟踪和审计模型决策过程的基础设施十分重要。
Want follow-up alerts? Subscribe by email after reading the public article.
Market lens
Separate infrastructure signal from investable outcome
Treat market-linked stories as context: identify the mechanism, then wait for evidence before treating it as an outcome.
Impact path
Signal first, outcome later
Signals to watch
- Primary-source guidance and filings
- Price, volume, margin, and renewal evidence
- Follow-up reporting that confirms or rejects the mechanism
Verification schedule
D+1 · Jun 15
Is the mechanism visible in primary data?
D+3 · Jun 17
Do follow-up sources confirm direction and magnitude?
D+7 · Jun 21
Did the initial read overstate the market effect?
Informational context only — not investment, legal, tax, or financial advice.
视觉简报
The model learns from multiple banking data streams, then its representations can be reused for analysis tasks under regulatory constraints.
更正与安全
See a factual, privacy, rights, or safety issue? Review the corrections process or contact Guidances before relying on this article for important decisions.