天才一秒记住【热天中文网】地址:https://www.rtzw.net
周五下午,林见微在工位上接到了凌霄远的电话。
他的声音比平时低,语速也比平时快——不是紧张的那种快,是那种在长时间集中注意力之后、突然意识到需要和外界同步信息时才会出现的不连贯的急切。
他说他那个情绪因子的回测结果出来了,但有一组数据不太对。
训练集上的拟合度高达零点九几,夏普比率漂亮得像教科书里的范例,但一切换到测试集就全面溃败——超额收益几乎全部消失,最大回撤远超策略设计的止损阈值。
他反复检查了回测框架的参数设定,没有发现问题。
他怀疑是数据本身有瑕疵,想请她帮忙看看。
她说好,把工业自动化项目的尽调报告合上。
这份报告是何知予昨天发来的第四版修订稿,每一页都有他越来越自信的批注痕迹——第一版时他还在页边写“此处不确定,需请教林总”
,第四版已经变成了“此处存在三种可能的偏差,分别对应以下验证方案”
。
她把报告放进抽屉里锁好,问他什么时候。
他说越快越好。
她看了一眼时间——下午快五点了。
她说她坐地铁过来,大概半小时。
他说他到地铁站接她。
她挂了电话,把笔记本和笔装进帆布袋,又往里面塞了一包苏打饼干和一盒牛奶——她不知道今晚会待到几点,但从他的语气判断,这个问题不像是能在晚饭前解决的。
她站起来穿外套时,何知予从打印区探出头,手里拿着刚打印出来的蔡总私募债结算结构定稿版,问她是不是要出去。
她说对,去凌霄远那边,他的模型出了点问题。
何知予说需要帮忙吗。
她说不用,是数据源的问题,她自己能处理。
何知予点了点头,又说蔡总私募债的结算结构已经定稿了,周一上投委会之前他再检查一遍优先清算权的触发条件是否涵盖了所有特殊情景。
她说好。
然后她想了想,又说你最近越来越像我了——不是像我做事的方式,是像我检查别人做事的方式。
何知予愣了一下,说那是因为你教得好。
她说我没教你,是你自己学的。
她说这话时嘴角有一点弧度,但很快收住了。
地铁上人不少。
她靠在车厢角落的扶手旁边,帆布袋放在膝盖上。
窗外隧道里的灯光飞快地闪过,她在脑子里把凌霄远那个情绪因子策略的基本框架过了一遍——多因子模型,引入社交媒体情绪数据作为alpha因子,训练集和测试集按时序划分,回测周期覆盖近三年。
这些基本信息是他们之前在家里的餐桌上讨论过的,当时凌霄远说这个策略的核心难点在于情绪信号的噪声过滤,中文文本的分词和语境识别是最大的瓶颈。
她当时建议他参考某几篇关于中文社交媒体情绪分析的文献,他说已经看过了,正在尝试用不同的标注方法做对比实验。
现在这个策略在训练集上表现极好,测试集却崩了——这种模式她太熟悉了。
不是策略本身的问题,是数据的问题。
过拟合通常不会表现得这么极端,只有数据泄露或标注偏差才会导致训练集和测试集之间的鸿沟如此巨大。
她到站时,凌霄远已经在闸机外面等了。
他今天没有穿衬衫,只穿了一件深灰色的T恤,袖口没有挽起,头发有点乱,大概是跑数据时用手抓的。
她很少看到他穿T恤的样子,上一次还是周末在家带嘉木时——那天他穿着这件T恤给女儿做睡眠训练,嘉木趴在他胸口睡着了,他一动不敢动,在沙发上坐了一整个下午。
他看到她出来,接过她手里的帆布袋,说辛苦你了。
她说还没开始辛苦,先看看数据再说。
他的基金办公室在浦东一栋不起眼的写字楼里,和陆家嘴那些玻璃幕墙闪闪发光的大厦不同,这栋楼低调得像一个不想被人注意的尽调标的,门口连公司logo都没有,只有保安亭的访客登记表上写着楼层和公司名。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!