天才一秒记住【热天中文网】地址:https://www.rtzw.net
电梯是那种老式的,按键上的数字被磨得模糊不清,运行时发出低沉的嗡嗡声。
她想起以前去松江做首次拜访时,周总的公司也是藏在这样一个不起眼的工业园区里。
真正有价值的东西往往不需要用外观来证明自己——但她现在要看的这个策略,可能在数据源上就已经出了问题。
前台已经下班了,整层楼只剩几间办公室亮着灯。
他刷卡带她进了自己的办公室。
他的办公室不大,但很整洁。
一面墙全是书架,从量化金融到概率论到机器学习,按学科分类排列,书脊上的标题烫金或烫银,在灯光下泛着冷光。
另一面是几块并排的显示器,屏幕上跑着密密麻麻的代码和K线图,其中一台正在滚动输出回测日志,绿色的字符一行接一行地跳动。
桌上摊着好几叠打印稿,旁边放着一杯凉透的咖啡和一个空了的便当盒,便当盒里还剩几粒米饭,筷子横搁在盒沿上。
她注意到便当盒旁边还有一张被折叠的打印纸,展开一看,是他中午从网上打印下来的菜谱——干煸四季豆的做法,步骤旁边用铅笔标注了“油温需控制在高温段”
,后面又划掉了,改成了“先高温爆炒再转中小火”
。
他大概在跑数据的间隙还在研究周末做什么菜。
他让她坐在自己的椅子上,把主显示器转过来对着她。
屏幕上是一个策略回测的详细报告,横轴是时间序列,纵轴是累计收益率。
两条曲线——一条蓝色,一条红色——在训练集上几乎完美重叠,像两条紧紧缠绕的丝带,但在测试集上出现了明显的偏离:蓝色线从某个时间节点开始急速下滑,和红色线之间拉开了一道越来越宽的鸿沟。
蓝色是策略收益,红色是基准收益。
训练集上的拟合度高达零点九几,测试集上的超额收益几乎全部消失,最大回撤远超止损阈值。
她看着那条陡然下降的蓝线,觉得这个形状很熟悉——不是市场风险造成的回撤,是某种更系统性的偏差。
她说调出训练集和测试集的划分方式。
他切换了窗口,显示数据分割的逻辑:按时间序列前百分之八十作为训练集,后百分之二十作为测试集。
她看了分割点的具体日期——某个月的中旬。
她问划分的时间节点是什么时候。
他说就是这个日期,他当时选择这个日期作为划分节点,是因为刚好能覆盖近三个完整季度的数据作为训练集,最后一个季度作为测试集。
她又问对方是什么时候发来最新一版标注数据的。
他想了想,说也在差不多的时间,和划分节点只差了几天。
她点了点头,让他把对方发来的数据文件和原始数据文件同时打开,放在两个并列的窗口里。
两个窗口并排显示,左边是对方发来的情绪因子数据,右边是原始社交媒体文本数据。
她沉默了几分钟,逐段对比。
她指着测试集里一段平稳上升的曲线,说这段数据在对方发来的标注版本里显示为“中性情绪”
,波动极小;但在原始数据里,同一时间段对应的社交媒体文本情绪其实有明显波动——她翻了几条原始数据里的示例,说你看这条,用词明明是强烈质疑,但对方的分词规则把这种表达归类为“中性讨论”
。
还有这条,评论区里明显出现了情绪宣泄,但被标注成了“信息分享”
。
她翻到打印稿附录里对方提供的分词规则,逐条看了一遍,发现在某个版本里对方把某些带有歧义的词组统一标注为“中性”
,而不是保留原始的情绪强度。
这意味着标注过程中存在主观筛选。
而这些被“中性化”
的数据恰好集中在测试集里——不是随机分布的,是集中在测试集里。
她指着屏幕上的时间轴说,你看这些被标注为“中性”
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!