数据异常（第2页）

天才一秒记住【热天中文网】地址：https://www.rtzw.net

电梯是那种老式的，按键上的数字被磨得模糊不清，运行时发出低沉的嗡嗡声。

她想起以前去松江做首次拜访时，周总的公司也是藏在这样一个不起眼的工业园区里。

真正有价值的东西往往不需要用外观来证明自己——但她现在要看的这个策略，可能在数据源上就已经出了问题。

前台已经下班了，整层楼只剩几间办公室亮着灯。

他刷卡带她进了自己的办公室。

他的办公室不大，但很整洁。

一面墙全是书架，从量化金融到概率论到机器学习，按学科分类排列，书脊上的标题烫金或烫银，在灯光下泛着冷光。

另一面是几块并排的显示器，屏幕上跑着密密麻麻的代码和K线图，其中一台正在滚动输出回测日志，绿色的字符一行接一行地跳动。

桌上摊着好几叠打印稿，旁边放着一杯凉透的咖啡和一个空了的便当盒，便当盒里还剩几粒米饭，筷子横搁在盒沿上。

她注意到便当盒旁边还有一张被折叠的打印纸，展开一看，是他中午从网上打印下来的菜谱——干煸四季豆的做法，步骤旁边用铅笔标注了“油温需控制在高温段”

，后面又划掉了，改成了“先高温爆炒再转中小火”

。

他大概在跑数据的间隙还在研究周末做什么菜。

他让她坐在自己的椅子上，把主显示器转过来对着她。

屏幕上是一个策略回测的详细报告，横轴是时间序列，纵轴是累计收益率。

两条曲线——一条蓝色，一条红色——在训练集上几乎完美重叠，像两条紧紧缠绕的丝带，但在测试集上出现了明显的偏离：蓝色线从某个时间节点开始急速下滑，和红色线之间拉开了一道越来越宽的鸿沟。

蓝色是策略收益，红色是基准收益。

训练集上的拟合度高达零点九几，测试集上的超额收益几乎全部消失，最大回撤远超止损阈值。

她看着那条陡然下降的蓝线，觉得这个形状很熟悉——不是市场风险造成的回撤，是某种更系统性的偏差。

她说调出训练集和测试集的划分方式。

他切换了窗口，显示数据分割的逻辑：按时间序列前百分之八十作为训练集，后百分之二十作为测试集。

她看了分割点的具体日期——某个月的中旬。

她问划分的时间节点是什么时候。

他说就是这个日期，他当时选择这个日期作为划分节点，是因为刚好能覆盖近三个完整季度的数据作为训练集，最后一个季度作为测试集。

她又问对方是什么时候发来最新一版标注数据的。

他想了想，说也在差不多的时间，和划分节点只差了几天。

她点了点头，让他把对方发来的数据文件和原始数据文件同时打开，放在两个并列的窗口里。

两个窗口并排显示，左边是对方发来的情绪因子数据，右边是原始社交媒体文本数据。

她沉默了几分钟，逐段对比。

她指着测试集里一段平稳上升的曲线，说这段数据在对方发来的标注版本里显示为“中性情绪”

，波动极小；但在原始数据里，同一时间段对应的社交媒体文本情绪其实有明显波动——她翻了几条原始数据里的示例，说你看这条，用词明明是强烈质疑，但对方的分词规则把这种表达归类为“中性讨论”

。

还有这条，评论区里明显出现了情绪宣泄，但被标注成了“信息分享”

。

她翻到打印稿附录里对方提供的分词规则，逐条看了一遍，发现在某个版本里对方把某些带有歧义的词组统一标注为“中性”

，而不是保留原始的情绪强度。

这意味着标注过程中存在主观筛选。

而这些被“中性化”

的数据恰好集中在测试集里——不是随机分布的，是集中在测试集里。

她指着屏幕上的时间轴说，你看这些被标注为“中性”

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！