热天中文网

数据异常(第2页)

天才一秒记住【热天中文网】地址:https://www.rtzw.net

电梯是那种老式的,按键上的数字被磨得模糊不清,运行时发出低沉的嗡嗡声。

她想起以前去松江做首次拜访时,周总的公司也是藏在这样一个不起眼的工业园区里。

真正有价值的东西往往不需要用外观来证明自己——但她现在要看的这个策略,可能在数据源上就已经出了问题。

前台已经下班了,整层楼只剩几间办公室亮着灯。

他刷卡带她进了自己的办公室。

他的办公室不大,但很整洁。

一面墙全是书架,从量化金融到概率论到机器学习,按学科分类排列,书脊上的标题烫金或烫银,在灯光下泛着冷光。

另一面是几块并排的显示器,屏幕上跑着密密麻麻的代码和K线图,其中一台正在滚动输出回测日志,绿色的字符一行接一行地跳动。

桌上摊着好几叠打印稿,旁边放着一杯凉透的咖啡和一个空了的便当盒,便当盒里还剩几粒米饭,筷子横搁在盒沿上。

她注意到便当盒旁边还有一张被折叠的打印纸,展开一看,是他中午从网上打印下来的菜谱——干煸四季豆的做法,步骤旁边用铅笔标注了“油温需控制在高温段”

,后面又划掉了,改成了“先高温爆炒再转中小火”

他大概在跑数据的间隙还在研究周末做什么菜。

他让她坐在自己的椅子上,把主显示器转过来对着她。

屏幕上是一个策略回测的详细报告,横轴是时间序列,纵轴是累计收益率。

两条曲线——一条蓝色,一条红色——在训练集上几乎完美重叠,像两条紧紧缠绕的丝带,但在测试集上出现了明显的偏离:蓝色线从某个时间节点开始急速下滑,和红色线之间拉开了一道越来越宽的鸿沟。

蓝色是策略收益,红色是基准收益。

训练集上的拟合度高达零点九几,测试集上的超额收益几乎全部消失,最大回撤远超止损阈值。

她看着那条陡然下降的蓝线,觉得这个形状很熟悉——不是市场风险造成的回撤,是某种更系统性的偏差。

她说调出训练集和测试集的划分方式。

他切换了窗口,显示数据分割的逻辑:按时间序列前百分之八十作为训练集,后百分之二十作为测试集。

她看了分割点的具体日期——某个月的中旬。

她问划分的时间节点是什么时候。

他说就是这个日期,他当时选择这个日期作为划分节点,是因为刚好能覆盖近三个完整季度的数据作为训练集,最后一个季度作为测试集。

她又问对方是什么时候发来最新一版标注数据的。

他想了想,说也在差不多的时间,和划分节点只差了几天。

她点了点头,让他把对方发来的数据文件和原始数据文件同时打开,放在两个并列的窗口里。

两个窗口并排显示,左边是对方发来的情绪因子数据,右边是原始社交媒体文本数据。

她沉默了几分钟,逐段对比。

她指着测试集里一段平稳上升的曲线,说这段数据在对方发来的标注版本里显示为“中性情绪”

,波动极小;但在原始数据里,同一时间段对应的社交媒体文本情绪其实有明显波动——她翻了几条原始数据里的示例,说你看这条,用词明明是强烈质疑,但对方的分词规则把这种表达归类为“中性讨论”

还有这条,评论区里明显出现了情绪宣泄,但被标注成了“信息分享”

她翻到打印稿附录里对方提供的分词规则,逐条看了一遍,发现在某个版本里对方把某些带有歧义的词组统一标注为“中性”

,而不是保留原始的情绪强度。

这意味着标注过程中存在主观筛选。

而这些被“中性化”

的数据恰好集中在测试集里——不是随机分布的,是集中在测试集里。

她指着屏幕上的时间轴说,你看这些被标注为“中性”

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

覆汉快穿之后女配无解了全家都是穿来的,就我土著萌宝1加1重生之绝世废少诸天武命无妄轮回志漫展之下明末工程师我哥是动物之主[快穿]七零新婚夜,包办婚姻也很甜!西游之西天送葬团我家师父超凶哒穿成年代文男主前妻真实末日游戏大秦:公子丹,镇守边关八年金牌卧底被迫成为大导演益在人间小娇娇靠武力在生存游戏超神了席卷天下倾世女帝:笑拥江山美男我师叔是林正英湘西异闻录草莓印咒术界的泥石流