下一章 目录 设置
1、第 1 章 ...
-
早上七点半,国贸三期电梯厅已经排起了长队。
刘余站在队伍末尾,手里捏着略显单薄的简历夹,目光扫过前面清一色的深色西装套裙。空气里弥漫着咖啡、香水以及一种无声的紧绷感。今天,启明资本校招终面——竞争最激烈的“数据与量化策略”分析师岗位。
“叮——”
高管专属电梯抵达的清脆声响,在略显嘈杂的大厅里并不突出。一个穿着浅灰色羊绒西装的男人走出来,身量很高,步履极快,助理抱着平板和文件紧随其后,低声汇报着什么。
男人微微侧耳听着,目光习惯性地扫过候场区域。此人是朱景行。启明资本的合伙人之一,主管前沿科技与量化投资。今天这场校招最终录取名单需要他过目签字,但他本人并不出现在面试室——那是人力资源部和量化部总监的工作。
他的视线没有停留,正准备穿过大堂。
“抱歉,请让一下!”
一个身影从侧面快步过来,恰好挡了他半步的路。是个穿着合身但不甚昂贵的灰色西装套裙的扎着马尾的女生,她个子不高,手里抱着一台看起来沉甸甸、贴满磨损痕迹的Alienware老款游戏本——这种电脑通常因为显卡和散热优势,被一些预算有限的量化学生用来跑本地模型。她胳膊下还夹着一摞用透明文件夹仔细装订好的资料。
朱景行脚步未停,侧身让过。女生匆匆点头致意,目光甚至没在他脸上聚焦,就快步走向面试等候区靠边的位置。她似乎没找到空着的座位,干脆利落地将电脑包放在窗台边,半蹲下来,开机,屏幕上立刻跳出一个黑底彩字的终端界面和几个复杂的曲线图窗口。
朱景行本已要走开。
“同学,你这个因子合成方法是不是有点问题?”旁边另一个等待的男生探头过来,指着她屏幕上一串正在滚动的Python代码和随之生成的夏普比率曲线,“用PCA降维处理三百个alpha因子,信息损耗会不会太大了?我们教授说高频领域最好用Autoencoder。”
女生没抬头,手指在触摸板上快速滚动代码,语调平稳:“PCA线性,确实有损耗。但我测试过,对于这份历史数据,前十个主成分就能解释92%的方差,且正交化后因子间相关性低于0.05,性价比更高。Autoencoder的非线性优势在这组特定数据的回溯测试中,带来的过拟合风险提升超过了信息增益。”她顿了顿,补充道,“我用五折交叉验证对比过,这是结果图。”
男生愣了一下,显然没料到对方连交叉验证的结果都准备好了:“你现场重跑了验证?这数据量不小吧?”
“昨晚用云实例跑了一部分,本地缓存了关键结果,”女生终于抬眼,笑了笑,那笑容很短暂,带着一种技术讨论时的纯粹,“主要是担心今天可能被问到过拟合问题,得准备好交叉验证的图表。”
就在这时,旁边传来“哗啦”一声轻响和一声低呼。一个女生不小心碰倒了窗台上的半瓶矿泉水,水正朝着那台老旧的Alienware和旁边摊开的论文打印稿漫过去。
蹲在地上的刘余反应极快。她几乎在水流过来的瞬间,一手抄起电脑,另一手迅速将摊开的几页关键代码输出和图表抽走。几滴溅到边缘的水渍,她立刻用袖子按住吸干,动作精准,没有一丝慌乱。反而是那个碰倒水的女生连连道歉。
“没事,”刘余说,语气依然平稳,“关键数据有云端备份,本地只是缓存。你小心别滑倒。”
她把救下来的资料在窗台干燥处重新理好,顺序丝毫不乱。然后从包里掏出一小包纸巾,仔细擦干窗台的水迹。做完这一切,她才低头快速检查了一下电脑接口和键盘,确保没有进水。屏幕上的终端界面依旧在稳定地输出着实时数据流。
她轻轻松了口气,是问题解决后的踏实,而非抱怨。
整个过程不到一分钟。
朱景行站在几米外,脚步不知何时已经停下。助理有些疑惑地看着他。
他脸上没什么表情,只是目光在那个窗台边蹲着、重新将注意力投回代码滚动的灰色身影上停留了稍长的一瞬。那台笨重的游戏本,那快速稳定的终端操作,以及刚才那段关于因子合成方法性价比的简洁论述,勾勒出一个典型的技术实干型学生的画像——资源有限,但懂得在约束条件下寻找最优解。
“那个女生,”他开口,声音不高,“资料上贴的标签是几号?”
助理立刻低头在平板上滑动,快速对照:“窗台边,灰色西装,Alienware旧电脑……应该是上午场,07号候选人,刘余。应聘数据与量化策略部初级分析师。”
朱景行不再说话,转身走向专用通道。电梯门合上前,他最后听到的,是那个07号女生正用很小的声音,对旁边那个之前提问的男生说:“你刚才提到的Autoencoder,我其实在另一个项目里试过,如果你需要那部分的代码框架和对比结果,我可以分享GitHub链接。”
……
面试室里,压力如同精密的数据管道,严密而高效。
五位面试官轮番提问,从随机森林与梯度提升树在时序预测中的过拟合差异,到如何利用自然语言处理从财报电话会议录音中提取情绪因子,再到处理多模态复杂数据(如卫星图像、社交媒体)时面临的非结构化数据清洗和噪声滤除问题。
刘余坐在中间,背挺得很直。当被问及“如何处理高频交易数据中的微观结构噪声”时,她没有直接引用教科书,而是调出电脑里的一个简化的代码示例。
“通常会用卡尔曼滤波或小波变换,”她一边说一边快速展示了几行关键代码和效果对比图,“但我发现对于我们要模拟的特定流动性环境,一个结合了Hodrick-Prescott滤波和自适应阈值的简单方法,在保证延迟可控的前提下,信噪比提升更显著。这是在不同市场状态下的回测结果对比。”
她展示的图表清晰,代码注释详细,甚至标注了可能存在的局限性。讲解时,她眼中是一种沉入算法逻辑本身的专注,用语简练精确,像在调试一段代码。
面试结束前,量化部负责人,一位头发微卷、眼神锐利的中年男性,问了个问题:“如果你的多因子模型在样本外测试中突然持续失效,你的前三个排查步骤是什么?”
刘余思考了几秒,语速平缓:“第一,检查数据管道和预处理代码是否有变更或错误,这是最常见原因。第二,分析失效是否集中在特定市场或行业,判断是否是因子本身的经济逻辑基础发生结构性断裂。第三,查看同期其他相关因子的表现,进行归因分析,区分是单一因子问题还是整体模型环境问题。我会按这个顺序,因为排查成本递增。”
面试官们交换了一下眼神。负责人最后说:“可以了。结果会在三个工作日内通知。”
刘余起身,礼貌致意,离开。
她没有看到,面试室隔壁的观察室里,单向玻璃后,朱景行端着一杯黑咖啡,静静地看完了她后半程的面试。他面前摊开着几份简历,其中一份,贴着07号标签。
简历平平:学校非顶尖C9, 中上游985,实习经历在一家中型量化基金,以及本地一家人工智能初创公司。
但旁边附着的,是她提交的代码仓库链接的审阅摘要,以及刚刚同步过来的面试记录。记录最后,量化部负责人手写了一句备注:“扎实,逻辑洁癖,实用主义者。缺点:缺乏‘包装’,技术栈偏传统务实,缺乏对最新复杂模型(如深度强化学习)的展示。”
朱景行的目光掠过“技术栈偏传统务实”几个字,落在她提交的一个小项目描述上。那是一个利用相对简单的聚类算法,从混乱的航运AIS数据中有效识别出大宗商品运输模式变化的小工具。代码高效,文档清晰,解决了实际的数据获取痛点。
他放下咖啡杯,对身边的助理说:“把07号,刘余,放进待定名单。”
助理这次谨慎地确认:“老板,她的技术展示确实实在,但终面里至少有三位候选人有顶级对冲基金实习经历,或者发表过相关论文。待定名单通常……”
“我知道待定名单是什么,也知道今天有哪些候选人。”朱景行语气平淡无波,“按我说的做。”
他站起身,最后看了一眼窗外。楼下,那个背着沉重电脑包的灰色身影,正快步走向地铁口,很快被早高峰的人流吞没。
在量化投资这个领域,很多人热衷于谈论最前沿的模型,仿佛那才是通往阿尔法的圣杯。但朱景行深知,能冷静地在过拟合风险与信息增益间做权衡,懂得数据管道可靠性优先于模型复杂度,并且能用简洁方案解决实际脏数据问题的人,往往才是策略在实盘中真正活下去的基础。
简历或许会蒙尘,但代码和逻辑不会撒谎。
而有些人,就像一段看似朴实无华却异常健壮的核心算法,需要放入真实市场数据的洪流中,才能看到她如何稳定运行,并悄然进化。