“哎呀,这么晚了啊!抱歉抱歉,学长,我身边没什么人跟我一起聊悬疑小说,今天遇到同好了就忍不住聊太多了。耽误你看球了,真的很抱歉。”
“没事啊,录像什么时候都能看,同好难求,我聊的也很开心,反倒要谢谢你。”
“哈哈哈[握手]。那今天就聊到这吧,也不早了,不打扰学长啦。”
“没打扰,没打扰。那晚安。”
“晚安[月亮]”
凌志放下手机,心满意足。不过旋即想起来对峰哥有点愧疚,于是登录电脑微信,把陈峰发给他的数据下载下来,看看有多少量。
这时候,陈峰和高峰刚好联袂回到宿舍。
“凌子,我给你发的数据看到了没?你觉得好不好筛?”
所谓筛数据,实际上就是将特征不明显的图片删掉。比如某些眼球的病变区域小点密布,那就是明显特征。有些似有非有,就不是明显特征,不利于模型的训练过程,需要删掉。
“额,我还在看。对了,你一下发给我2000张图,这也太难顶了吧。”
凌志试图转移话题,不让陈峰发现自己其实还没筛。事实上凌志知道陈峰已经很辛苦了,他手上有上万张图片,而只给了自己2000张,他自己的工作量才是最重的。
陈峰也没有察觉到什么,自顾自地回答说:
“哦哦,没事没事儿,你慢慢筛,不急。筛多少算多少,到时候把筛过的给我就行。”
“那行,我知道了。”
凌志松了口气,不过也暗自下定决心一定帮陈峰筛完。
在见识过陈峰处理数据集之前,凌志一直都觉得这是个费力不讨好的活儿,应该很消耗精力。而事实上,在某一次喊他一起吃饭时。
“我去,你这删数据删得这么麻溜的嘛。”
只见陈峰用鼠标连续选中了一行图片,没有丝毫犹豫地删除了。
“这太明显了啊,我看了这么多图,感觉视野不是很清晰的一律干掉,省得折磨自己。”
倒也不是说他这么干不好,但凌志知道如果是自己的话,肯定会一张图一张图地挨个看过去。某些图不确定要不要删,可能还要来回看好多遍才能下决定。不过话虽这么说,数据基数的庞大决定了即便是他这么去干,也不免要消耗大量的时间和精力。但即便如此,凌志并不打算改变自己筛数据的风格。
凌志先去洗了个澡,洗完之后才发现林奇松也回来了,四人一天的科研生活都暂时告一段落。
“高峰,你上次陪老吴给本科生上课上得怎么样啊,后来也没听你说过。”
林奇松问道。
“哦哦,那个啊,别提了,上课那天简直是车祸现场你知道么。”
高峰站了起来,对着林奇松说道。我跟陈峰也挺感兴趣,坐在自己的座位上侧耳倾听着。
“那天上课他自己都没准备好,对着ppt说的话我都听不大懂,有时候都不知道说啥。本科生预计来听他讲课的不少,大多都是想保研的学生。结果那天也不知道为啥有一小半没来,中间还走了两个,当时看得我直想笑。”
“哇!那老吴岂不是全程很尴尬?”
“那倒没有,他讲他的,底下学生听不听他也不管。”
“唉,你说我俩当时为啥就选了他当导师?”
“我也不知道啊,谁叫某人当时跟我极力宣传老吴的丰功伟绩的。”
“我当时也不知道啊,也没问往届的学长姐,看他官网介绍还行,就推荐给你了。”
“唉,我们也只能认命了,本科生不像我们,我们换导师成本很大,本科生就很随意,说不来就不来了。”
凌志也有同感,导师选没选对,对于自己的研究生生涯至关重要。而对于自己的导师王海波,凌志还是很满意的。老王并不是网上一些选导师帖子里提到的那种“放羊”导师,所谓“放羊”就是指不管学生,让其自生自灭,这样的导师显然是不负责的。而如果硬是给老王管理学生的模式定个性的话,凌志觉得“半放养”是比较合适的。老王对于你自身的研究想法,实验细节不会过多干涉,但他会从大的方面把握你研究思路的准确性,以及研究进度的快慢,显然是一位负责任的导师。总结来说就是平时不咋管你,但你自己要让他对你研究啥心里有数。
凌志觉得自己显然是幸运的,在过去一年的相处中,凌志觉得王导和蔼可亲,虽然免不了有时候会有长辈的架子,但大多数时候还是平易近人的。想想网上流传的那些硕博们被某些严苛的、不负责任的导师逼上毕不了业的绝路,有些甚至会轻生,凌志觉得自己很幸运,尽管当初自己选王导的时候也是两眼一抹黑。
“所以你看么,跟老吴坐在一间小小的实验室压力有多大。特别是坐在他旁边的杜曜,整天愁眉苦脸。”
高峰说道。
林奇松无奈摇了摇头,转过头打开电脑,开始看自己的纪录片。
一夜无话。
第二天一早,是凌志他们实验室每周一度的组会。
凌志早早来到实验室,把旁边会议室的投影仪布置好,然后把自己做的ppt拷进去,今天他要分享论文。
不一会儿,师门同学们陆陆续续都来到了实验室,紧接着,导师王海波也到了。
凌志的导师王海波40出头,今年刚刚评上了教授,正是志得意满的时候。听说家里的小儿子也刚刚出生,正是双喜临门之时。虽然在计算机领域深耕多年,但并没有拼过头,头顶的平头发型还是郁郁葱葱。行走在路上时总是脚步带风,看见谁都一副笑眯眯的样子。就是年纪逐渐上来了,颈椎经常性地不舒服,凌志想什么时候有机会在教师节送王导一个按摩仪试试看,也算报答王导的教育之恩。
“今天有没有人分享的?”
凌志没有犹豫,说道:
“老师,我来吧。”
凌志打开自己的ppt,毫不怯场地讲道:
“今天给大家分享一下我最近阶段性的实验结果以及论文。”
……
“这是我的数据预处理过程,我大致分为了5个步骤,……”
“这是我对句子对匹配的实验结果,两个句子属于同一人所发布即为正样本,不是同一人即为负样本。……”
“你先等下,你分类所用的特征都有哪些?”
老王问道。
“哦哦,我一会儿会详细说,我现在仅仅是先把结果抛出来。……”
“这个正样本和负样本的叫法合不合理嘞?这个实验结果你们觉得怎么样?”
老王跟大家讨论了一阵,然后让凌志继续。
“我使用的特征是一个14个维度的向量,包括人工提取的特征和神经网络提取的特征。……”
凌志讲ppt沿用了老王以前对学生们的教导——多用图表,少用文字,凌志深以为然。事实上ppt本来就是用来突出重点的,如果往上面堆砌太多文字的话,讲者容易对着ppt念,听者也会觉得乏味,不会自己思考。而用图片和少量文字突出重点,就比较容易让听众们接受。
正如接下来凌志分享的论文,用一张图说明了一句话中每个词之间的远近关系。
“比如现在有两句话,‘他对媒体发表言论’以及‘他出席了新闻发布会’。虽然这两句话意思很接近,但我们如何用程序来进行打分判断呢?我们应当将第一句话中的‘他’所对应的词向量跟第二句话中的每个词进行对比,找出意义最接近的那个。后面以此类推,‘媒体’对应‘新闻发布会’,‘发表’对应‘出席’。就这样通过词向量之间相似度的计算,进而合并为两个句子之间的相似度。”
凌志展示出两个句子之间的相似度:0
该站采集不完全,请到原文地址:(https://www.1024txt.com/book/8457/2626479.html)阅读,如您已在燃文小说(https://www.1024txt.com),请关闭浏览器广告拦截插件,即可显示全部章节内容!该站采集不完全,请到原文地址:(https://www.1024txt.com/book/8457/2626479.html)阅读,如您已在燃文小说(https://www.1024txt.com),请关闭浏览器广告拦截插件,即可显示全部章节内容!