第71章 礼物 重生2008:从助教逆袭为院士
吴辰打算回头问问閔欣柔愿不愿意读研。
如果她能一直保持这种学习態度,那下学期他可以推荐她一个保研的名称,顺便给她找个好点的导师。
……
处理完杂事后,吴辰便开始了自己的研究。
今天他选择研究的方向是:基於语义密度的自监督文本去噪算法
原因是他现在已经確定可以获取到讯飞、搜狗和天涯社区的文字內容。
但还需要经过处理,才能用作人工智慧训练的语料。
举个例子。
假设他现在拿到了天涯社区里的一篇贴子是《大家畅想一下,二十年后的手机会是什么样子?》,內容是讲网友对未来科技的预测。
帖子的主体及高质量回復,就可以作为训练人工智慧大模型的优质材料。
但除了正常回復外,还会有各种gg、水帖。
比如“沙发”、“顶”、“楼主好人”或者纯表情等等。
这些没有价值的回覆,就称之为噪音,需要清除掉。
正常来说,是需要人类去完成这一步的。
openai就曾被爆料僱佣了肯亚黑奴来帮他们清洗数据,时薪不到2美元。
吴辰也想,但他还没那么多钱,所以就只能用技术来搞定了。
而基於word2vec的无监督文本噪声过滤技术,就是最好的选择。
它可以通过word2vec,先將帖子主体转化为高维语义向量,再把每一条回帖也转化为对应的向量,最后计算两者的余弦相似度,来判断回帖是否与主题相关。
相似度高的內容,在数学空间里就会聚集成一个紧密的球体。
相似度高於设定閾值的,就判定为有效回復,將来作为训练数据的“问题-答案”语料对。
比如当別人问道“王muaa的读者2026年会怎样?”
那么人工智慧会从向量空间中查找相似度最高的內容。
那么结果就是:2026年会发大財。
这就是將文字转换为数学的重大作用之一。
当然,由於2008年的硬体限制,即使吴辰提前完成这项技术,也只能进行初步的筛选,后续还要靠人工来完成最终的结果。
但也已经能省很大一笔钱了。
而且由於他在高校工作,还能很方便的找到廉价又老实的大学生。
不仅帮学校解决了就业实习问题,还能让学生们赚点小钱,也算是功德一件了。
一个小时的深度阅读很快就过去了。
吴辰估算了一下,他需要再看一星期,才能把相关的前期工作准备好。
毕竟这是一件很复杂的技术。
而且最关键的,还是硬体跟不上。
必须要想办法解决硬体瓶颈才行。
但在2008年,英伟达最好的显卡也只是gtx280。
而且cuda才刚出现一年,根本满足不了他的需求。
而且如果从一开始就依赖英伟达,那么后期麻烦只会越来越多。
只能想办法自己造了。
简单规划了一下技术路线后,吴辰便洗洗睡了。
-----------------
第二天,吴辰在结束下午的课程后,接到了许建平的电话。
重生一次,他来校长办公室的次数比上辈子十年都多。
看到他过来,许建平顿时喜笑顏开。
他乐呵呵的对吴辰道:“吴教授,你这次去帝都可是收穫不小啊。”
“也多亏了您的领导。”
吴辰说著不咸不淡奉承话。
许建平笑著摆摆手,然后向他介绍办公室里的一个中年妇女。
“这位是后勤处资產管理科的孙老师,负责落实学校给你房子的事情,小吴你和她对接一下,等会儿就能去看房了。”