返回第54章 清华讲台与舆论暗战  重回90年,从中关村开始当大佬首页

关灯 护眼     字体:

上一章 目录 下一页

最新网址:m.92yanqing.net

六月二十日,周三,清华园。

下午三点,主楼报告厅门口排起了长队。两百个座位早已坐满,过道里站满了人,窗外还有人踮脚往里看。横幅掛在讲台后方:“中文信息处理的黄金时代——金牧公开课第一讲”。

林牧站在幕后,透过缝隙看著台下。黑压压的人头,年轻的面孔,眼睛里闪著光。最前排坐著几位老教授,王选院士坐在正中间,正和旁边的系主任低声交谈。

雷军走过来,压低声音:“林总,都准备好了。演示电脑检查了三遍,投影仪调试好了,备用方案也ready了。”

“微软那边有什么动静?”林牧问。

“来了三个人,坐在后排。”雷军说,“戴维·王没来,来的是中国区的技术总监和两个助理。还有……”他顿了顿,“《计算机世界》和《中国青年报》的记者都到了,坐在媒体席。”

“好。”林牧整理了一下西装——叶溪溪特意给他买的,深灰色,合身,“按计划进行。”

三点十分,主持人上台:“各位老师,各位同学,今天我们非常荣幸地邀请到bj金牧软体公司创始人、『青年科技先锋』获得者林牧先生,为我们带来题为《当汉字遇见代码》的公开课。掌声欢迎!”

掌声雷动。

林牧走上讲台,站定,目光扫过全场。

“各位老师,各位同学,下午好。”他开口,声音通过麦克风传遍报告厅,“站在清华的讲台上,我很惶恐。因为台下坐著的,可能是中国未来最好的程式设计师、最好的工程师、最好的科学家。”

台下安静下来。

“但我今天想讲的,不是技术,不是代码,而是一个问题。”林牧切换ppt,幕布上出现一张照片——敦煌莫高窟的藏经洞,成堆的经卷。

“1900年,王道士发现了这个藏经洞。里面封存著从魏晋到宋元的五万多卷文献。但隨后几十年,这些文献流散到世界各地,大英博物馆、法国国家图书馆、日本京都大学……中国人要研究自己的文献,得去外国。”

他切换下一张照片:发黄的古籍,虫蛀的页面。

“这是我们师大图书馆的宋版《史记》。每次翻动,都有纸屑掉落。管理员说,最多还能翻五十次,这本书就碎了。”

再下一张:计算机屏幕,上面是密密麻麻的代码。

“这是我们正在做的古籍数位化引擎。”林牧说,“用计算机视觉识別字形,用自然语言处理断句標点,用排版引擎还原版式。目標是把五千年的文字,完完整整地搬进计算机,让它们永远不腐,永远不碎。”

台下响起窃窃私语。

“我知道有人会问:这有什么用?”林牧顿了顿,“是啊,有什么用?不能吃,不能穿,不能赚钱。微软的office能帮学生写作业,能帮会计做报表,能帮秘书打文件。我们的古籍引擎,能干什么?”

他看向台下:“我只能说,有些事,不是因为它有用才做,而是因为做了,它才有用。”

“一百年前,有人问:保存这些破经书有什么用?今天我们知道,那是中华文明的根。一百年后,可能有人问:把古籍数位化有什么用?我希望到那时,我们的后代可以说:因为数位化了,所以我们还能读到李白杜甫,还能看到《清明上河图》的题跋,还能知道我们的祖先在想什么、写什么、梦什么。”

掌声响起。

林牧等掌声稍歇,进入正题:“好,情怀讲完了,现在讲技术。”

他回到电脑前,打开古籍引擎的演示程序。

“这是我们团队过去三个月的工作成果。”屏幕上出现一个简洁的界面,“左边是扫描的古籍图像,右边是识別结果。目前支持楷书、行书、草书三种字体,识別准確率在95%以上。”

他拖入一张《兰亭序》的扫描件。

点击“识別”。

进度条快速走动。五秒后,右边出现工整的繁体字文本。

“这是基础识別。”林牧说,“接下来是智能断句。”

点击“断句”。

文本自动添加了標点——不是简单的句號逗號,而是根据文言文语法规则添加的。“之乎者也”处理得恰到好处。

“然后是排版还原。”点击第三个按钮。

文本自动排列成竖排,从右到左,字体调整成仿宋体,加了浅朱丝栏线——完全復原了古籍的版式。

台下响起惊嘆声。

“最后,”林牧说,“是翻译適配。”

他选择“现代汉语適配”,点击。

竖排繁体文言文,瞬间变成横排简体白话文,但保留了原文的韵律和意境。

“这……”一位老教授站起来,“这是怎么做到的?”

“用了一个我们自研的模型。”林牧调出技术架构图,“核心是基於注意力机制的序列到序列模型,训练数据是五千多份古籍和对应的现代汉语译本。模型学会了文言文到白话文的映射规则,不是逐字翻译,而是整体理解后的转译。”

他顿了顿:“这个模型,我们今天开源。”

全场譁然。

“所有代码、所有数据、所有模型参数,全部公开。”林牧调出金码社区的连结,“任何高校、任何研究机构、任何个人,都可以免费使用、修改、再发布。只有一个要求:如果你基於这个模型做出了新成果,请也开源。”

后排微软的人脸色变了。

“我知道有人会担心:开源了,別人抄袭怎么办?”林牧看向后排,“但我想说:如果中国的古籍数位化,因为害怕抄袭而裹足不前,那才是最大的悲哀。”

他提高声音:“我们不怕抄袭,只怕没人做。如果全中国的研究者都用我们的引擎,都来改进它,那三年后,中国將是世界古籍数位化的中心。这个中心,不在微软,不在谷歌,在清华,在北师大,在每一个热爱中国文化的人手里。”

掌声如雷。

王选院士站起来鼓掌,旁边的系主任也跟著站起来。很快,全场起立。

后排微软的三个人,在掌声中悄悄离场。

公开课持续了两个小时。林牧讲了技术细节,讲了开源理念,讲了金牧的“种子计划”。提问环节,学生们的问题一个接一个:

“林总,我是中文系的,不懂编程,能参与吗?”

“能。我们需要文言文专家,需要校勘专家,需要版本学专家。技术只是工具,核心是文化。”

“开源项目怎么盈利?”

“短期不盈利。但当我们成为標准,当我们建立了生態,盈利会自然到来。就像linux,就像apache。”

“微软会继续打压你们吗?”

“会。但打压越狠,说明我们越对。”

最后一个问题来自一个戴眼镜的男生:“林总,我是计算机系大三的。我想毕业后去金牧工作,你们还要人吗?”

林牧笑了:“要。但我们没钱,工资不高,加班很多,还可能隨时倒闭。要来吗?”

“来!”男生大声说,“钱不重要,重要的是做的事!”

全场大笑。

公开课在五点半结束。林牧被学生们团团围住,要签名,要合影,要联繫方式。

等脱身时,天已经黑了。

王选院士在门口等他。

“小王,”院士拍拍他肩膀,“今天讲得很好。但我要提醒你,微软的反扑,会比你想的更狠。”

“我明白。”林牧说。

“古籍数位化是个好招牌,但也容易被人攻击。”王选说,“我已经听到风声,有人准备写文章,说你们『浪费国家资源做无用功』,说『古籍就该保持原样,数位化是对文物的褻瀆』。”

林牧皱眉:“这……也太牵强了。”

“但能煽动情绪。”王选说,“舆论战,从来不讲道理,只讲情绪。你得有准备。”

“谢谢院士提醒。”

回到公司,已经是晚上八点。

本章未完,点击下一页继续阅读。(1 / 2)

『加入书签,方便阅读』

上一章 目录 下一页