科技入侵现代第148章你们能比我更懂机器翻译（5k）-鸦的碎碎念小说-全文免费阅读-速读谷

以前面提到的约翰·麦卡锡为例，他就精通俄语，从小接受俄语教育长大，尽管他出生在阿美莉卡。

「另外翻译过程，应该是模块化设计，而不是简单的映射关系。

它应该分成预处理、翻译、后处理三部分。

预处理包括了分词和词形还原，翻译才是词典的映射，后处理是对语序进行调整。

这样来降低单次计算的复杂度，提高规则的复用率！」

林燃的话给了在座研究团队的成员们非常多的灵感。

就好像之前一直陷在百越的丛林里找不到出路，而现在天上出现一道光指引他们怎幺样才能走出丛林迷宫。

大家都有点迫不及待去尝试了。

所有研究人员都疯狂在笔记本上记录下林燃所说的。

虽然不确定教授的方法是否管用，但有路总比之前没有好。

再者，如果你不好好记下来，到时候被开除只是教授一句话的事。

「好了刚才我们讲了一些简单的内容，现在才是最难的。

因为IBM的机器不是那幺强大，我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。

我把它叫做基于频率的词对齐。

这也是我们引入统计模型的核。

我们先要手动分析平行句子，标注俄语词或短语与英语翻译的对应关系。

俄语句子Мыговоримомире

英语翻译：「We speak about peace

对齐结果：「мы」对应「we」

「говорим」对应「speak」

「о」对应「about」

「мире」对应「peace」

然后我们需要对这种对齐的频率进行统计。

统计每个俄语词或短语在英语中的对应翻译出现的频率。

例如，在语料中，「говорим」在80%的句子中翻译为「speak」，20%翻译为「talk」。

这样对于我们就可以构建概率表了。

将这些概率整理成表格，供机器进行查询。由于内存空间有限，我们暂时只存储高频词对，像出现次数前1000的词对，忽略低频情况。

当翻译某个词的时候出现多个选择，就参考概率表选择最可能的翻译。

另外就是统计相邻词的共现频率。мы经常与говорим一起出现，对应We speak，机器在翻译的时候则优先选择这个组合。

通过规则优先处理和统计方法处理模糊情况的方式，来弥补规则的不足！」

林燃从统计学的角度给他们好好上了一课。

不过这只是一个开始。

在座的研究团队们知道了林燃优化策略的轮廓，具体实践过程中还有大量的细节要进行调整、尝试和优化。

不过光是现在所说的引进概率，这一点，在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。

前面讲的优化算法和规则设计什幺的，他们感觉有道理，但判断不了具体实践是不是真的管用。

但这统计学方法的引入，光靠想像就知道，能够显着提升乔治敦翻译机器的效果。

当天的工作结束后，红石基地周边的小餐馆里，加尔文和多斯特尔特坐在角落，面前是两杯当地特色的啤酒。

加尔文放下笔记本，叹了口气说：「利昂，我们真的是蠢货吗？」

今天听完之后，加尔文都要怀疑人生了。

林燃提出了一整套的解决方案，这套解决方案里完整也就算了，其中很多点他们都想到过，但想不到要如何实现，另外就是一些他们连想都没有想到的点。

一整个团队差不多快十年的研发思路，不如林燃一下午的干货多。

加尔文已经怀疑人生了。

「教授的想法不是超前，而是太实际了。

科技入侵现代 > 第148章你们能比我更懂机器翻译（5k）