在毛熊倒下之后,雄鹰部落迅速腐化,阶层固化,各个大商人为了自己的利益固步自封。
这就导致许多关键性的技术被掌握在某个公司手中,绝对不会随意交给外人。
各个行业壁垒的限制之下,这就使得西方的人工智慧技术在发展到某一阶段之后会迅速陷入瓶颈。
或许会有那幺一个出色商人能够以交换利益的方式推动这一进程,即便这样,也会拖慢西方的人工智慧技术。
后世西方的人工智慧技术看上去如此先进,其实只不过是占据了先发优势而已。
他们研究的更早,硬体条件更加优秀,自然会领先不少。
而让苏定平如此有信心的不是以上所述的那些细枝末节。
归根结底,这些虽然可能会给人工智慧的研发带来一些影响,但都是可以被克服的。
而汉语和英语之间根本性的差距,可没办法以人力来抹平!
因为汉字作为表意文字,其信息密度远高于表音文字。
只需要三千五百个常用汉字,即可覆盖中文日常使用的99%以上!
而英语词汇总数超过一百万,且随着时间的流逝还在持续不断的增长。
各行各业都有他们自己的专有词汇,隔行如隔山,哪怕是一个顶尖的教授,在不藉助词典的情况下,也很难看懂跨专业的文献。
为什幺后世那幺多人会赞成某金毛大酋长提高关税?因为他们其中绝大部分人根本不知道关税是什幺!
因为在英语当中,关税和税收是两个完全没有任何关系的不同单词!
在大部分雄鹰部落的人的理解当中,金毛大酋长只是使用了一个名叫「关税」的超级武器,给自己的国家带来了丰厚的回报。
以至于国家甚至有钱给每个公民发钱!
至于关税带来的物价上涨,生活困难……他们永远也不会知道这些问题的根源在哪里。
中文不一样,哪怕只有高中水平的知识,也可通读大部分专业论文。
这便是二者之间根本性的差异!
而这也就意味着,AI模型在处理中文时,参数量和计算量更少,训练和推理过程更高效!
这可不是苏定平胡说,而是有具体的现实例子作为参考。
后世的中文模型仅需西方资金的百分之一,就能实现高水准输出。
即便是考虑到汇率差和人工成本,这个数据也足够夸张。
这变是得益于汉字组合新词时,根本无需创造全新词汇,只需要通过有限字根灵活衍生,便可减少模型的学习负担。
除此之外汉字本身是「形、声、义」三维一体的符号,每个字均可视为一个知识节点,天然就支持语义网络构建。
上个世纪有个科学家提出了著名的信息熵理论,简单来说,就是一个最基础的字节所能够承载的信息量。
而中文最基础的汉字所能携带的信息量是其他表音文字的两倍以上!
除此之外,中文的词根化特征会让模型更容易识别模式和生成文本。
最简单的一个例子,星期一,星期二,只需要知道这个是指代日期的词汇,就很容易明白后续的词汇到底是什幺意思,甚至推断出来了往后该怎幺描述而英文当中,每周的每个日期都是完全不同的词汇,这就给ai的训练带来了极大的难度。
至于所谓的英文的描述更加精准这种话,说出来更是搞笑所谓的更加精准,只不过是用全新的词汇去命名每一个全新的事物。
但问题是,字母就这幺多,新事物却是越来越多,这就最终导致的结果就是越来越繁杂的词典和更高的学习难度。