为什么说汉字会为中国AI插上腾飞的翅膀?

我读研究生的时候,有一门课就是《神经元网络》,只是那时候还是本世纪初,AI还没有火起来,这门课同学们也不重视,我也学得不咋好,但是讲课的教授有一句话我记得非常清楚,他说,中国人应该在AI上贡献更大,因为中文的语义交织,不是一位数据,而英语之类其他语言其实就是一维的语义

这当然是教授提升我们自信的一种话术,但是我的自信也真的被提升了。

但是,现在随着我对AI的研究越来越深,我发现——这真的只是提升自信的一种话术/狗头

中文也好,汉字也好,也许从语言学上真的存在多维的信息,但是,对于目前AI主流的大语言模型(LLM),产出依然是一维的token序列

记住这一点,这很重要!

无论中文,还是英文,或者其他任何语言,对AI来说就是一个token接一个token线性地输出一维序列。

举个例子——

当前文字序列是Once upon,那么LLM可以产出下一个token是a,得到Once upon a。

现在文字序列是Once upon a了,那么LLM又根据这个上下文产出下一个token是time,得到Once upon a time。

现在文字序列是Once upon a time了,那么LLM又根据这个上下文产出下一个token是there,得到Once upon a time there。

一次类推,最后能够也许编出一个故事:Once upon a time, there is a monk ……

你换成中文,也一样——

当前文字序列是『曾几』,那么LLM可以产出下一个token是『何』,得到『曾几何』。

现在文字序列是『曾几何』了,那么LLM又根据这个上下文产出下一个token是『时』,得到『曾几何时』。

现在文字序列是『曾几何时』了,那么LLM又根据这个上下文产出下一个token是『有』,得到『曾几何时有』。

依次类推,最后也编出一个故事:曾几何时,有一个和尚……

当你明白无论什么语言,LLM都只是根据当前token序列预测下一个token序列,就明白用什么语言没什么大差别。

可能你会觉得中文信息量更浓缩,比英文单词信息量更大。

如果只按字符来算,中文的确信息浓度更大,『我爱你』三个字符,英文需要『I love you』八个字母表示,这还单词之间两个空格字符。

但是,LLM看到的不是字符,而是token。

我们来看看token是怎样,可以利用 https://tiktokenizer.vercel.app/ 来解析字符串为token。

I love China and its culture,被解析成6个token。

我爱中国和她的文化,还需要10个token呢,就是你多大区别。

总之,没有任何证据表示汉字就更适合AI,也许像我当年的教授说的,中文汉字存在多维度语义联系,可以让我们中国人考虑问题更全面,但是,汉字本身,对于就是产生token序列的LLM而言,和英文没有什么本质区别

所以,不要说什么『汉字会为中国AI插上腾飞的翅膀』。

但是,我们这些说中文的中国人有五千年文化的积淀,经过了百年耻辱的洗礼,走过了几十年的民族崛起,尤其是这几年报复出来的民族自信、制度自信、能力自信,都能让中国AI(或者任何一个其他领域)插上腾飞的翅膀。

评论

《“为什么说汉字会为中国AI插上腾飞的翅膀?”》 有 1 条评论

  1. 一位 WordPress 评论者 的头像

    您好,这是一条评论。若需要审核、编辑或删除评论,请访问仪表盘的评论界面。评论者头像来自 Gravatar

回复 一位 WordPress 评论者 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注