站点图标 多伦多书苑

暗知识:机器认知如何颠覆商业和社会

春雪

飞花轻洒雪欺红,

雨后春风细柳工。

一夜东君无限恨,

不知何处觅青松。

在告诉读者答案之前,先看看机器写诗的原理。把机器写诗的原理讲得最清楚的莫过于《红楼梦》里的林黛玉。在《红楼梦》第四十八回中,被薛宝钗带进大观园的姑娘香菱让黛玉教她写诗:

黛玉道:“什么难事,也值得去学!不过是起承转合,当中承转是两副对子,平声对仄声,虚的对实的,实的对虚的,若是果有了奇句,连平仄虚实不对都使得的。”香菱笑道:“怪道我常弄一本旧诗偷空儿看一两首,又有对的极工的,又有不对的,又听见说‘一三五不论,二四六分明’。看古人的诗上亦有顺的,亦有二四六上错了的,所以天天疑惑。如今听你一说,原来这些格调规矩竟是末事,只要词句新奇为上。”黛玉道:“正是这个道理,词句究竟还是末事,第一立意要紧。若意趣真了,连词句不用修饰,自是好的,这叫作‘不以词害意’。”香菱笑道:“我只爱陆放翁的诗‘重帘不卷留香久,古砚微凹聚墨多’,说的真有趣!”黛玉道:“断不可学这样的诗。你们因不知诗,所以见了这浅近的就爱,一入了这个格局,再学不出来的。你只听我说,你若真心要学,我这里有《王摩诘全集》你且把他的五言律读一百首,细心揣摩透熟了,然后再读一二百首老杜的七言律,次再李青莲的七言绝句读一二百首。肚子里先有了这三个人作了底子,然后再把陶渊明、应玚,谢、阮、庾、鲍等人的一看。你又是一个极聪敏伶俐的人,不用一年的工夫,不愁不是诗翁了!”

黛玉说的第一件事是格律,押韵合辙,平仄对仗。这是律诗的基本规则,属于作诗的明知识。而词语之间的相关性,也即一个词出现在另一个词后面的概率,对诗人来说则是默知识。学习这些默知识是机器最擅长的,机器通过大量的阅读,对每个词后面出现什么词都有了“感觉”。黛玉说的第二件事是训练集要大,要多样化。陆游一生写了万余首诗,但一个诗人毕竟有局限性,例如陆游的诗题材单调,意境空疏。

如果香菱只学陆游的诗就会像黛玉说的那样“一入了这个格局,再学不出来的”,这就是机器学习里面当训练数据集太小时出现的“过度拟合”问题。所以黛玉让香菱学王维、杜甫、李白等不同风格的诗人,王维的空灵幽远,杜甫的悲天悯人,李白的潇洒豪放,都会避免“过度拟合”,多种风格的混合才能出新意。

机器作诗的原理和人学作诗类似,本质上也是模式识别,通过大量学习识别然后记忆平仄、对仗、押韵、词句的常见组合,即一个词出现在另一个词后面的概率。诗歌是文字的一部分,是一个前后有相关性的序列数据流,第三章里提到过,RNN最适合序列数据处理。产生诗歌的思路有两种。第一种思路是将诗歌的整体内容作为训练语料送给RNN语言模型进行训练。训练完成后,先给定一些初始内容,然后就可以按照语言模型输出的概率分布进行采样得到下一个词,不断地重复这个过程就产生完整的诗歌。具体步骤如下:首先由用户给定的关键词生成第一句,然后由第一句话生成第二句话,由第一句话和第二句话生成第三句话,重复这个过程,直到诗歌全部生成。该模型由三部分组成。

(1)卷积语句模型(Convolutional Sentence Model,CSM):这个卷积模型用于获取一句话的向量表示。

(2)复发上下文模型(Recurrent Context Model,RCM):句子级别的RNN,根据历史生成句子的向量,输出下一个要生成句子的上下文向量。

(3)复发生成模型(Recurrent Generation Model,RGM):字符级别的RNN,根据RCM输出的上下文向量和该句之前已经生成的字符,输出下一个字符的概率分布。解码的时候根据RGM模型输出的概率和语言模型概率加权以后,生成下一句诗歌,由人工规则保证押韵。

第二种思路是把写诗看成一个翻译过程。将上一句看成源语言,把下一句看成目标语言,用机器翻译模型进行翻译,并加上平仄押韵等约束,得到下一句。通过不断地重复这个过程,得到一首完整的诗歌。

现在到了揭开谜底的时候:第二首和第四首诗是机器写的,仔细看还是能看出来。一首好诗首先是要语句自然流畅,意境浑然天成。第二首的第一句“孤耐凌节护”根本不知所云。除了句子不通顺,两首机器写的诗还很难让读者有画面感。一首好诗重要的是意境,正如黛玉所说:“词句究竟还是末事,第一立意要紧。若意趣真了,连词句不用修饰,自是好的,这叫作‘不以词害意’。”目前机器写诗像一个缺乏天资的但极为刻苦的诗歌爱好者,怎么做都无法有“意境”。能够打动人的好诗需要“触景生情”,并且能引起读者的共鸣。这更是目前机器学习还无法企及的境界。最绝妙的诗歌除了以上几点,还要能出奇出新,打破常规,使用从来未使用过的词句组合但又合情合理。正如黛玉在进一步提点香菱时所说:

“可领略了些滋味没有?”香菱笑道:“领略了些滋味,不知可是不是,说与你听听。”黛玉笑道:“正要讲究讨论,方能长进。你且说来我听。”香菱笑道:“据我看来,诗的好处,有口里说不出来的意思,想去却是逼真的。有似乎无理的,想去竟是有理有情的。”黛玉笑道:“这话有了些意思,但不知你从何处见得?”香菱笑道:“我看他《塞上》一首,那一联云:‘大漠孤烟直,长河落日圆。’想来烟如何直?日自然是圆的:这‘直’字似无理,‘圆’字似太俗。合上书一想,倒像是见了这景的。若说再找两个字换这两个,竟再找不出两个字来。还有‘渡头余落日,墟里上孤烟’:这‘余’字和‘上’字,难为他怎么想来!我们那年上京来,那日下晚便湾住船,岸上又没有人,只有几棵树,远远的几家人家做晚饭,那个烟竟是碧青,连云直上。谁知我昨日晚上读了这两句,倒像我又到了那个地方去了。”

上面香菱喜欢的这些诗句都超越了技巧层面,进入灵感和画面的幽微层面。这些都不是今天以学习数据之间相关性为特征的机器学习所能企及的。所以真正的诗人完全不必担心被AI取代,但那些无病呻吟,鹦鹉学舌或天资平平的诗歌爱好者只能和机器诗人去PK了。

同样的道理,AI还可以写小说。只要让机器大量阅读一位作者的著作,机器就能学会这个作者的文字风格。和作诗、画画一样,如果让机器阅读了许多作家的书,机器的写作风格就是“混搭”的。和作诗一样,机器写的小说可能情节完整,文字通畅,但永远不会有伟大作家笔下流淌的情感和闪烁的灵魂。

有读者一定会问,这些“灵感”和“意境”是否也是一种默知识,甚至暗知识?当机器更复杂时是否终将能模仿?这个问题并不容易回答。但暂时的回答是“不能”,原因是今天的机器没有自我意识,所以没有情感。我们在本书的最后会讨论这个问题。

Author:

退出移动版