2017岁首年月综艺节目《中国诗词大会》的走红不只让几位优良选手家喻户晓,还间接催生民间朗诵、进修、研究古诗词的高潮。在这个布景下,一个本职工作是做数据阐发的法式员也闲不住了,他用本人擅长的编程言语为东西,向我们展现了计较机对全唐诗的阐发功效:唐朝诗人最喜好的季候是春天,最钟意的动物是龙、马,最喜好提及的地名是江南……
这不敷,他还要告诉你全唐诗中排名第一的“好基友”是哪两位;初唐、盛唐、中唐、晚唐各期间诗坛社交收集若何,别离发生了以谁为核心的“伴侣圈”……法式员的文章颁发后,激发不凡的阅读量与回应,同时有人文范畴的研究者指出其不足之处。高呼“代码改变世界”操之过急,手艺的前进带给人文社科范畴庞大的推力倒是不争的现实:跨界研究无益亦风趣。
2017年2月26日,“前进四先生”终究在本人的微信公家号“前进日记”上贴出了《当我们在读唐诗时,我们在读什么》。说起他的职业“航天工程师”,似乎和唐诗没有任何干联,日常工作围着数据阐发、写法式转,是尺度的“法式员”。用“前进四先生”(以下简称“前进四”)的话来说:“这是一个很是严谨的行业,容不得半点差错。”
能写出这篇文章,和他另一个身份定位相关:古典诗词快乐喜爱者。常日对诗词抱有稠密乐趣,读过不少相关册本,在表情欠好时喜好读诗的他和千千千万观众一样,在春节期间关心到一档综艺节目《中国诗词大会》。节目标热度刺激了他的职业习惯:用数据阐发碰到的各类问题,唐诗也包罗在内。“前进四”对记者暗示,用科技手段来阐发文艺作品在学术界并不新颖,其之前也读过相关论文,如浙江大学徐永明《中国古典文学研究的几种可视化路子———以汤显祖研究为例》。只不外这些文章多传播在学术圈中,并没有传播开来。
“法式员”起头步履了。为阐发唐朝诗歌,他先从网上找来一份全唐诗,其利用的版本共2609位作者,收录42974首诗。通过Python(一种计较机法式设想言语)这种东西,他决定小试牛刀,阐发唐诗中呈现的字、词,找找有哪些好玩的点。
第一个问题,唐朝诗人谁的作品数量最多?法式统计的成果前三名是:白居易(2643首)、杜甫(1151首)、李白(897首)。而位居第四的是NA(843首),即“无名氏”。“前进四”后来告诉南都记者,这个统计只局限在全唐诗里,具有的不足是各个作者传播至今的诗词数量纷歧,提示读者此中可能具有误差:“好比全唐诗中白居易的诗最多,这是由于白居易生前本人编纂过文集,李杜则没有,所以白的文章传播到后世的就比李杜的多一些”。
接着,他用计较机统计全唐诗中常见的字、词,例如呈现最多的字、季候、颜色、动物、动物等词汇别离是哪些。“前进四”称,这些检索十分简单,只需要几行代码就能够实现;而检索的环节词是他本着对于诗歌常见意象的阅读经验想出来的。让我们看看他得出的结论:唐诗中呈现最多的字是“不”字;四时呈现的频次中,“春”和“秋”呈现出压服性的排场;颜色中,诗人用的最多的是“白”色;动物中,“松”“竹”最受诗人喜爱;动物中,“龙”“马”出场次数高于其他品种,对此“前进四”开打趣———“莫非唐朝也讲活龙活现”?
至于以词为单元的阐发,他告诉记者,现实与字的阐发道理不异,但借助了THULAC这个分词东西。“前进四”注释,THULAC在分词之后,还能同时获得词的词性(同时他提到,此分词东西出缺陷。计较机之所以能分词,是由于它从大量的人工分词成果中进修了纪律。THULAC是用现代语文分词的材料锻炼出来的,响应的,THULAC也就在现代语文材料分词中表示优良,针对古代文献没那么抱负)。好比这个词到底是描述词,动词仍是名词?THULAC的词性划分得很是详尽,此中就有地名词性、时间词性、处所词性等,因而统计唐诗中呈现的地名、时间、场景等也较为简单。
按照“前进四”的统计,唐诗中最常呈现的地名是“江南”和“长安”,他在文中如是说———“终究一个处所情况好,一个处所是首都,想必这两个处所的房价必然也很贵。”那么,什么具体场景能激发诗人们的兴致呢?门前、海上、江边、楼上,“这就跟我们此刻到景区门前要合影留念,到海边、河滨、高楼上都要摄影发伴侣圈是一个意义吧”。
更进一步,通过word2vec这个东西,实现词到向量的转换,即所有词可转换成一长串数字。由此,计较机以数字之间的类似度能够简单阐发诗句中词与词之间的联系关系。“前进四”向记者注释,这个转化过程非言简意赅能说清晰。粗略来讲,分歧词的上下文是纷歧样的,可是又有必然的相关性。例如说“苹果”和“梨”,这两个词呈现的语境该当会很类似,好比:“我们去生果店买苹果/梨吧”,“午饭后再吃个苹果/梨”。在这两个句子中,苹果和梨都是能够交换的词。而“苹果”和“猫”就根基不成能出此刻不异的上下文语境中。计较机通过度析每个词上下文呈现的词,最初能够每个词转换为一串数字。上下文比力接近的词,这串数字就比力接近。
以此手段,“前进四”找出了与“孤单”联系关系亲近的10个词:唯有、今夜、摇落、怅望、故国、伴、难过、深春、明日、旅。他在文中如许写道:“能看出来,诗人们往往在春日的深夜里,在树叶摇落的季候里,在旅途中,纪念故国的时候,最容易孤单。这也难怪,我写完上个句子,都感受有点孤单了呢。”
3月12日,“前进四”又贴出另一篇阐发功效《计较机告诉你,唐朝诗人之间的关系到底是什么样的》,超高的阅读量让他感应惊讶:“最后只是为了好玩,没想到有这么多人喜好。”他告诉记者,这篇文章写的时候其实很随便,远没有之前写数学类文章那么当真。若是能晓得有这么大的传布度,就会愈加当真些。
这篇文章,他把关心核心放在诗人身上,试图理清两个诗人以致于多个诗人世的关系。若何处理呢?借助全唐诗,他把“关系”简化为“援用关系”,即诗的题目和注释中只需提到过对方,那么两者之间的援用关系加1。一首诗若是提到多次对方,只算一次引
用。“前进四”对记者说,“这种援用关系的阐发只是大体上的阐发。若是要当真阐发两位诗人之间的关系,势需要按年代挨次来阐发两者之间的唱和作品,这工作量有点大,而且不是我擅长的内容”。计较机无法对援用的诗做细微的感情阐发,因而文中的诗坛“社交收集”“伴侣圈”都只是以“援用关系”为依托。
全唐诗共2000多名作者,诗人的别称又良多,好比杜甫字子美,按排行称为杜二,按官职称为杜工部。为了让他们对号入座、不反复、不脱漏,“前进四”利用CBDB(中国历代人物列传材料库,系统性收录中国历代名人列传材料)查询诗人的次要消息及别号,解除年代不符的重名,手动弥补脱漏部门。因为把全唐诗所有诗人关系都理出来会很乱,借助CBDB来的筛选,“前进四”将762位诗人纳入社交收集的关怀范畴。
范畴既定,法式运转。起首,看一下出名的李白与杜甫。全唐诗中,杜甫写了12首与李白相关的诗,李白则只要3首与杜甫相关的诗。虽然“前进四”也讥讽“李白这种伴侣确实差劲了一点”,但对于近来网上传播的李杜二人的段子,他感觉“看看笑笑就好”。“前进四”暗示,杜甫写李白的诗多,一方面由于李白是长辈,比杜甫大了十明年,成名时间也早得多,更多的是由于杜甫和李白的性格分歧:李白超脱,杜甫密意。
那么,唐代诗人世的唱和互动以哪两人最为屡次呢?排名第一的是晚唐期间陆龟蒙和皮日休,可谓“绝对的好基友”。两人互相提到对方的次数均达百次以上,常年酬唱的功效被集成唱和诗集《松陵集》,文学史上也留下“皮陆”的美名。
并列排名第二的则是白居易和刘禹锡、白居易和元稹。白居易与元稹是文学史上闻名的“元白”二人组,关系之亲密自不待言;白居易和刘禹锡同年(772年)出生,从政道路都是“各类被贬谪”。白居易得知刘禹锡归天的动静后,还写下了悼亡的千古名诗:四海齐名白与刘,百年交分两绸缪。同贫同病退闲日,一死终身临老头。
别的,从排名前三十的援用关系来看,白居易还与李逢吉、崔玄亮、李建、李绅等名字相连次数良多。“前进四”称,白居易绝对是唐朝诗人伴侣圈中的明星,是“大V中的大V”。
两人世关系有了排名,“前进四”操纵ECharts将前一百名援用关系图示化,获得诗人们的社交收集圈。根据引费用的强弱,关系图显示出了唐朝诗人的两个大型伴侣圈:盛唐杜甫-李白伴侣圈、中唐白居易伴侣圈。
对于白居易这个“社交焦点”,“前进四”向南都记者注释,社交收集圈的焦点人物,就是与其他文人发生联系比力多,而且在文坛上有必然名望的人。白居易是此中典型,白与其同时代的其他文人都有联系,而且是其时的诗坛魁首。
除此之外,从初唐、盛唐、中唐、晚唐分阶段看,初唐诗人中关系最好的是宋之问和沈铨期,两位恰是宫廷诗人的代表,确定了近体诗的格律,史称“沈宋”;晚唐诗人的社交收集比力狼藉,没有较着的焦点。此中最主要的就是李商隐和杜牧,文学史也以“小李杜”认证。
以“前进四”这个法式员的思维,计较机不只能够阐发唐诗,还能够剖解其他时代的文献,梳理时代人物关系。当然前提是这种阐发需要“对其时的时代有必然的领会”。伴跟着计较机手艺的成长和古典文献的数字化历程,他对做出中国汗青人物关系图的愿景抱有等候。
就法式员的思绪,南都记者就教了一位人文范畴研究者刘锐。刘锐此刻香港教育大学中国言语学系做词汇语义学、语料库言语学方面的研究。他评价两篇文章称:这种文理之间、文科和工程科学之间的跨界,在公共看来还比力别致,想必这和教育体系体例的文理分科在公共中构成的观念相关。如许的文章虽然算不上学术研究(其实良多是法式员的“练笔之作”),可是对于向公共普及文理合流、文理相通的观念很有协助。由此能够看到跨界和学术走入糊口的趋向。通过一些计较机手艺,从宏观的方面揭示诗词歌曲的特点,并通过现代人熟知的一些概念表达出来,好比“社交收集”、伴侣圈等,可以或许激发公共对现象的思虑,和对学术的乐趣。
刘锐告诉南都记者,之前他看过另一篇很火的文章《我阐发了42万字的歌词,为了搞清晰民谣歌手们在唱些什么》,是用计较机方式阐发歌词。比拟之下,“前进四”的文章所用材料数量更大,阐发较为严谨。不外,就学术研究而言,失之简单。做诗歌研究绕不外文学史。诗人社交收集、诗坛焦点,考量的维度良多,“除了诗歌的互引,还好比各类史料记录的诗人交游的环境,诗人对文学气概的影响,贡献等。若是文章按照制图得出结论后再查查文学史,若能互相印证,会更有说服力”。
同时他认为,基于字词统计的方式是言语学中常用的方式,好比汉语中哪些是常用词,就用统计方式加一些言语学道理来确定。可是“前进四”的字词统计仍是流于简单。“诗歌精细的意义不说,单说这个字词统计没有考虑到多义词、多义字的环境,这就不是很靠得住了。并且他用的分词软件是不是合用于古汉语呢?古今汉语的分词长短常分歧的”。
刘锐暗示,全体而言他很乐见这种“跨界研究”。据他引见,学术范畴有一门计较言语学,特地用计较机研究言语。由此能验证出不少风趣的结论,最出名的即是“齐普夫定律”。此定律有点像所谓的“二八定律”,是最省力法例在言语中的表现。
现实上,法式员的此次“跨界”也获得不少人文范畴读者的关心。“有些不会写代码的伴侣,他们想晓得有没有现成的东西能够对其他文献进行阐发”;还有一些读者和“前进四”交换对话,由此他传闻了数字史学(digitalhistory)这一概念,才大白本人的文章用计较机阐发、展现汗青,能够算作“数字史学”的范围。
“前进四”口中的数字史学,据南京大学汗青系王涛的论文《挑战与机缘:“数字史学”与汗青研究》引见,早在上个世纪90年代就有了这一概念。消息手艺革命与“大数据”时代的到来,为史学研究史料拾掇、阐发思绪形成了不小的冲击。论文认为,计较机“数据挖掘”的特长在汗青研究中大有可为。王涛提到,2007年起头,哈佛大学由谷歌公司支撑,借助电脑“阅读”百万计电子书,操纵n-grams阐发册本中呈现的主要词汇,获悉不少风趣的成果。例如,对出名汗青人物的成名过程有了定量的描述,并且发觉成名的预备期从20世纪中期起头变得越来越短;对汗青上呈现的瘟疫风行路线有了清晰的描画;支流文化敌手艺前进的采取,在19世纪初平均需要66年,而在1880—1920年间,则只需27年。
无论是“计较言语学”仍是“数字史学”,离通俗人仍是有些距离。不外,善用搜刮东西、用法式处置人文,总能带给你意想不到的结论。终究,按照计较机阐发,现代民谣歌手在歌词中最喜好春天,最爱谈论“南方”,和全唐诗中诗人的偏心有那么一丝接近呢。