文学批评用数据“说话”的可能性

发布时间：2021-12-29 11:01:56 | 来源：光明日报 | 作者：杨丹丹 | 责任编辑：苏向东

10年前，《纽约时报》刊文描述了大数据技术对社会生活诸多方面的影响，认为“大数据时代”已经来临，但并没有引发大规模讨论和预想的轰动效应，回应者寥寥无几。这种平静表明人们已经适应和融入了大数据生活，不再感觉陌生和惊奇。“大数据”已经从一个全新的学理概念、政策制度和发展战略，转变为确定的生活常识。在全新的时代语境中，大数据技术也改变了文学创作，产生了文学新样态及其相关数据。例如，游戏文学、界面文学和赛博格文学等。这些文学的写作主体、叙述内容、审美原则、传播机制和读者接受都发生了革新。可以说，大数据技术对文学生态产生了颠覆式影响。

利用计算机技术，以量化统计的方式研究文学，是否行得通

为了应对这些新变，文学批评需要及时调整批评方法。这也是文学批评的技术化转向和文学计算兴起的重要原因之一。传统意义上，“文学数据”是指文学作品和文学研究文献电子化后产生的数据，具有体量小、易分析和好管理等特征，集中体现为各种类型的文学数据库和文学研究数据库。例如，鲁迅文学作品及其研究资料电子化后形成的鲁迅文学数据库和鲁迅研究数据库。

而“文学大数据”是指文学作品和文学研究文献在互联网、物联网和社交网传播过程中产生的文学数据，具有体量大、动态化、类型多、提取难、价值密度低和不易管理等特征。例如，一部文学作品在微信、微博等社交网络传播后，会产生关于此作品的海量评价，除了文字评价，还包括图片、音乐、链接、表情包、弹幕、点赞等多种数据。分析这些大数据，可以获取读者的年龄、职业和地域，文学作品表达的思想情感是否与社会提倡的价值观念相吻合，此部文学作品讲述的故事与哪些中外文学作品相似，读者是否喜欢这类文学作品等诸多内容。这些海量数据的整理和分析单纯依靠人工难以完成，需要相关计算技术的支撑。因此，文学计算应运而生。

简单而言，文学计算是指利用计算机技术，以量化统计的方式研究文学，具有明显的跨学科性。文学计算在古代文学研究中应用较为广泛，尤其在唐诗和明清小说研究方面发力较深，涉及版本考证、作者辨伪和人物功能分析等多个领域。例如，20世纪80年代陈大康、钱峰等人曾提出文学研究与计算机科学相结合的观念，并以量化统计方法研究《红楼梦》。通过统计词频、词长和段落长度变化，考证《红楼梦》作者，分析审美特征等。但受制于计算技术，只分析了《红楼梦》一部作品。直至新世纪，随着计算技术和通信技术的快速发展，以及文学计算理论的普及，文学计算才大范围崛起。刘石、赵薇、王贺等一批学者深耕此领域，取得了开创性成果，推动了国内文学计算的发展。

大数据介入文学批评，可能带来思维上的变革

文学计算不仅是批评方法的转向，而且是批评思维的变革。首先，从主观理论建构到客观数据实证。一般意义上，文学批评注重文学理论和审美建构，阐释对象以单篇或同一类型的文学作品为主。带有很强的个人主观性，难免形成视域盲区，理论的有效性经常受到质疑。例如，文学批评在建构现实主义文学理论时，经常以巴尔扎克的《人间喜剧》、托尔斯泰的《战争与和平》等作品为例。以此得出的观点可以适用西方19世纪现实主义文学，但对中国现实主义文学不一定适用。或者说，文学批评的理论和审美建构因缺乏大规模文学作品的支撑，提出的观点只契合小部分作品，无法真正构建普遍适用于“世界文学”的理论。

计算技术提升了整理和分析大规模文学作品的能力。谷歌图书在2010年已经收集了全球1.3亿册图书数据，而且每年都在成倍增长。因而，文学批评不再局限于小部分文学作品分析，可以把批评对象延伸到世界文学作品，让全球文学数据自己“说话”。在此基础上，可以得出更为客观和普遍有效的结论。

其次，从确证因果关系到呈现相关关系。确证因果关系是指批评者通过分析文学作品，证实文学作品与具体历史和现实事件之间的因果联系。这种批评思维对小部分文学作品有效，但面对大规模的文学作品则难以实践。例如，文学批评在阐释20世纪30年代乡土小说时，致力于确证乡土小说与日本侵华战争的因果关系。因此，解读的重心就放在乡土小说反抗日本殖民统治和表现强烈民族意识上。这种批评思维可以适用于萧红的《生死场》和萧军的《八月的乡村》，却无法用来解读同时期沈从文的《边城》和师陀的《果园城记》等作品。

而文学相关关系是指文学作品与历史和现实事件之间的数值关系。当一部文学作品数值增加时，相关历史社会和现实事件也随之增加，意味着它们之间的相关关系强，反之则亦然。例如，在互联网搜索“乡土小说”时，出现的信息既包括鲁迅、彭家煌等作家作品，又包括五四运动、封建专制文化等历史事件和背景。当这些作家作品和历史事件共同且持续出现在不同的“乡土小说”词条中时，它们之间的相关关系就强。也就是说，文学计算不再需要主观确证文学与历史和现实之间的因果联系，只需通过分析文学数据之间的相关关系，就可以客观呈现这种因果联系，相对更客观和不受主观偏见的影响。

再次，从单向度的文学思维转向多维度的跨文学思维。本质上，文学批评始终在追问“文学是什么”的问题。回答的角度、逻辑和结论都与文学的审美性和精神性相关。但这也忽略了文学之外的众多因素。出现这种状况的重要原因之一是在互联网、物联网兴起之前，没有出现真正的文学大数据和缺乏分析文学大数据的工具。随着这一困境的解决，非文学数据也可以参与回答“文学是什么”的问题。这样，就可以突破文学的边界，进入自然科学、社会科学和艺术学等其他领域来重新界定文学及其相关知识，构建新的文学批评阐释框架和理论基础，重建学科体系、学术体系和话语体系。

例如，文学批评可以借助神经科学分析人物情感，利用数学建模分析人物社会网络，运用自然语言科学分析文学叙述语言审美特性等。以此为研究者提供多维度、差异化的研究视角和材料，拓展文学批评边界，提升重释文学的能力。同样，文学也可以进入其他学科，以自身独特的人文性为其他学科注入精神和审美因素，实现文学批评的跨学科发展。

力求有效调和“人文文化”与“科学文化”之间的矛盾关系

文学批评的技术化有诸多优势，但也存在需要调整和修正的局限。文学计算的基本原理是依据计算模型分析文学数据是否符合计算规则，但无法判断数据的真假和分析其中蕴含的主观观念。或者说，文学计算只负责回答与规则对应的文学数据“怎么样”的问题，而无法阐述“为什么”的问题。例如，文学计算可以统计出在20世纪40年代有哪些作家到过上海、写了哪些文学作品，并以可视地图方式呈现出现，却无法回答为什么这些作家作品会在这个时间集中出现在上海，与上海有何种关系等问题。这样就需要批评主体凭借自身的主观智能找出其中的原因。

文学计算指涉的对象是文学数据，而非文学数据背后的精神意义。例如，文学计算可以统计鲁迅《秋夜》中有两棵枣树，但无法呈现两颗枣树蕴含的孤独体验。这也是文学计算备受诟病的致命缺陷。因此需要批评主体赋予文学数据以价值导向和精神内涵。

文学计算始终秉持“非此即彼”的极化思维。符合规则的为“是”，反之为“否”，排除了规则之外的中间化和模糊化的文学数据，使文学批评滑向判断文学数据“真”和“假”的游戏。例如，如果文学计算设置“牺牲”为判定革命英雄人物的规则，那么符合此规则的为“是”，反之为“否”。但这一规则无法判定《风声》等谍战小说中类似阿炳这样凭借特异天赋成为革命英雄的人物。

文学计算以文学数据的最大公约数为依据阐释文学。但文学本身就是建立在个体对现实差异化理解和表述基础上，充满了变动和偶然，这也是文学的重要魅力。因此，正如学者张福贵所说，文学计算能否“从历史的长线来对文学史现象和作家作品做出相对超越性的评价，是存有疑问和不无难度的”。

虽然文学批评的技术化转向存在诸多问题，但这不是我们否认它的理由，应该辩证看待这种转向，既要汲取它的合理性，也要寻找解决问题的路径。事实上，这些问题都是“人文文化”与“科学文化”矛盾关系的体现。从20世纪五六十年代提出人文与科学冲突的命题至今，这种二元对立思维始终没能有效调和。关于文学批评技术化的争议也多与此有关。如果我们能摆脱这种极化思维，以文学大数据和文学计算作为验证文学人文思想的基础和方法，以人文思想丰富文学大数据和文学计算的精神价值，实现二者的对话和融通，那么文学批评技术化转向就有无限美好的未来。

（作者：杨丹丹，系河南师范大学文学院副教授，本文系国家社会科学基金项目“人工智能写作本体研究”〔20BZW175〕阶段性研究成果）