
陈若凡(中国社会科学院大学政府管理学院博士研究生)
一、引言:计算政治学与自然语言处理
(一)计算政治学的兴起
2024年,国务院学位委员会第八届学科评议组、全国专业学位研究生教育指导委员会编修并发布《研究生教育学科专业简介及其学位基本要求(试行版)》,首次在“政治学”一级学科下增设“计算政治学”二级学科,这表明数据化、信息化时代对于国家和社会发展的巨大影响。根据文件内容,计算政治学最主要的三个分支领域分别是计算实验、仿真模拟和大数据政治学。
- 计算实验:通常使用基于“反事实”逻辑的因果推断方法对制度与政策等进行有效性评估;
- 仿真模拟:通过多主体建模与仿真(Agent-based Modeling)等方法预测政治现象的演化方式;
- 大数据政治学:注重利用大规模的数据集合、高度自动化的数据处理技术,通过对政治领域各种数据进行收集、整理和分析,找出反映政治现象的特定模式、关系或趋势,尤其擅长挖掘数据集合中的潜在关系,为政治学研究提供新的视角。三者关系如图1所示。
大数据政治学可根据应用场景和数据类型分为三个主要分支:
1. 以大语言模型(LLMs)为核心方法的研究:基于深度学习构建,能够生成符合语法与语义的大规模文本,在政治学中主要用于实验数据生成、决策模拟与预测。例如丽莎·阿盖尔(Lisa Argyle)等基于GPT-3生成了“硅基样本”(Silicon Samples),检验使用大语言模型在研究中模拟特定人类亚群的有效性,发现其保真度足以准确再现亚群特征分布,为社会科学研究提供新的有力工具。
2. 以数量类与传感器类数据为基础的研究:借助逻辑回归、支持向量机、决策树及神经网络等方法,挖掘数据中的潜在趋势和关联,计算机视觉便属此类,通过卷积神经网络(CNN)完成图像分析并从中提取潜在信息。例如菲利普·萨莱斯(Philip Sales)等在“地点与项目”中,利用机器学习分析图片数据,分析建成环境与犯罪率的关系,发现二者确有一定相关性。
3. 以文本类数据为基础的研究:以自然语言处理(NLP)为核心方法,通过对文本类数据的分析,挖掘潜藏信息,帮助研究者理解政治过程、解读政治行为、捕捉政治动向。
自然语言处理在政治学研究中侧重于文本的表现,在数据抽取、分析与深度挖掘方面的专长使其在当前的研究领域中,应用范围更为广泛。为广泛的信息提供强大的文本处理能力,自然语言处理为政治学研究提供了丰富的介入路径,可以较为全面地处理各种数据,例如文本类数据、数量类数据、图像类数据等,但当对以上数据进行数据标注工作时,自身的作用机制与经典算法、神经网络、自然语言处理等相似。因此,在这里只强调大语言模型有限的几个应用场景。
作为传统的机器学习算法,逻辑回归、支持向量机(SVM)、决策树等方法是一种通用方法,当其对文本数据分析时,则属于自然语言处理。此处主要根据数据类型对大数据政治学作出一种划分,可能引起读者误解,故进行说明。
(二)自然语言处理概述
自然语言是人类自然演化形成的语言系统,包括口头与书面两种形式。随着信息技术的发展,人们逐渐探索如何使计算机具备理解、分析与生成自然语言的能力,由此催生了自然语言处理技术。自然语言处理是计算机科学与语言学等学科的交叉领域,其核心在于语言的理解与生成(如图2所示)。研究者通常以语言学原理为基础,将自然语言形式转化为计算机可识别的规则与符号,并通过模型实现解析与反馈,从而实现人机交互。
自然语言处理的历史可追溯到20世纪50年代,大体经历了从手写规则、统计方法到深度学习的三次迭代,反映了理性主义与经验主义两种认识论的差异(如图3所示)。早期的自然语言处理主要基于理性主义哲学,受乔姆斯基(Noam Chomsky)形式语言理论影响,依赖人工设计的语法规则与词典来理解和生成语言,虽在特定领域有效,但难以覆盖复杂性语言,故研究陷入瓶颈。20世纪60年代末,经验主义导向的统计方法兴起,弗里德里克·耶利内克(Frederick Jelinek)等科学家分别开发出N-gram模型与隐马尔可夫模型等统计模型,并应用于机器翻译与文本识别,推动了自然语言处理的经验主义转向。
随着计算机性能提高和互联网普及,自20世纪90年代开始,经验主义自然语言处理成为主流,研究者多利用大规模语料库训练模型来解决自然语言处理问题。21世纪以来,随着标注数据的增加,传统的模型准确率提升并不显著,促使曾被冷落的神经网络重获关注。到2006年,以辛顿(Hinton)为代表的几位科学家成功设计出第一个多层神经网络,自然语言处理由此步入深度学习时代。此后,基于深度学习的卷积神经网络(CNN)、循环神经网络(RNN)相继被引入自然语言处理技术中。2017年,阿希什·瓦斯瓦尼(Ashish Vaswani)等发布了基于自注意力机制的Transformer模型,成为公认的最优训练架构,极大降低了自然语言处理技术的应用门槛。Transformer模型一方面推动了生成式人工智能时代的到来,另一方面促使BERT(bidirectional encoder representations from transformers)等高性能预训练模型被设计和开发出来,显著拓展了自然语言处理的应用场景与功能。
作为人类交流的主要媒介,自然天然承载着丰富的政治信息,对政治文本的分析和处理是政治学研究的重要内容。尽管与计算机科学领域的迅猛发展相比仍显滞后,但自然语言处理仍为政治学研究提供了前所未有的契机,使文本研究切入新的学术空间,并为政治现象与规律开辟了新的路径。
二、自然语言处理对政治学研究范式的革新
(一)传统政治学文本分析范式及其瓶颈
传统的政治学文本分析主要包括内容分析法与话语分析法两种,它们基本将文本的形式与内容特征利用经验或行政的方法阐释文本背后的政治逻辑与权力关系,再通过计量的指标和变量将结论转化为可计量的指标和变量,再通过统计等方法获得客观可比较的数据。文本分析法和话语分析法被应用于定性研究,研究者从诠释主义出发,更加注重对文本或话语的分析与解释,并通过考察其深层的意义和结构来揭示文本或话语的蕴含等。
传统的政治学文本分析方法,其优点在于能够提供深厚的研究背景、严格的理论性和严密的论证逻辑,但也有其不足:
1. 数据源单一、数据量小:传统文本分析依赖于研究者主动收集数据,材料普遍来自纸质文本,例如书籍、报刊、文件等,这容易造成数据的不完整、不充分。
2. 数据处理效率低:传统的文本分析依靠人工处理数据,人力成本较高,这种方式不仅使研究效率低下,也让大量文本数据无法被及时纳入分析,导致研究进程缓慢,同时也无法大规模防范人为偏见。
3. 结论主观性较强:传统的文本分析依赖人工编码与解读,主观判断作为一种人工工具,强调研究者的主观判断和分析,因此研究者的学术背景、个人偏好等因素可能会导致偏见和误解的产生,从而限制对文本的客观分析。
(二)大数据分析方法的优势
相较于传统政治学文本分析,自然语言处理通过应用机器学习等方法,实现了方法论与研究内容的双重升级。在方法论层面,自然语言处理以客观或半客观的量化方法呈现研究结果,降低了研究者对模拟文本集的系统分析与深度挖掘,能够对大规模数据进行因里解释。同时,相较于传统政治学分析方法,自然语言处理通过计算机算法对文本数据进行分析,从而更全面地处理海量的语料,深入挖掘文本和场域,从更客观的层面对数据进行处理。另一方面,由于算法在处理量化文本的过程中会更加关注语料之间的潜在关联性,因而能更轻易地挖掘出注意意料之外的信息。
在研究内容上,自然语言处理可以帮助研究者拓宽数据来源,将原本难以利用的海量文本信息作为研究材料,为政治学研究拓展新领域、带来新视角,这主要体现在对大量非结构化文本(如社交媒体文本等)的深层挖掘。例如,斯文·范·克拉弗伦(Sven van Crajefelds)等对奥地利、意大利、瑞士和比利时的万里竞选政治言论的研究中,通过自然语言处理与Twitter(现X)对话,对近10万条政治言论进行分析,发现社交媒体平台为自由且高效传播自身意识形态的渠道。
综上所述,自然语言处理在方法论上改进了传统政治学文本分析的范式与方法,实现了分析效率和准确性的提高。
三、自然语言处理应用于政治学研究的主要场景
大数据时代,自然语言处理为政治学研究拓宽了范围和思路,互联网的发展又为政治学研究提供了丰富素材。如今,学者们正积极运用各种数据工具对传统的政治语料库进行广泛而深入的分析,以期构建出能够自动测量和评分的先进模型,并开发出易于访问的文本分析软件包。“文本即数据”(Text as Data)已经成为当下计算政治学研究的一个共识。近年来,政治学者在数据拓展、方法迭代、实践应用等多个方面对自然语言处理进行了积极探索。根据文本数据的来源和特征,本文将自然语言处理应用于政治学研究的主要场景分为以下三种(详见表4)。
(一)强政治性文本分析
强政治性文本往往由具有一定政治地位的主体所育有极高的严肃性、权威性和时效性,由它们直接关系到国家的政治和社会的权力运行、政策调整等重要方面,因此能够对人们的生活产生深远影响,具有重要变革的作用。强政治性文本与政治实践呈现直接关系,文本本身富含政治信息,因此这一场景下应用自然语言处理的首要目的在于挖掘蕴藏在政治文本中的深层次潜在信息,同时降低分析的人力物力成本,根据文本的结构化程度,对强政治性文本可以进一步细分为两类:
1. 结构化文本分析:主要包括政策文本、法律文书、会议文件等,这些文本结构清晰,内容规范,便于进行自动化的信息提取和分析。
- 文本自动化处理研究:研究者采取无监督特征提取与有监督优化的组合策略,具体而言,首先利用无监督学习技术,对政策或法律文本进行特征训练和词调,旨在从文本数据中提取出有用的特征;之后运用有监督学习技术对之前提取的特征进行优化,进一步提升自动化处理任务的效果。通过这一组合策略,研究者能够在文本自动化处理任务中取得理想结果,为后续应用提供有力支持。例如,沈自强等人利用BERT模型对科技政策文本进行特征提取与自动分类实验,最终发现采用BERT模型并采用预融合词-TF-IDF关键词进行训练时,对于政策文本的自动分类效果最佳。
- 文本内容特征及其演变研究:研究者一般采用无监督聚类算法,拓展了结构化文本分析的精度和深度,突破了传统单纯统计和人工抽述的解读限制,能够在文本特征分布、特征归纳、内容变迁等方面实现更深度的挖掘,并探索发现文本发展规律。胡吉明等从对政策文本内容特征和语义特征分析出发,提出了一个以LDA主题模型和注意力机制为核心的指向政策文本表示和分类的一体化框架,以增强文本的表示效果,并采用CNN-BiSTM-Attention集成模型提取文本中的词特征。约书亚·扬沙(Joshua Jansa)等人通过词袋模型方法对1982年至2014年美国50个州的12项政策法案文本进行文本相似度计算,证明了美国各州在创制性立法情况尤其在法案专业和政策创新水平较高的州中,这种现象反而更加普遍。
- 文本立场态度研究:研究者一般采用有监督分类算法,尤其偏好情感分析方法。通过分类算法,研究者能够对文本背后的立场、情感以及倾向性态度进行识别,从而更好地解读文本演变历程、促进文本发展完善,预测未来走向等。康斯坦丁·加夫拉斯(Konstantinos Gavras)等通过QIA词典对1994年以来所有欧盟成员国和欧盟自身发表的163份战略文件展开文本挖掘,揭示了过去30年中欧内部安全和防御偏好的演变趋势。
2. 非结构化文本分析:主要包括政治讲话、竞选宣言、会议记录、政务留言等,这些文本通常较为自由,形式多样,需要更为复杂的处理过程。
- 对文本内容特征及其演变的研究:旨在揭示文本中蕴含的政治文本编码的立场、观点和情感等信息的动态变化,二是对文本的市场态度的研究,以及发言人的政治立场和态度。
- 对文本内容特征及其演变的研究:常常会混合使用有监督与无监督学习这两种方法。如丹尼尔·迪尔迈尔(Daniel Diermeier)等通过SVM方法对美国国会话语数据进行分析,验证了美国国会话语与权力以及政治立场的正相关。还通过LDA主题模型对奥地利和德国所有主要政党的175份竞选演讲进行挖掘,发现多数政党在政治立场上的可读性较低,惯用复杂语言,仍需以情感分析分类方法对文本立场进行研究,只是情感分析分类方法为文本立场态度的研究提供了强有力的视角与方法。又如网民和政府官员对网络问政中公众诉求和政府回应之间的关系,借助有监督机器学习方法对网民发帖和政府回应信息进行分类,并使用情感分析方法标注网民发帖的情感倾向强度,发现时空因素、议程归属和诉求表达方式是影响政府回应性的主要因素。邓卫平等基于情感分析方法探究事件中政府回应的有效性,同时发现政府回应的情感越积极,越能阻止网民对政府的信任度越高,反之亦然。
(二)泛政治性文本分析
泛政治性文本指非权威主体生成的、与政治场域有信息关联的文本,其结构松散、体裁多样、传统研究方法难以有效处理,而自然语言处理技术有效弥补了这一不足。当前,政治学研究最常使用的泛政治性文本源于社交媒体,社交媒体既是公众表达政治态度与价值的重要平台,也是事件传播的重要阵地,兼具“信息”与“参与功能”,其部分平台还与政府信息公开与公众参与的直接互动,在互动中形成了传统媒介不具备的优势,于此,许多聚焦于及时的政治倾向及由此形成的公众舆论,以及对国家和政府的潜在影响。
在政治倾向分析领域,安德鲁·切隆(Andrew Cherry)等通过最先进的文本分类方法对意大利和法国的社交媒体进行数据挖掘,并通过SVM方法对政治偏好进行训练与预测,针对个体层面推文的政治倾向与传统民意调查不同的使用,为政治参与和政策制定者提供重要信息。他们在15年使用加里·金(Gary King)等提出的伯努利模型进行分析,对2010年美国中期选举的民意调查与2012年美国总统选举的推文进行验证,该方法具有良好的文本解释力与可靠的聚合效果,也证明了社交媒体数据具有及时预测选举结果的能力。
公众舆论是理解数据政府的较多重要变量,通过自然语言处理技术,研究者可以相比以往更高效地对公众倾向的数据进行挖掘。例如,乔纳森·莱(Jonathan Ladd)等通过对有关2016年美国总统选举和2022年美国总统选举的Twitter内容进行方式为认知和主题建模,发现比较竞选选举舞展的预期在网络舆论中形成了强烈的支持与反对的交锋,社交媒体平台是美国两党选举博弈的关键战场。
四、自然语言处理应用于政治学研究的局限性
综合而言,自然语言处理为政治学研究带来了全新的研究工具与信息探索人数,在互联网政治领域的关键议题价值不菲,但不可否认的是,由于多种因素的影响,通过自然语言处理得出的研究结果并非是真实可靠的,其在政治学领域的应用仍存在显著的局限性。本文将从自然语言处理的执行过程出发,在数据端、算法端、模型端以及伦理端四个层面存在的局限性进行一个全面的系统阐述。
(一)数据端:数据质量问题
数据是自然语言处理的基础,数据的质量将直接影响研究结果的真实性与可靠性。在政治学研究中,数据质量问题主要体现在数据质量、数据采集、数据清洗三个方面。
1. 数据规模有限:数据规模有限不仅制约模型的预测准确性,还会导致模型在训练过程中出现过拟合或欠拟合的问题。例如,安东尼西斯·格里高利(Antonis Grill)等在对社交媒体数据进行分析时发现,数据规模的大小会直接影响情感分析算法的准确性,当数据量过小时,算法容易出现过拟合问题,导致分析结果失真。
2. 数据采集偏差:数据采集偏差主要源于研究者的操作,也可能受限于数据设备条件。具体体现在数据采集的渠道、样本的选择以及数据的完整性等方面。例如,研究者在采集政治文本数据时,可能会因为选择的数据源不同而导致样本偏差,如只采集某一政党或媒体的文本数据,从而使研究结果偏向于该政党或媒体的立场。
3. 数据清洗困难:数据清洗是指对原始数据进行预处理,去除噪声、冗余和错误数据的过程。在政治学研究中,数据清洗面临的挑战尤为突出,因为政治文本往往具有较大的随意性,不仅在语法上可能存在漏洞,还可能会因为使用了比喻、讽刺、双关等修辞手法而造成机器识别的困难。
为了更直观展示,本文通过以下实验进行说明:
通过Python的TensorFlow库和TextBlob库调用Google的预训练模型Universal Sentence Encoder(USE),并在其中定义了两个较难分析的政治文本:
- 文本1:这项政策的出台引起了不少争议。赞成者称之为一场大胆的尝试,是朝着建设一个更加美好的社会迈出了一步;而反对者则指责它的实施方式是一种对财富的重重剥夺。(实际为中性立场)
- 文本2:我们的政府非常关心人民的福祉,特别是我们的财政部门,他们总是把人民的钱用在刀刃上!(实际为讽刺性表达)
使用自然语言处理模型分析上述文本,最终,根据模型输出的编码得分情况,计算机判定该模型将文本1定义为负面情绪,将文本2定义为正面情绪。这表明,在政治文本中,修辞的使用或中性的判断会造成情感分析准确性的下降,研究者需要明确该问题并尽可能通过模型调整等方式将其对结果的影响降到最低。例如,卡尔蒂克·孙达拉扬(Karthik Sundararajan)等人提出了一个基于多规则的集成特征选择模型,用于在社交媒体数据中检测讽刺类型的文本。该模型基于人工制定的规则,使用过滤式、包裹式和嵌入式三种特征选择技术从规则中选择最相关的特征,并将所选特征传递给一个朴素贝叶斯分类器,以确定文本是否具有讽刺性。
(二)算法端:算法偏差问题
算法偏差是自然语言处理中的另一重要问题,主要源于算法设计、训练数据和参数设置等方面。在政治学研究中,算法偏差可能会导致研究结果的失真,甚至会影响到政治决策的公正性。例如,在情感分析中,算法可能会因为训练数据的偏见而对某些政治立场或群体产生歧视性判断。
(三)模型端:模型质量问题
模型问题是自然语言处理运行过程中的又一问题。在进行每一项研究前重新训练模型是耗时耗力的,因此研究者通常会选择采用已经训练好的预处理模型。但这可能会带来模型泛化问题,即已经训练好的模型可能无法很好地推广到新的数据中,其适用性和扩展性会受到不同场景和任务的限制。举例而言,在Python中通过TensorFlow库和TensorFlow Hub库调用Google的Universal Sentence Encoder V4模型,随后,首先定义两个政治性文本片段:
- 文本1:政府应加大对公共教育的投入,以提高整体识字率。
- 文本2:政府应该削减税收以刺激经济增长。
在输出编码结果后,再定义一个不同领域的文本片段:
- 文本3:政府应该更加关注减少碳排放以应对气候变化。
输出结果表明,前两个文本片段的编码较为相似,但是第三个文本片段的编码同前两个文本片段的编码有显著不同。这一输出结果与经验事实不符,证明了在将自然语言处理模型应用到环境治理、碳中和等新领域时,研究者需要考虑是否重新训练模型或者更换特定领域的预训练模型。
另一个问题是某些模型本身的固有缺陷问题,例如主题模型的不稳定性。约翰·威尔克森(John Wilkerson)等就曾对这一问题进行了详细说明。下面举例说明:
首先使用大模型自动生成一个包含多个政治性词汇列表的文档;其次通过Gensim库中的doc2bow函数将文档转换成LDA模型所需的词典和“文档-词频”矩阵,再调用LdaModel函数进行主题提取。为了检测模型的稳定性,本文使用一个循环训练,五个包含两个主题的LDA模型;每次训练初始均采用不同的随机种子进行初始化,最终得出结果(见表3)。
可以看出,每一次运行模型所得到的结果都是不相同的。因此,在使用模型时,研究者需要反复检验,通过选择表现最好的初始值和主题模型参数以及数据检验等方式,以得到更加可靠的结果。
(四)伦理端:技术伦理问题
从研究边界的角度看,技术伦理是研究设计中不可回避的问题。具体而言,一方面,数据获取方式可能引发隐私与归属权争议。研究者在采集大数据文本时必须遵循隐私保护原则,避免侵害个人合法权益,并关注数据所有权的规范界定。这一问题近年来已成为政治学与法学界的讨论重点,多个国家也纷纷出台政策法规,对大语言模型等技术的使用进行监管,以尽量避免技术应用中的伦理风险。因此,研究者在利用自然语言处理等技术进行政治学研究时,必须认真考虑数据获取方式可能带来的伦理问题,并采取相应的措施以防范和解决。
另一方面,自然语言处理的滥用可能对学术研究带来误导。自然语言模型本身可能从大数据中习得偏见与歧视,导致研究结果的准确性受损。例如,社交媒体中带有强烈政治倾向的言论在偏不平衡数据集过度代表,容易造成对人们意识形态的扩大化解读。同时,预处理和数据筛选标准的差异,也可能在相同模型和数据条件下产生截然不同的结果。不少研究者在缺乏对模型与方法深入理解的情况下,容易忽视这些差异,进而得出片面或简单化的结论。尤其要防止一部分研究者通过调整训练规则有意迎合特定理论或预设结论,从而背离了科学研究追求客观与真实的基本原则。
综上而言,大数据时代和新兴技术涌现,在为科学研究提供多样化工具的同时,也可能滋生出使用此类工具的道德风险。这提醒学者在使用自然语言处理等进行研究时需注重安全伦理问题,不仅在获取文本时需注意数据隐私与知识产权归属,而且要保持研究成果的透明度与可解释性,避免“技术黑箱”的产生。
五、结语
随着大数据时代的到来,自然语言处理的发展为政治学乃至整个社会科学研究带来了全新的研究方法和研究内容。它实现了一项从前研究难以完成的工作——在低成本条件下对大规模文本集合进行系统而又快速的分析。同时,也需认识到,自然语言处理作为一项技术手段,也不可避免会存在局限性。对于传统的政治学研究者来说,自然语言处理意味着较高的技术门槛,可能会加深政治学研究领域的技术分化。但实际上,无论自然语言处理多么复杂,它终究只是一种研究工具,并不能代替政治学研究本身。因此要格外警惕“技术万能论”的到来。
目前来看,自然语言处理模型中存在的不确定性仍然是其应用于政治学研究最主要的挑战之一。自然语言的复杂性意味着所有的机器学习方法永远无法完全取代人工对文本的仔细阅读。将自然语言处理作为强调阅读与分析的补充,通过自然语言处理,从更多维度去解读政治现实,从而助推理论的提升,这才是需要政治学研究在未来倒置的最佳路径。因此,未来大数据政治学或计算政治学的努力方向应当是探索人工手段与机器手段、传统方法与新兴技术互动协作的工作方案,以解决复杂问题,实现理论和方法的真正进步。如何使以自然语言处理为代表的新技术与传统研究方法交融与互补,应当是未来政治学乃至社会科学需要着重关注的重要问题之一。