杨贝|裁判文书说理的量化评价——以2017年北京市判决书论证质量调查为例

Original 杨贝中国应用法学 2022-11-21

转载是一种动力分享是一种美德载《中国应用法学》2018年第2期

【摘要】法律论证、概率统计等已为量化评价裁判文书说理提供了充足的理论储备。通过将论证理论转化为说理评价机制，量化评价裁判文书说理完全可能。2017年完成的针对北京市判决书论证质量的调查，充分证明量化评价方案的可能性与可行性。通过调查获取的数据体现了量化评价在描述、发现、分析说理问题方面的显著优势。不过，评价标准、计算方法及调查员等因素对于数据可靠性的影响不容忽视，必须在调查中认真对待、妥善解决。

裁判文书说理已成为近年司法改革的热点，其重要性不言而喻。如果不能确保说理评价的客观性，借助提升裁判文书说理水平以提升司法公信力的愿景就难以变成现实。在诸多客观评价裁判文书说理的方案中，量化评价具有显见的优势。本文拟以最近组织的一次北京市判决书论证质量调查(以下简称“2017调查”)为例，探讨量化评价裁判文书说理的可欲性、可能性、可行性和可靠性问题。
　

一、量化评价裁判文书说理的可欲性

　　随着大数据时代的到来，我国的法治研究也进入了指数化时代，各种法治指标都有了数字化评价。法学研究正在经历“一场新的范式革命。”[1]在这一背景下，可以说，量化评价裁判文书说理是新时代对裁判文书说理研究提出的必然要求。2017 调查结果表明，量化评价裁判文书说理不仅是适应时代趋势的顺势之举，更具有以下四个方面的优越性：
　　(一)量化评价可以更直观地描述裁判文书说理状况
　　不同于以往用“优秀”“良好”“不理想”等形容词进行描绘式评价，量化评价方法运用数字标识裁判文书说理状况。事实上，说理不是全有或全无的问题，而是一个程度概念。因此，数字化的表达方式更适合描述说理状况。
　　就单个样本而言，其得分可以让公众直观地了解判决书说理的程度，其失分之处可以让公众直观地了解判决书说理的不足。量化评价还使不同案件的裁判文书说理获得了可比性。传统的质性评价模式下，个案的特殊性常常被放大为阻却裁判文书对比的藩蓠，人们往往只能就个案谈个案，难以将其与其他个案相提并论。量化评价却使各裁判文书说理的优劣变得一目了然。
　　就全部样本而言，整体得分情况将直观地描绘调研对象的说理状况。2017 调查组设计了两套满分分别为100和1的评价标准(以下分别简称“标准I”“标准II”)，通过统计抽检样本的得分，得出下表：
　　表1

　　表1 中的数值清楚地显示，北京市判决书的论证得分普遍较高，但仍存在低分判决。
　　(二)量化分析可以更清晰地总结裁判文书说理的规律
　　各裁判文书说理得失分的汇集整理可以使裁判文书说理的规律变得清晰。2017调查组按不同类型汇总判决书说理得分，使得不同性质、审级、案由判决书的得分规律得以呈现。按照标准II，民事、刑事、行政三类判决书的基本得分情况如下：
　　表2

　　表3

　　表2和表3显示，三类判决书的论证得分都比较高，其中行政判决书的论证高分尤为突出。97份受检的行政判决书中，有80份满分，占比高达82%。整体来看，刑事判决样本得分较为均衡，0.7-1分的判决书数量大致相当。与此相应，0.7-0.8分的刑事判决书占比显著高于民事、行政判决书，这也导致刑事判决书的平均分位居三类判决书之末。另值一提的是，低于0.7分的民事判决书数量显著高于另两类判决书，且此次受检样本的最低分亦为民事判决书，这反映出民事判决书的论证得分区间较大，这与民事判决说理更具自主性有关。
　　(三)量化分析可以更准确地判定裁判文书说理存在的问题
　　通过统计分析裁判文书说理的失分之处，裁判文书说理的主要问题得以显现。尽管直观的经验观察往往也能得出与量化评价相近的结论，但经验观察的准确度不及量化评价。如果说以往的经验观察类似中医的望闻问切，那么量化评价就似西医操作的X光机，它使裁判文书存在的说理问题得到更精确的描述。2017调查共涉及97份行政判决书样本，有17份未获满分。统计发现，其中10份判决书未讨论原告指出的程序违法问题，因其他原因失分的判决书数量则为1-4份不等。这表明，行政判决书说理的最大问题是欠缺关于程序合法性的讨论。又如，在所有未获满分的民事判决中，有三分之一是因为提供最终支持的论据证明力不足，而这一失分原因在刑事、行政判决中极少见到。
　　(四)量化评价为法治的大数据分析提供基础数据
　　大数据为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力，也对人类的数据驾驭能力提出了新的挑战。[2]在法治指数化时代，基础数据的抓取对于准确评估法治现状具有重要意义。量化评价裁判文书说理能为司法、法治评估提供数据支持，毕竟判决书是法院与当事人、律师以至社会公众沟通的主要媒介。不管法院的法定和宪法地位如何，最终是以书面文字作为法院权威的来源和衡量标准。[3]在《中国司法文明指数报告2015》中，指标“9.5司法活动的结果受到信任与认同”就与裁判文书说理紧密相关。[4]该指标目前仅通过一个问题“您对自己所在地区法院司法公信力的满意程度如何？”来测评。[5]不难想见，裁判文书说理的量化评价可以为该指标的测评提供更准确、更可靠的数据。
　　

二、量化评价裁判文书说理的可能性

　　社会科学的成功经验表明，只要以合理的抽象为基础，数学方法可以帮助我们认识、分析、评价甚至预测一些社会现象。量化评价以“概念化”和“可操作化”为必要前提。[6]如果满足这两项条件，量化评价裁判文书说理即为可能。2017 调查组设计的两套评价标准印证了量化评价的可能性。其中标准II是对传统评价模式的颠覆，是依据论证模式理论重构判决书论证之后，依据论证规范、法律规范等赋值、评分。标准II借助论证理论对裁判文书的说理进行结构化抽象，为量化评价提供了有力支持。下文将以标准II为例说明量化评价裁判文书说理的可能性。该评价机制主要由重构、赋值、计算三个环节构成。
　　(一)统一的结构化处理
　　结构本质上是人们在思维层面对事物组成元素的重组。二维空间关系图能够帮助我们清晰地认识论证的结构。[7]鉴于此，标准II基于以下四项假定拟定判决书论证结构图：
　　假定1：论证通过三段论展开。三段论是对人类普遍的思维结构的概括，是基本的思维形式。[8]不论是法律规范的确定，还是法律事实的建构，抑或最终的法律决定的作出，以理性为依归的法律思维过程都离不开三段论的支持。理想的论证是连环进行的三段论。在一个完美的论证体系中，每一个论断都应该有两个以上的论据支持。除了最终的结论与最后出现的论据之外，论证过程中的论断都具有论据与结论的双重属性。一个理想的论证结构可能如下图所示：
　　

　　图1[9]
　　假定2：简略三段论在必要的情况下允许存在。所谓简略三段论就是省略了大前提或者小前提或者结论的三段论。[10]亚里士多德认为，所有的简略三段论最终都能还原成三段论。但是因为听众喜欢能让人预知结论又不流于肤浅的三段论，所以言说者应当精炼其表达方式，以取得赢得听众的效果。[11]一个好的简略三段论就是听众能自行补充被缺省的前提或结论的简略三段论。如果听众无法自行补充缺省的前提或结论，就意味着简略三段论在此不能适用，论证者应当将三段论中的前提与结论补充完整。可以想见，如果论证过程中允许存在一定的简略三段论，而图1中的L2-4、 L3-4与L3-6能由听众自行补充(甚至在人们的日常思维中毋须补充)，那么图1中的论证结构就会变更为下图：
　　

　　图2
　　假定3：论证存在结构层次。图1、图2说明，不同的论据在论证结构中的位置不一。根据这些论据(论断)距离最终结论的远近，我们可以将它们划分为不同的层次。位于同一层次，支持同一论断的论据为平行论据，如图1中L2-1、L2-2、L2-3、 L2-4；位于不同层次，支持同一论断，存在递进关系的论据为纵向论据，如图2中的L1-1、L2-3、L3-4。
　　假定4：论证存在终点。就理想状态而言，每一个论断的得出都应当有论据支持。但这样一种设定不免陷入明希豪森的三重困境：无穷论证、循环论证与戛然而止。[12]在第一重困境下，论证将永无休止地继续下去，这不符合司法活动的效率原则；在第二重困境下，之前出现过的结论成为后续论证的论据，从而陷入循环论证，这不符合理性原则，也容易为法官擅权提供便利。因此，我们不得不在某一特定时刻人为地中断论证。这虽然可以被视为第三重困境，但只要终止的节点选取得当，仍符合理性思维。在论证结构体系中最后出现，位于结构图末端的为末端论据，如图2中的L2-2、 L3-4等没有进一步论据支撑的论据。理论上，末端论据应当是终止性论据，应当具备理性地终止论证的能力。[13]
　　(二)合理的评价与赋值
　　法律论证理论已就各类判决理由及推论关系的证明力进行充分研究并给出各自的认定，其中的共识成为赋值的基础。如图1、图2所示，最终的判决证成程度(即裁判文书说理强度)其实由位于结构图最下端的末端论据的证明力层层传递而来。因此，初始赋值仅涉及末端论据的证明力与论据的支持力两部分。具体赋值如下：
　　1.末端论据的证明力赋值
　　评判末端论据的证明力，主要考察该论据是否具备不证自明的特质，换言之，可否作为终止性论据。根据末端论据与终止性论据相符合的程度，可以将末端论据划分为三种类型：终止性论据，需要进一步论述的论据以及本身无效的论据。
　　终止性论据具有充分证明力，论证人不必就此提供进一步的论据。它可以分为确定终止性论据与推定终止性论据。前者主要包括法律明文规定、自然规律(定理)以及双方共同承认的事实；后者则主要包括生效法律文件确认的事实、众所周知的事实与主流意见。二者的区别在于，前者在任何情况下都可以起到结束论证的作用，而后者在面临挑战时必须继续论证。需要进一步论述的论据不具有不证自明的特质，其内容或意义需要进一步的证明，证明力相对终止性论据较弱。本身无效的论断则因不符合论证规范而不能称为支持性论据，也不体现在论证结构中，其对判决的证成有害无益。最终，标准II形成了终止性论据赋值为1，需进一步论述的论断赋值为0.5，本身无效的论断不计分的赋值体系。
　　2.论据的支持力赋值
　　论证理论通常认为，法律判断的证成程度就是该判断的可接受程度。法律判断的可接受性系由论据的可接受性传递而来，因此，法律判断的证成程度取决于论据的证明力和支持力，前者是指论据自身的说服力，后者则指论据能在多大程度上支持论断。根据支持程度不同，论据的支持力可分为四种情形：必然性支持、不充分支持、或然性支持和不支持。其中，必然性支持指上层论断是下层论据的必然结果，不充分支持指推论不符合简略三段论要求，隐藏了本应列明的前提(通常为规范性前提)，或然性支持指论断与论据之间不具备必然关系，不支持则指下层论据与上层论断之间不具备相关性。该四种支持关系的赋值设为1，0.75，0.5和0。
　　(三)科学的计算方法
　　由于判决的证成程度是由末端论据层层推导的结果，论据的支持程度实际反映的是其传递可接受性的能力，由此，判决的证成程度其实是一个概率问题：即，在论据具备可接受性的概率为P(A)，其提供支持的概率为P(S)的前提下，最终判决具备可接受性的概率是多少。概率统计理论为此提供了基础支持。
　　标准II以贝叶斯网络为原型，主要采取乘法计算判决证成程度。贝叶斯网络是基于推理的图形化网络，该网络中的每个节点(即箭头)代表因果关系，且每一因果关系都是独立的。换言之，假设A1→ A2→ A3→ A4，其中A1能够推出A2，与A2推出A3、A3推出A4没有关系。因此，A1,A2,A3,A4共同存在的几率为：
　　A1推出A2的几率× A2推出A3的几率× A3推出A4的几率×初始因果关系A1为真的几率
　　将此公式代入图2就可以清晰地看到，图2中L1-1的可接受程度取决于L3-4自身的证明力(可接受性)，以及L3-4对L2-3，L2-3对L1-1的支持程度。因此，在L1-1只有L2-3一个论据的情形下，其可接受程度的计算公式如下：
　　P(L1-1)=P(AL3-4)×P(SL3-4)×P(SL2-3)
　　然而，正如图2所示，L2-3并非L1-1的唯一论据，L1-1其实由L2-1,L2-2和L2-3共同支持。此时，运用除法的平均值和运用加法的全概率计算法等都有可能被纳入，这取决于裁判文书的具体类型。
　　

三、量化评价裁判文书说理的可行性

　　2017调查系首次大规模运用前述评价模型对判决书论证质量进行量化评价。调研过程及结果表明，裁判文书说理的量化评价完全可行。
　　首先，2017调查实现了对全部受检样本的说理重构，以结构图的形式梳理了受检判决书的论证思路，并按上文的计算方式进行评分。单个样本的具体计算过程如下图示：
　　

　　图3
　　其次，2017调查组对调查员进行为期1个月的培训，以小组讨论的形式反复校验评价标准的适用过程，尽量消除调查员主观因素的影响。通过比照各调查员的给分过程和给分结果发现，大多数调查员往往就相同判决书的论证质量给出相同评分。
　　再次，2017调查组设计的两套量化评价机制呈现出相近的得分结果。2017调查组设计的标准I是一套内含3项一级指标、7项二级指标、20项三级指标，满分为100分的评分表。调查组抽选了23份判决，同时适用标准I、II进行评估，结果发现，大部分判决的评分结果趋同。[14]两套标准的评分趋向基本一致，23个案例中仅有6个案例没有实现同向波动。具体如下图示：
　　

　　图4
　　不止如此，如下图所示，大部分案件的分差都在10分以内。
　

　　图5
　　最后，2017 调查组的量化评价结论与以往的质性评价结论一致。通过统计受检样本的失分点，调查组对北京市判决书论证存在的问题进行了总结，指出北京市判决书写作存在论证思路不清晰、论据运用不适当、法律依据不完整等问题。这与许多专家学者根据直观的经验观察得出的结论一致。[15]
　

四、量化评价裁判文书说理的可靠性

　　2017 调查获得的基础数据为评价北京市判决书的说理水平提供了客观依据，为过往专家学者对于判决书说理给出的评价提供了数据佐证。然而，越是依赖大数据，越须警惕数据的可靠性。2017 调查虽然完成了对全部受检样本的评分，但调查过程中出现的插曲折射出影响裁判文书说理评分可靠性的三大因素：评价标准、计算方法和调查员。
　　(一)评价标准对可靠性的影响及校正
　　评价标准直接反映评价人的说理理念。在司法机关尚未颁布统一的说理规范之前，评价标准只能是评价者基于自己的理解作出，量化评价的结果可能受到评价者主观偏好的影响。2017 调查采用的两套评价标准均经历过数十个版本的迭代。每次更新后都会对样本进行试评分，而评分结果每次都有不同。以标准I为例，标准I涵括20 个三级指标，其中一项为“争议焦点的写明”。显然，这一指标的设立是基于判决书应当列明案件争议的假设。在现有裁判文书制作规范并未就此作出明确要求的情况下，23份接受标准I检验的样本中有19份失分。可以想见，如果删除或变更这一指标，受检样本的得分将普遍上升。
　　鉴于此，最大程度保证评价标准的可靠性的方案是出台统一的说理规范。将说理规范转换为评价标准的路径既可以避免“不教而诛”的指责，也可以实现评价标准的一致化，避免因评价者的主观认知差异而产生迥然不同的评价结果。
　　(二)计算方法对可靠性的影响及校正
　　选择与评估对象相适应的算法是获取准确数据的关键。2017 调查过程中对计算方法的调适显现出计算方法的重大影响。
　　在比照标准I、II的评分结果时，调查组发现，计算方法是导致评分差异的三大原因之一。[16]标准I以加减法为基本计算方法，标准II则以乘除法为基本计算方法，这使得基于评估范围、评估方式导致的评分差异被进一步放大。原因在于，加减法的运用将使得各项得分对最终得分产生直接的、不可修复的影响；而乘除法的运用则使得各项得分对于最终得分仅产生间接的、渐趋弱化的影响。
　　在适用标准II的过程中，调查组发现，上文的平均值算法面临与构成要件理论的潜在冲突。例如，就名誉侵权案而言，《最高人民法院关于审理名誉权若干问题的解答》(以下简称《名誉权解答》)第7条对侵害名誉权的构成要件进行了规定：“是否构成侵害名誉权的责任，应当根据受害人确有名誉被损害的事实、行为人行为违法、违法行为与损害后果之间有因果联系、行为人主观上有过错来认定。”四项要件缺一不可，构成要件的欠缺将严重影响法律判断的证成。一律求平均值的做法不能体现对这一欠缺的否定性评价。为此，调查组将这一层级的论据的计算方法加以调整。不论判决书实际就几项构成要件展开论述，都必须除以法定构成要件数。
　　由上，选择适当的计算方法取决于两方面要素：一是关于概率统计学的知识，二是拟评价的判决的实质法律依据。
　　(三)调查员对可靠性的影响及校正
　　2017调查共招募20余名在读法学专业学生作为调查员。通过观察调查员的评分过程，调查组发现了两项影响评分结果的因素。
　　其一是调查员的知识储备与人生经验。这项因素直接影响调查员对受检判决书说理是否充分的判断。标准II要求法官在判决书中列明其作出法律判断的全部依据。虽然法官们在审案时的确沿循了相关司法解释的思路，但判决书往往并未列明。2017调查选取的刑事判决书限定为非法集资犯罪，有15.6%的判决依据退赔情节减轻了被告人的刑罚，却没有引用《最高人民法院关于审理非法集资刑事案件具体应用法律若干问题的解释》(以下简称《非法集资解释》)第3条的规定。[17]如果调查员并不了解《非法集资解释》的内容，必然发现不了法官此处缺失。此外，调查员的人生经验在其就法官论述，尤其是民事判决书中的论述是否充分，论据是否具有支持力，法官的论证是否构成简略三段论等作出判断时影响显著。
　　其二是调查员的逻辑思维能力。标准II评估的是隐藏在判决书中的论证结构，这要求调查员具备较强的逻辑思维能力。以下是两位调查员就同一判决书做的结构图：
　　

　　图6
　

　　图7
　　显然，不同的调查员对判决理由的理解有所不同，在提炼判决理由并进行重构时出现偏差在所难免。
　　调查组主要通过培训及小组讨论的形式保证评价的一致性。调查组对调查员进行了为期一个月的培训，期间向调查员讲授论证的基本知识和评价机制的设计，重点讲解评价方法。正式调查开始后，将调查员分为若干小组，小组定期汇总、讨论调查员在评估个案中遇到的问题，必要时提交调查组讨论。
　　总之，裁判文书说理的量化评价不能完全形式化，关于具体问题的探讨必须深入实质，与法律专业知识相结合。鉴于此，裁判文书说理的量化评价工作必须委托给专业人士，并对专业人士进行说理评价的专门培训。调查过程中还需建立小组讨论等纠偏机制，促进评价的一致性。不过，大数据时代对精确度的依赖大幅减少。“除了纠结于数据的准确性、正确性、纯洁度和严格度之外，我们也应该容许一些不精确的存在。数据不可能是完全对或完全错的。当数据的规模以数量级增加时，这些混乱也就算不上问题了。”[18]
　　

结语

　　2017调查证明了量化评价裁判文书说理的可欲性、可能性、可行性，也指出了量化评价在可靠性方面值得注意的问题。尽管法律论证理论为量化评价提供了坚实的理论基础，但这次调查也显露出论证理论不足以支撑全部的说理评价。一方面，论证理论的一些预设可能在实践中碰壁。例如，依据法律论证的融贯性原则，当论证的链条越长，论证的融贯性就越强，论证也就越为充分。[19]但在实践中，往往是层次少的论证容易得高分。评分结果表明，丰富的纵向论据与平行论据并不一定带来理想的评价结果，反而容易陷入“言多必失”的魔咒。另一方面，在评价裁判文书说理的过程中，徒论证理论不足以自行，它还必须与诉讼制度、证据制度及司法实践紧密结合，才有可能形成客观、合理、现实可行的评价标准。　

责任编辑：王文君本文省略注释敬请谅解

作者单位：杨贝，对外经济贸易大学法学院副教授，司法判决研究中心主任。本文系北京市社科基金项目“北京市判决书论证质量调查”(项目号：15FXB021)研究成果。文中数据来自受该项目支持的北京市判决书论证质量调查。该调查历时2年，前后共有23位法学专业学生参与调研，为评价标准的完善、基础数据的抓取作出了重要贡献。

·END·

《中国应用法学》

欢迎关注

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

杨贝|裁判文书说理的量化评价——以2017年北京市判决书论证质量调查为例

您可能也对以下帖子感兴趣

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

生成图片，分享到微信朋友圈

杨贝|裁判文书说理的量化评价——以2017年北京市判决书论证质量调查为例

您可能也对以下帖子感兴趣