作者丨王悦

编辑丨董子博

大模型赛道的竞逐进行到6月,AI 行业的共识正发生着迅速而激烈的变化。

从开始对泛用大模型的追求,到对更具落地能力的行业模型,越来越多的从业者开始发现,如果无法实打实地成为生产力,那么无论是“大模型”还是“AGI”,都不过只是一个被炒热炒红的概念。

“只有被应用到实际生活里,科学技术才能产生价值。”如此坚信着,北京大学信息工程学院助理教授、博士生导师袁粒一门心思,扑在了大模型的应用层开发上。

今年早些时候,袁粒便带领团队开发了一款名为“ChatExcel”的产品,意图利用大模型技术,来帮助用户更高效地完成图表工作,一时间获得了不少好评。

而今天,袁粒和团队又推出了一个新的项目——“ChatLaw”。应用大模型技术,ChatLaw 可以帮助对法律知之甚少的普通人,让他们能够获得一些初步的法律建议,并且还能够进一步地帮助他们,完成分析证据、起草诉状、寻找法律援助中心等工作。

“ChatLaw 可以让老百姓获得专业法律帮助之前,完成律师30-40%的工作。”袁粒对 AI 科技评论表示道。

作为国内首个法律场景下的落地大语言模型产品,袁粒带领课题组和北京大学-兔展AIGC联合实验室,完成了不少工作。

一方面,袁粒和团队收集了大量的公开数据——如法律法条、判例、司法解释等,又通过北京大学的平台,在北大国际法学院和相关的律所收集到了不少私有数据,以及一个比较完备的知识图谱,形成了一套专业的数据库,让 ChatLaw 在法律领域,具有对场景的更好理解能力;

另一方面,大模型常常会“一本正经地胡说八道”,尤其是在专业领域,常常给出失之毫厘,差之千里的结果。为了最大程度上解决困扰大模型的“幻觉”问题,让 AI 能在法律领域保证输出的正确性,ChatLaw 并不是单个大模型“一人成军”,而是由四个分管不同能力的大模型“强强联合”,针对不同的专业法律领域,完成更高质量的生成输出。

在 ChatLaw 的实际测试中,袁粒说,单看法条输出的正确率,已经可以达到80%-90%,偶有错漏;而就给出的法律建议而言,也能达到60%以上的满意度——相较其他大模型产品高出不少。

ChatLaw 在今日已经开启了邀请制的内测,乘这个机会,AI 科技评论和袁粒进行了一场对谈,对有关 ChatLaw 和当下大模型产品的技术判断,讨论了许多先进的认知。

以下是 AI 科技评论与袁粒的对谈实录,雷峰网在不改变原意的情况下做了编辑和调整:


专业数据+知识图谱

让 ChatLaw 变成最专业的法律大模型


AI科技评论:专业数据对于大模型的垂直领域场景理解至关重要,ChatLaw 在数据收集的角度,做了哪些努力?

袁粒:法律领域相较其他比较特殊——很多最高质量的数据,都是公开数据。这其中就包括法律法规、判例文书、司法解释等等。我们的数据处理,主要就是基于这些公开的数据。

同时,我们也获得了一部分比较有价值的私有数据。这部分数据,主要是北大国际法学院,以及这个部分的行业律师事务所,提供给我们的私有数据。不仅如此,他们也对我们的数据集进行了一个专业的加持——具体而言,就是把这些数据集中,再将不行的部分删去。

但总体上,我们最大规模的数据集还是以法律法规为基础的公开数据。

AI 科技评论:具体而言,法律场景会用到的数据有什么特殊性?

袁粒:首先,我们认为法律法条其实是个有限子集,因为条文是有限的。而事实情况,则可能是会多种多样的。

在这样的情况下,用事实来带入法条,这些处理都是有迹可循的。所以,我们是以案例去构建了整个数据的核心,而不是单纯以法条或事件。

除了案例之外,我们还有几套支柱。对于每个案例,我们基于同案同判的原则,对每一种具体的 case 都会有一个律师的标注。

这也是我们数据集非常重要的一个环节,因为它包含了人的专业性在里面,在事实判例和法律之间完成了一个连接。

通过这个图谱,我们可以去对各种各样的法律的案例进行回答;并且也能让模型知道,什么是对的回答,这个非常重要。


“四合一”的架构

让“幻觉”更少出现

AI 科技评论:法律作为一个相当严肃的场景,和医疗、金融区别在哪里?

袁粒:法律这个行业,跟金融、医疗场景有一个比较大的区别——它的流程是非常程序化和标准化的。实际上 ChatLaw 去模拟的,就是一个法院、或者说律师,通过理解用户的事实,然后对他的事实提出对应的法条,然后最终做出整套的判断。

实际上在这套流程中有三个步骤:

归纳事实;

从事实推理到法条;

依据上面的结果,发现争议焦点,进行完整的推理,给出法律建议。

我们的 ChatLaw 虽然是大模型产品,但实际上包了四个模型,但其中放在 GitHub 上开源的只有一个模型。

AI 科技评论:这四个模型分别有什么功能?他们之间是如何协作的?

袁粒:四个模型中,第一个模型是调动模型,负责理解用户的这个语义,再来依据事实,来调度特定的子模型。

余下的三个模型,主要功能是从事实归纳出法律,或者说,法律加争议交锋点去做推理。

对这三个模型,我们在训练的过程中,关键是在训练阶段将对应这个模型专有和特定的知识,在模型里面去大量地输入,再去做特殊处理和强化学习。

那么这样,我们确保模型在一个单独的场景下,它具有非常高的推理能力,这三个模型就能针对专有的问题,完成高质量的输出。

AI 科技评论:1+3的这个模式相当新颖,并且听起来也更能应对专业领域的问题。这个模式,会成为以后行业大模型的新趋势吗?

袁粒:这里面有两个问题。

第一个问题,就是法律场景有它的特殊性。法律是一个非常流程化的场景,但是如果迁移到一个别的领域——比如说教育——它可能就不是这样了。

我认为,可能只会有两到三个特定领域的场景,它会可以使用这种方法,其他的场景应用起来,提升效果可能不会这么大。

第二个问题,是它的投入产出比可能会比较小,因为 ChatLaw 的模式,相当于为一个产品训练了三个模型。

AI 科技评论:在 ChatLaw 研发的阶段,最大的难点在哪里?

袁粒:其实我们现在是有一个瓶颈,它就是我们的调度模型。

因为参数量的问题,我们认为其实百亿级的调度模型,它的效果可能并不那么令人满意,我们之后会把它替换成别的算法。


千模大战下

袁粒的技术判断

AI科技评论:在团队建设上,我们的团队平均年龄有多大?

袁粒:我们的团队不少都是00后,当下有些还正在读研。其中几个比较优秀的同学,比如伯华,负责顶层设计和产品化,是我们项目的主要推动者;以及家熙,负责模型的训练,在科研上非常强。

AI 科技评论:在这样一个年轻的团队里,您观察到,大家对 AI 和大模型有什么新的看法?

袁粒:这一届年轻人都非常理性,从年初开始,团队就在讲,这是这会是一波巨大的科技浪潮,但是团队也同时深知这个过程会比较慢,可能会持续很久。

在这样一个比较慢的赛道,我们从一个商业的角度来说,更应该是“以终为始”。

AI 科技评论:具有一种“终局思维”。

袁粒:是的,我们更关注这个局面下,哪些要素更重要?掌握哪些要素的人会赢?而我们现在做的,就是要去提前把这些成功要素给凑出来。

AI 科技评论:商业化一定是个很重要的要素。

袁粒:没错,但对于 ChatLaw,我们不会急于把它变成一个太商业化的项目。主要是,ChatLaw 的模式,可能并不适合大规模向 C 端收费——毕竟法律帮助是一个低频需求。

现阶段,我认为 ChatLaw 还只是个showcase,是在我们一个名为 ChatKnowledge 这样一个计划中的第一步。

在做这个项目的同时,我们也积累了一整套的能力,包括我们刚才提到的模型调度能力,也包括外挂知识库对生成内容约束等等。

我们慢慢沉淀出来的 ChatKnowledge 这一整套打法,才是未来我们眼中的“终局”。未来我们也会走一些面向企业和政府的项目,来迎接大模型 AI 2.0 的潮流。

(未来,雷峰网(公众号:雷峰网)会关注更多的大模型和 AIGC 赛道优秀创业者,欢迎和本文作者:s1060788086,交流认知,互通有无。)