大模型概述在介绍司法大模型之前,我们先说一下 什么是”大模型“-
大模型,通常指的是大型预训练语言模型(Large Pre-trained Language Models,简称 LPLMs),是一种采用深度学习技术构建的、能够处理和生成自然语言文本的人工智能模型。这类模型通常通过在大规模文本数据集上进行预训练,学习语言的结构、语义和上下文关系,从而能够执行各种语言处理任务,如文本生成、翻译、摘要、问答等。 大模型的特点包括: - 大规模数据训练:这些模型通常在互联网上收集的广泛文本数据上进行训练,这些文本涵盖了多种语言、领域和样式。
- 深层网络结构:大模型包含数十亿甚至数万亿的参数,这些参数在多层神经网络中学习和存储语言知识。
- 广泛的应用能力:预训练的大模型能够通过微调(fine-tuning)适应特定的任务或领域,从而在多种语言任务中表现出色。
- 生成能力:这些模型不仅能理解输入的文本,还能生成连贯、逻辑性强的新文本,这使它们在内容创作、对话系统等领域具有重要应用。
 
流行的技术名词按发音难度排序,ChatGPT 肯定排在前面。 到底它为什么叫做 ChatGPT 呢? 先说 GPT:Generative Pre-Training Transformer Generative 生成式 虽然我们已经习惯了话唠的机器人絮絮叨叨的说个不停,但这只是众多的人工智能模型的一种方式。比如还有识别类的(Congnition):人脸识别,车牌识别这些,还有语音识别,文字识别各种识别任务。(在提到模型的时候,也常常被叫做判别模型,discriminative)。Generative 这个大的种类里面有几个小分支,DALLE 的画图的用的是对抗网络方式 GAN ,AI绘画的Stable Diffusion, MidJourney 走向了另外一个分支,叫做 Difusion,就是扩散模型,而 ChatGPT 又是一个分支,就是转换器 Transformer。 而 Transformer Generative 的语言模型的核心,通俗的说就是「顺口溜」。 当看了足够多的文本以后,发现有一些语言模式是反复出现的。它之所以可以准确的填补「锄禾日当__ 」的空格,不是因为它在自己的大脑子里面重构了一副农民劳动的场景,仅仅是不过脑子,顺口溜出来的。 你问它: 3457 * 43216 = ,它回答 149575912 (这是错的。正确结果是 149397712)。之所以结果的 2 是对的,仅仅因为它读了太多的文字资料以后,隐约感觉到 7 结尾的文字,乘号,6 结尾的文字,和 2 结尾的文字比较「押韵」 从语感上比较像一首诗,所以它就学会了这样的文字,而不是学会了计算。 生成式模型努力解决的问题,就是给定一些字,预测如果是人类会写什么字。 在之前模型BERT ,为了训练,大家常常把一句话中随机几个单词遮起来,让计算机用现有的模型预测那几个单词,如果预测准了,就继续加强,如果预测错了,就调整模型,直到上百万上亿次训练之后越来越准。只不过 ChatGPT 的 Generative 的部分,不仅仅把文字,还把上下文、intention(意图)也放进去做训练和预测。 Pre-Training 预训练 以前很多的人工智能模型都是为了一个目标训练的。比如给我 1000 张猫的照片,我就很容易的可以训练出来一个模型,判断一个图片是有猫还是没有猫。这些都是专用的模型。 而 Pre-Training 模型不是为了特定的目标训练,而是预先训练一个通用的模型。如果我有特定的需求,我可以在这个基础上进行第二次训练,基于原来已经预训练的模型,进行微调(Fine- Tuning)。 这事儿就像家里请了个阿姨,她已经被劳务公司预训练了整理家务的知识,在此之前已经被小学老师预训练了中文对话,到了我家里面我只要稍微 fine tune 一些我家里特定的要求就好了,而不需要给我一个「空白」的人,让我从教汉语开始把她彻底教一遍才能让她干活。 ChatGPT 的预训练就是给了我们所有人(尤其是创业者,程序员)一个预先训练好的模型。这个模型里面语言是强项,它提供的内容无论多么的胡说八道,至少我们必须承认它的行文通畅程度无可挑剔。这就是他 pre-training 的部分,而回答的内容部分,正是我们需要 fine tuning 的。 Transformer 转换器 |