ChatGPT Insight | fufu酱のNoteBook

type

status

slug

summary

ChatGPT相关的topic

OPENAI正式开源ChatGPT API

在之前的API版本中使用的是text-davinci-003版本的模型，并不具备上下文对话的功能，并且生成的内容耦合性比较低。最新对外公开发布的API是由gpt-3.5-turbo所驱动的

目前仅有3款开源的，支持微调的模型包括：

GPT-3.5-turbo

text-davinci-003

babbage-002

自己打造专属于自己的ChatGPT

之前需要使用大量prompt调试模型进行上下文学习

现在只需要四个步骤：准备数据→上传文件→创建微调模型→使用微调模型

这样所达到的效果在于：

微调过后的GPT-3.5-turbo 现在可以处理4000多个token，是以前模型的两倍

将指令直接嵌入模型内部，减少了90%的prompt的浪费，从而加快API的调用速度从而实现降低成本的作用

简化其提示所用的prompt

从更高维的角度去看待的话，上述场景仅仅通过文字或语言指示（即“讲解”）可能不足以让模型达到最佳性能。相反，通过实际的“示范”或样本（比如微调中使用的具体数据集）来训练模型，可能会更有效。

微调技术在以下几个常见应用场景中具有显著的效果：

1、设定具体的输出风格、语调、格式或其他感性因素；

2、增强模型在生成输出时的靠谱性；

3、解决模型对复杂Prompt不敏感或无法准确响应的问题；

4、针对特定场景的边缘情况进行特别处理；

5、用于难以用简单Prompt明确描述的新技能或任务。

如何自己搭建一个chatgpt

首先创建一个telegram BOT

点击/start之后，

代码通过轮询函数，每秒钟访问一次telegram服务器并且检查一次是否有新消息出现，之后出现的每一个prompt以json的格式向URL传递请求

然后向API发送请求，重定向到ChatGPT，并且将答案返回到用户

LLaVA-1.5

研究人员通过使用带有MLP映射的CLIP-ViT-L-336px，并添加具有简单响应格式提示的、面向学术任务的VQA数据，大幅提升了LLaVA-1.5的性能。

1. 一个领域中最先进的技术。例如 transformer是NLP领域当前的SOTA技术。

什么是transformer

深度学习模型架构，受到transformer的启发，后续像BERT，GPT也相继推出，它采用了一种全新的架构，更适合处理序列数据。主要由反馈机制和多层前馈神经网络所组成的

Transformer模型还引入了残差连接（Residual Connections）和层归一化（Layer Normalization）等技术，以加速训练和提高模型性能。

由于Transformer能够并行计算，它在处理长序列和大规模数据时更加高效。它在各种NLP任务中取得了巨大成功，如机器翻译、文本生成、文本分类、命名实体识别等。

Transformer模型通过引入自注意力机制（Self-Attention）来改进传统的RNN和CNN模型在处理序列数据上的不足。相比于RNN，Transformer能够更好地捕捉长距离的依赖关系。

传统的RNN模型在处理长序列时存在梯度消失或梯度爆炸的问题，导致难以有效捕捉序列中远距离的依赖关系。而Transformer模型通过自注意力机制，可以在序列中建立全局的依赖关系，同时捕捉不同位置之间的长距离依赖。

自注意力机制通过计算序列中每个位置的注意力权重，将每个位置的表示与其他位置进行交互和整合。这样每个位置都可以通过注意力权重与序列中的其他位置进行直接通信，不再依赖于逐步传递隐藏状态。这种并行计算的方式使得Transformer能够更好地处理长距离依赖，从而提高了模型的性能。

除了解决RNN难以捕获长距离依赖的问题，Transformer模型还具有以下优势：

并行计算：Transformer模型可以对序列中的所有位置进行并行计算，而不需要像RNN那样依赖于顺序计算。这使得Transformer能够更高效地处理长序列和大规模数据。
全局信息：自注意力机制允许Transformer模型在序列中建立全局依赖关系，从而能够同时考虑序列中的所有位置，捕捉更丰富的语义和结构信息。
残差连接和层归一化：Transformer引入了残差连接和层归一化等技术，可以加速训练过程，提高模型的收敛性和稳定性。

总之，Transformer模型通过引入自注意力机制和其他优化技术，有效地改进了传统RNN和CNN模型在处理序列数据上的不足，能够更好地捕捉长距离依赖，并在自然语言处理任务中取得了显著的成果。

什么是NLP

NLP也就是自然语言处理，是一门研究如何使计算机能够理解和处理人类语言的领域。旨在将人类语言与计算机技术进行结合，使计算机能够理解处理生成人类语言，从而能够实现更加智能自然的人机交互

8个A100，一天就训完

LLaVA模型的架构，是将一个预训练的视觉编码器（CLIP ViT-L/14）与一个大规模语言模型（Vicuna）连接在一起。

这次，研究人员基于LLaVA框架，建立了更强大、更有实用性的基线。

browse.arxiv.org

https://browse.arxiv.org/pdf/2310.03744.pdf

MLP跨模态连接器和合并学术任务相关数据（如VQA），给LLaVA带来了更强的多模态理解能力。

与InstructBLIP或Qwen-VL在数亿甚至数十几亿的图像文本配对数据上训练的、专门设计的视觉重新采样器相比，LLaVA用的是最简单的LMM架构设计，只需要在600K个图像-文本对上，训练一个简单的完全连接映射层即可。

最终的模型在8个A100上，1天内就能训完，并且在各种基准测试中都取得了SOTA。

此外，Qwen-VL在训练时包含了内部数据，但LLaVA需要的，仅仅是公开数据。

毫无疑问，这些经过改进、易于重现的基线能，会为开源LMM的未来提供很有价值的参考。

性能大幅提升，刷新11项SOTA

ChatGPT的一个重要领域就是创建数据库查询，因此创建了一个名字叫做ChatSQL

来自ChatGPT的Transformer的编码器，解码器，从而能够将一个序列转换为另外一个序列

ChatGPT是基于GPT架构而开发的，而理解GPT就需要率先理解GPT的最重要的架构就是—Transformer，首先transformer使用seqseq2框架，从而能够将一个序列转换称另一个序列，同时序列定义了排序，我们需要大量的标记数据来训练这个结构，去解决NLP这类的问题。而Transformer是由两个部分组成：decoder，encoder，他们都很擅长语言文字的表示，而这种熟练程度使我们能够从每个部分构建语言模型，然后再通过堆叠解码器单元，我们可以获得生成式预训练