OpenChat霸榜斯坦福AlpacaEval开源榜首，性能高达105.7% -6parkbbs.com

OpenChat霸榜斯坦福AlpacaEval开源榜首，性能高达105.7% 6park.com

6park.com

OpenLLM在最新评测中，一举击败ChatGPT。 6park.com

一夜之间，全新开源模型「OpenLLM」击败ChatGPT的消息，在网上引起轩然大波。 6park.com

6park.com

根据官方的介绍，OpenLLM： 6park.com

6park.com

- 在斯坦福AlpacaEval上，以80.9%的胜率位列开源模型第一 6park.com

6park.com

- 在Vicuna GPT-4评测中，性能则达到了ChatGPT的105.7% 6park.com

6park.com

最重要的是，如此卓越的性能，只需要6K的GPT-4对话数据进行微调训练。 6park.com

6park.com

项目地址：https://github.com/imoneoi/openchat 6park.com

6park.com

不过Chatbot Arena的「榜单主」提醒称，由于旧的Vicuña eval基准存在一些bias，因此提倡大家迁移到新提出的MT-bench上——从而更好地测评LLM更多方面的能力。 6park.com

6park.com

OpenLLM：只需6K GPT-4对话微调 6park.com

6park.com

OpenLLM是一个在多样化且高质量的多轮对话数据集上进行微调的开源语言模型系列。 6park.com

6park.com

具体来讲，研究人员从约90K的ShareGPT对话中，过滤出来约6K的GPT-4对话。 6park.com

6park.com

经过6k数据微调后，令人惊讶的是，OpenLLM已经被证明可以在有限的数据下实现高性能。 6park.com

6park.com

OpenLLM有两个通用模型，它们是OpenChat和OpenChat-8192。 6park.com

6park.com

OpenChat：基于LLaMA-13B微调，上下文长度为2048 6park.com

6park.com

- 在Vicuna GPT-4评估中达到ChatGPT分数的105.7% 6park.com

6park.com

- 在AlpacaEval上取得了惊人的80.9%的胜率 6park.com

6park.com

OpenChat-8192：基于LLaMA-13B微调，上下文长度为8192 6park.com

6park.com

- 在Vicuna GPT-4评估中达到ChatGPT分数的106.6% 6park.com

6park.com

- 在AlpacaEval上取得的79.5%胜率 6park.com

6park.com

此外，OpenLLM还有代码模型，其性能如下： 6park.com

6park.com

OpenCoderPlus：基于StarCoderPlus，原始上下文长度为8192 6park.com

6park.com

- 在Vicuna GPT-4评估中达到ChatGPT分数的102.5% 6park.com

6park.com

- 在AlpacaEval上获得78.7%的胜率 6park.com

6park.com

模型评估 6park.com

研究人员使用Vicuna GPT-4和AlpacaEval基准评估了最新模型，结果如下图所示： 6park.com

6park.com

Vicuna GPT-4评估（v.s. gpt-3.5-turbo） 6park.com

6park.com

Vicuna GPT-3.5-Turbo评估（v.s. gpt-3.5-turbo） 6park.com

6park.com

另外，值得注意的是，研究者采用的评估模式与Vicuna的略有不同，还使用了证据校准（EC）+平衡位置校准（BPC）来减少潜在的偏差。 6park.com

6park.com

安装和权重 6park.com

要使用OpenLLM，需要安装CUDA和PyTorch。用户可以克隆这个资源库，并通过pip安装这些依赖： 6park.com

6park.com

git clone git@github.com:imoneoi/OChat.gitpip install -r requirements.txt 6park.com

目前，研究人员已经提供了所有模型的完整权重作为huggingface存储库。 6park.com

6park.com

用户可以使用以下命令在本地启动一个API服务器，地址为http://localhost:18888。 6park.com

6park.com

其中，服务器与openai包，以及ChatCompletions协议兼容（请注意，某些功能可能不完全支持）。 6park.com

6park.com

用户可以通过设置以下方式指定openai包的服务器： 6park.com

6park.com

openai.api_base = "http://localhost:18888/v1" 6park.com

当前支持的ChatCompletions参数有： 6park.com

6park.com

建议：使用至少40GB（1x A100）显存的GPU来运行服务器。 6park.com

6park.com

数据集 6park.com

转换后的数据集可在openchat_sharegpt4_dataset上获取。 6park.com

6park.com

项目中所使用的数据集，是对ShareGPT清洗和筛选后的版本。 6park.com

6park.com

其中，原始的ShareGPT数据集包含大约90,000个对话，而仅有6,000个经过清理的GPT-4对话被保留用于微调。 6park.com

6park.com

清洗后的GPT-4对话与对话模板和回合结束时的token相结合，然后根据模型的上下文限制进行截断（超出限制的内容将被丢弃）。 6park.com

6park.com

要运行数据处理流程，请执行以下命令： 6park.com

6park.com

./ochat/data/run_data_pipeline.sh INPUT_FOLDER OUTPUT_FOLDER 6park.com

输入文件夹应包含一个ShareGPT文件夹，其中包含每个ShareGPT对话页面的.html文件。 6park.com

6park.com

数据处理流程包括三个步骤： 6park.com

6park.com

- 清洗：对HTML进行清理并转换为Markdown格式，删除格式错误的对话，删除包含被屏蔽词汇的对话，并进行基于哈希的精确去重处理 6park.com

6park.com

- 筛选：仅保留token为Model: GPT-4的对话 6park.com

6park.com

- 转换：为了模型的微调，针对所有的对话进行转换和分词处理 6park.com

6park.com

最终转换后的数据集遵循以下格式： 6park.com

6park.com

MODEL_TYPE.train.json / .eval.json 6park.com

6park.com

[ [token_id_list, supervise_mask_list], [token_id_list, supervise_mask_list], ...] 6park.com

MODEL_TYPE.train.text.json / .eval.text.json从token_id_list解码的纯文本 6park.com

6park.com

除此之外，研究人员还提供了一个用于可视化对话嵌入的工具。 6park.com

6park.com

只需用浏览器打开ochat/visualization/ui/visualizer.html，并将MODEL_TYPE.visualizer.json拖放到网页中。点击3D图中的点，就可以显示相应的对话。 6park.com

6park.com

其中，嵌入是使用openai_embeddings.py创建的，然后使用dim_reduction.ipynb进行UMAP降维和K-Means着色。 6park.com

6park.com

模型修改 6park.com

研究人员为每个基础模型添加了一个EOT（对话结束）token。 6park.com

6park.com

对于LLaMA模型，EOT的嵌入初始化为所有现有token嵌入的平均值。对于StarCoder模型，EOT的嵌入以0.02标准差进行随机初始化。 6park.com

6park.com

对于具有8192上下文的LLaMA-based模型，max_position_embeddings被设置为8192，并且进行了RoPE（相对位置编码）代码的外推。 6park.com

6park.com

训练 6park.com

训练模型时使用的超参数在所有模型中都是相同的： 6park.com

6park.com

使用8xA100 80GB进行训练： 6park.com

6park.com

NUM_GPUS=8deepspeed --num_gpus=$NUM_GPUS --module ochat.training_deepspeed.train --model_type MODEL_TYPE --model_path BASE_MODEL_PATH --save_path TARGET_FOLDER --length_grouping --epochs 5 --data_path DATASET_PATH --deepspeed --deepspeed_config ochat/training_deepspeed/deepspeed_config.json 6park.com

评估 6park.com

6park.com

要运行Vicuna GPT-4评估，请执行以下步骤： 6park.com

6park.com

1. 生成模型答案 6park.com

6park.com

python -m ochat.evaluation.get_model_answer --model_type MODEL_TYPE --models_path PATH_CONTAINING_ALL_MODELS_SAME_TYPE --data_path ./ochat/evaluation/vicuna --output_path ./eval_results 6park.com

2. 生成基线（GPT-3.5）答案 6park.com

6park.com

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.get_openai_answer --data_path ./ochat/evaluation/vicuna --output_path ./eval_baselines --model_types gpt-3.5-turbo 6park.com

3. 运行GPT-4评估 6park.com

6park.com

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.openai_eval --data_path ./ochat/evaluation/vicuna --baseline_path ./eval_baselines/vicuna_gpt-3.5-turbo.jsonl --input_path ./eval_results 6park.com

4. 可视化和细节 6park.com

6park.com

要获得可视化和绘制评估结果，请使用浏览器打开ochat/visualization/eval_result_ui/eval_result_visualizer.html，并选择./eval_results/eval_result_YYYYMMDD文件夹中的所有文件以显示结果。 6park.com

6park.com

局限性 6park.com

6park.com

基础模型限制 6park.com

6park.com

尽管能够实现优秀的性能，但OpenLLM仍然受到其基础模型固有限制的限制。这些限制可能会影响模型在以下领域的性能： 6park.com

6park.com

- 复杂推理 6park.com

6park.com

- 数学和算术任务 6park.com

6park.com

- 编程和编码挑战 6park.com

6park.com

不存在信息的幻觉 6park.com

6park.com

OpenLLM有时可能会产生不存在或不准确的信息，也称为「幻觉」。用户应该意识到这种可能性，并验证从模型中获得的任何关键信息。 6park.com

6park.com

ChatGPT Plus用户开放代码解析器功能。这是自OpenAI发布GPT-4以来，最强大的功能！ 6park.com

这将允许ChatGPT 运行代码，并且可以访问用户上传的文件，可实现分析数据、创建图表、编辑文件、执行数学运算等复杂操作。 6park.com

其中，数据分析功能非常非常强大，使得很多不会专业代码的业务人员，通过自然语言文本、数据文件等，就能快速创建可视化数据分析图表，适用于销售、人力资源、医疗、制造、媒体、金融等业务场景。 6park.com

6park.com

图片来源：推特截图 6park.com

想使用该功能非常简单，用户只需要在自己的ChatGPT plush账户上启用 Code Interpreter即可。以下是ChatGPT代码解析器的常见用例。 6park.com

6park.com

1、在几分钟内解析数据，例如，你上传了一份音乐市场数据文件到ChatGPT。可以快速分析出音乐市场的总收入、不同国家/地区收入、人均消费等细分数据。 6park.com

2、绘制地理图表：用户只需要上传位置数据，即可获得可视化的GIF动图。 6park.com

3、绘制基本图表：用户只需要提供基本数据、想法就能快速绘制基本图表。例如，你能在平面上绘制10000个随机点吗？每个维度都来自正态分布？ 6park.com

6park.com

4、无需任何数据输入即可绘制公共数据图。可以从国际货币基金组织等公共数据库中获取数据，并无需任何代码操作即可将其可视化。例如，绘制一个2020年全球GDP排名前十的国家。 6park.com

6park.com

5、自动创建雷达图，例如，分析完某用户 300 小时的 Spotify播放列表后，ChatGPT自动生成了雷达图。 6park.com

6park.com

6、调试代码，输入代码帮助开发者快速调试难以理解的算法和模型等。 6park.com

6park.com

7、绘制复杂的数学函数图表，ChatGPT可以在没有任何提醒的作用下，快速绘制出一个函数图表。例如，绘制函数1/sin（x）。 6park.com

6park.com

8、清理数据，可以帮助用户快速删除不必要的数据，例如，删除某个特定的数据集。 6park.com

6park.com

9、颜色提取器，上传图像并提取颜色创建调色板。例如，上传一张PNG图片，解析其中的颜色排列。 6park.com

10、将文本数据可视化，例如，上传一份CSV 犯罪数据，然后让ChatGPT按照特定要求将其实现可视化。 6park.com

6park.com

以上只是部分案例，ChatGPT Plus的代码解析器功能非常强大，几乎日常工作的文件、数据集、代码都能解析。 6park.com

另据OpenAI官网，OpenAI 7月7日宣布，GPT-4 API全面开放使用。现所有付费API用户都可直接访问8K上下文的GPT-4，无需任何等待。 6park.com

6park.com

图片来源：OpenAI官网 6park.com

OpenAI表示，GPT-4是我们能力最强的型号。自3月份以来，数百万开发人员请求访问GPT-4 API，利用GPT-4的创新产品的范围每天都在增长。 6park.com

如今，全球开发者都能使用GPT-4大语言模型，增强自己的应用程序或开发全新的生成式AI应用。我们计划在本月底前向新的开发人员开放，然后根据计算可用性开始提高费率限制。 6park.com

现在，已经正式全面开放，全球开发者都能使用GPT-4大语言模型，增强自己的应用程序或开发全新的生成式AI应用。 6park.com

6park.com

图片来源：OpenAI官网 6park.com

OpenAI表示，我们在三月份推出了聊天补全API，它现在占我们API GPT使用量的97%。 6park.com

最初的Completions API于2020年6月推出，为与我们的语言模型交互提供了自由文本提示。从那以后，我们了解到，使用更结构化的提示界面通常可以提供更好的结果。事实证明，基于聊天的范式非常强大，可以处理绝大多数以前的用例和新的会话需求，同时提供更高的灵活性和特异性。特别是，聊天完成API的结构化界面（例如，系统消息、函数调用）和多回合对话功能使开发人员能够构建对话体验和广泛的完成任务。它还有助于降低即时注入攻击的风险，因为用户提供的内容可以在结构上与指令分离。 6park.com

OpenAI称，基于这些模型的稳定性和生产规模使用的准备程度，我们还推出了GPT-3.5 Turbo、DALL·E和Whisper API。我们正在为GPT-4和GPT-3.5 Turbo安全地启用微调，预计该功能将于今年晚些时候推出。 6park.com

此外，OpenAI还宣布了一些弃用模型和全新的版本。例如，davinci-instruct-beta、gpt- curie-instruct-beta、text-ada-001、text-babbage-001 、text-curie-001 、text-davinci-001 、text-davinci-002 和text-davinci-003由gpt-3.5-turbo-instruct替代。 6park.com

7月6日宣布，即日起向所有付费API客户开放GPT-4 API，而部分旧版本将会在2024年初被淘汰。 6park.com

该公司表示，所有付费OpenAI API 客户目前都可以访问上下文tokens达8K的GPT-4 API ，OpenAI还计划在本月底前向新的开发人员开放访问权限，并根据计算资源开始调高速率限制。OpenAI目前正在对 GPT-4 和 GPT-3.5 Turbo开展微调功能测试，预计该功能将在今年晚些时候推出。 6park.com

此外，OpenAI表示将会在6个月内淘汰一批使用Completions API的旧模型。目前Chat Completions API占该公司API GPT使用量的97%。从2024年1月4日起，使用Completions API的旧模型将不可用。 6park.com

7月7日，OpenAI在官网宣布，GPT-4 API全面开放使用。现所有付费API用户都可直接访问8K上下文的GPT-4，无需任何等待。 6park.com

预计到7月底之前，OpenAI会向全新的开发人员开放GPT-4 API使用权限。 6park.com

此外，OpenAI还推出了GPT-3.5 Turbo、DALL·E和Whisper API。同时将提供安全、可靠的GPT-4和GPT-3.5 Turbo的微调版本，今年晚些时候会推出。 6park.com

6park.com

自今年3月OpenAI发布GPT-4模型以来，全球数以百万计开发者请求访问GPT-4 API，并且利用 GPT-4的创新产品每天都在快速增长。但为了安全、稳定地为客户提供GPT-4服务，开发人员只能以后补申请的方式使用。 6park.com

现在，已经正式全面开放，全球开发者都能使用GPT-4大语言模型，增强自己的应用程序或开发全新的生成式AI应用。 6park.com

6park.com

GPT-4主要功能介绍： 6park.com

1、创造力 6park.com

GPT-4比以往任何时候都更具创造性。可以生成、编辑并与用户一起迭代创意和技术写作任务，例如,创作歌曲、编写剧本或学习用户的写作风格进行生成内容。 6park.com

6park.com

2、视觉输入 6park.com

GPT-4可以接受图片作为输入并生成说明、分类和分析。例如，输入一张包含鸡蛋、面粉的图片，然后加上一句“我用这些原料可以做什么？” 6park.com

ChatGPT回答：你用这些原材料可以做很多选择：煎饼或华夫饼、可丽饼、法式吐司、煎蛋卷或菜肉馅煎蛋饼、乳蛋饼奶油冻或布丁、蛋糕或纸杯蛋糕、松饼或面包、饼干。 6park.com

这只是几个典型的例子，发挥想象可能做更多的东西。 6park.com

（编者注：该功能目前还没有提供给所有OpenAI客户。OpenAI正在与一家名为“Be My Eyes”的合作伙伴进行测试，但尚未没有表明何时会向更广泛的客户群开放。） 6park.com

6park.com

3、更长的上下文处理 6park.com

GPT-4能够处理超过25000个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。例如，可以直接将链接加入到提问内容中。 6park.com

6park.com

目前，已有大量企业通过GPT-4打造生成式AI应用，例如，摩根士丹利通过GPT-4来管理、搜索其庞大的财富知识库。 6park.com

作为财富管理领域的领导者，摩根士丹利维护着一个内容庞大的财富库，其中，包含数十万页的知识和见解，涵盖投资策略、市场研究和评论以及分析师见解。 6park.com

大量信息分布在许多内部网站上，主要是PDF 格式，需要顾问浏览大量信息才能找到特定问题的答案。这样的搜索既费时又麻烦。 6park.com

摩根士丹利将GPT-4嵌入到内部机器人中，可以帮助财务人员快速找到想要的资料并节省大量时间。‍ 6park.com

OpenAI宣布了一个重磅消息：GPT-4 API全面开放使用！这对于所有渴望使用GPT-4的开发者来说是一个令人激动的时刻。无需任何等待，现在所有付费API用户都可以直接访问这一具备8K上下文能力的大型语言模型。 6park.com

自今年3月OpenAI发布GPT-4模型以来，全球数以百万计的开发者纷纷请求访问GPT-4 API。每天，使用GPT-4的创新产品都在迅速增长。然而，为了确保向客户提供安全、稳定的服务，开发人员一直只能通过后补申请的方式使用GPT-4。但是，现在，我们可以庆祝了！GPT-4 API已经正式全面开放，全球开发者都能够利用这一大型语言模型，增强自己的应用程序或者开发全新的生成式AI应用。 6park.com

GPT-4的功能之强大，让我们都为之倾倒。首先，GPT-4在创造性方面表现出色。它不仅可以生成、编辑创意，还能与用户一起迭代创意和技术写作任务。比如，它可以帮助我们创作歌曲、编写剧本，甚至学习用户的写作风格，从而生成更多内容。 6park.com

除此之外，GPT-4还可以接受图片作为输入，并生成相关的说明、分类和分析。以一张包含鸡蛋和面粉的图片为例，GPT-4可以告诉你可以用这些原料做出哪些美食。不禁让人想象，通过这一功能，我们将可以探索更多与图像相关的创作和实践领域。 6park.com

而且，GPT-4还能够处理超过25000个单词的文本，这使得使用长格式内容进行创作、扩展对话以及文档搜索和分析等用例变得更加便捷。举个例子，现在我们可以直接将链接加入到提问内容中，让GPT-4为我们提供更加准确、全面的答案。 6park.com

GPT-4的发布引起了众多企业的关注和应用。比如，摩根士丹利利用GPT-4来管理和搜索庞大的财富知识库。作为财富管理领域的领导者，摩根士丹利维护着一个内容丰富的财富库，其中涵盖了投资策略、市场研究和评论，以及分析师的见解。过去，顾问们需要浏览大量的PDF文档才能找到特定问题的答案，这既费时又麻烦。而现在，通过将GPT-4嵌入内部机器人，摩根士丹利的财务人员可以快速找到所需资料，节省了大量的时间和精力。 6park.com

对于全球开发者来说，GPT-4的全面开放意味着创作之路更加宽广。我们可以更加自由地利用GPT-4的强大功能，创造出更加精彩、引人入胜的内容。无论是开发新的应用程序，还是改进现有的应用，我们都可以从中受益。 6park.com

让我们一起迎接这个激动人心的时刻吧！GPT-4 API的全面开放，将为我们开启无限可能的未来！让我们勇敢创新，创作出属于自己的精彩之作！ 6park.com

GPT-4 API全面开放使用。现所有付费API用户都可直接访问8K上下文的GPT-4，无需任何等待。 6park.com

OpenAI宣布全面开放GPT-4 API，使付费API用户能够直接访问8K上下文的GPT-4，并计划在7月底之前向新开发者开放使用权限。除此之外，OpenAI还推出了GPT-3.5 Turbo、DALL·E和Whisper API。本文将分析GPT-4未来的发展，并探讨中国在全面放开模型训练方面的可能性。 6park.com

6park.com

GPT-4的未来发展： 6park.com

强大的语言理解和生成能力：GPT-4是一种大型生成式AI模型，具备更强大的语言理解和生成能力。它能够更好地理解上下文，生成更准确、连贯的回答和内容。 6park.com

应用程序增强：GPT-4的全面开放为全球开发者提供了使用大语言模型增强应用程序的机会。开发者可以利用GPT-4为自己的应用程序提供更智能、更人性化的交互体验，从而提升用户体验和功能性。 6park.com

6park.com

企业应用：许多企业已经开始使用GPT-4来打造生成式AI应用。例如，摩根士丹利利用GPT-4来管理和搜索其财富知识库，进一步提升了其财富管理服务的效率和精确度。这表明GPT-4在企业领域有广泛的应用潜力。 6park.com

微调版本的推出：OpenAI计划推出安全、可靠的GPT-4微调版本，以满足不同行业和领域的需求。这将进一步提升GPT-4的适用性和灵活性，并促进其在更多领域的应用。 6park.com

模型训练的持续改进：通过不断的模型训练和改进，GPT-4可以在语言理解和生成方面实现更高的准确度和质量。随着时间的推移，GPT-4有望成为更加智能和可靠的AI模型。 6park.com

6park.com

中国未来在全面放开模型训练方面的可能性： 6park.com

中国在人工智能领域有着强大的实力和潜力。然而，全面放开模型训练对于中国来说仍然面临一些挑战。 6park.com

数据隐私和安全：在全面放开模型训练的过程中，数据隐私和安全问题是一个重要的考虑因素。中国需要建立完善的数据保护法律和技术措施，以确保用户数据的安全性和隐私。 6park.com

6park.com

技术研发和创新：中国在人工智能技术研发和创新方面取得了显著进展，但仍需进一步加强。全面放开模型训练需要具备高水平的技术研发能力和创新能力，以推动人工智能技术的发展。 6park.com

数据资源和合作：全面放开模型训练需要大量的数据资源支持。中国需要加强与企业和机构的合作，共享数据资源，并建立开放的数据生态系统，以促进模型训练的发展。 6park.com

人才培养和科研投入：中国需要加大对人工智能人才的培养和科研投入。培养具备人工智能领域专业知识和技能的人才，将对全面放开模型训练的成功起到关键作用。 6park.com

GPT-4的全面开放为全球开发者提供了强大的语言模型，能够增强应用程序的功能和用户体验。未来，GPT-4有望通过不断的模型训练和改进，实现更高的准确度和质量。对于中国来说，在全面放开模型训练方面仍面临一些挑战，但通过加强数据隐私保护、技术研发和创新、数据资源合作以及人才培养和科研投入，中国有望迎头赶上并在人工智能领域取得重要突破和进展。 6park.com

谷歌、UC 伯克利等证明 MoE + 指令调优起到了 1 + 1 > 2 的效果。 6park.com

自 GPT-4 问世以来，人们一直惊艳于它强大的涌现能力，包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而，OpenAI 至今未公开 GPT-4 的任何技术细节。 6park.com

上个月，「天才黑客」乔治・霍兹（George Hotz）在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4，并称 GPT-4 其实是一个混合模型。具体来说，乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统，每个专家模型都有 2200 亿个参数（比 GPT-3 的 1750 亿参数量略多一些），并且这些模型经过了针对不同数据和任务分布的训练。 6park.com

Latent Space 的采访内容。 6park.com

这或许只是乔治・霍兹的一种推测，但这种模式确实有一定的合理性。最近，由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实：混合专家模型（MoE）与指令调优的结合能够让大型语言模型（LLM）的性能大幅提升。 6park.com

论文地址：https://arxiv.org/pdf/2305.14705.pdf 6park.com

稀疏混合专家模型是一种特殊的神经网络架构，可以在不增加推理成本的情况下，为大型语言模型（LLM）增加可学习的参数。指令调优（instruction tuning）是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益，因此提出将 MoE 和指令调优结合起来。 6park.com

该研究在三种实验设置下进行了实证研究，包括 6park.com

在没有指令调优的情况下在单个下游任务进行直接微调； 6park.com

指令调优后对下游任务进行 in-context 少样本或零样本泛化； 6park.com

指令调优后对单个下游任务进行进一步微调。 6park.com

在第一种情况下，MoE 模型总体上不如具有相同计算能力的密集模型。然而，随着指令调优的引入（第二和第三种情况），FLAN-MoE_32B（Fine-tuned LAnguage Net，简写为 Flan，是一种经过指令调优的模型，Flan-MoE 即为指令调优 MoE）在四个基准任务上性能超过了 FLAN-PALM_62B，却只用了三分之一的 FLOPs。 6park.com

如下图所示，在使用指令调优前，MoE→FT 不如 T5→FT。指令调优后，Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2)： 6park.com

看来 GPT-4 采用混合模型还是有点根据的，MoE 确实能够从指令调优中获得更大的收益： 6park.com

方法概述 6park.com

研究者在 FLAN-MOE （是一组经过指令微调的稀疏混合专家模型）模型中使用了稀疏激活 MoE（Mixture-of-Experts）。此外，他们还用 MoE 层替换了其他 Transformer 层的前馈组件。 6park.com

每个 MoE 层可理解为一个「专家」，然后，使用 softmax 激活函数对这些专家进行建模，得到一个概率分布。 6park.com

尽管每个 MoE 层有很多参数，但专家是稀疏激活的。这意味着对于给定的输入 token，只使用有限的专家子集就能完成任务，从而为模型提供了更大的容量。 6park.com

对于具有 E 个专家的 MoE 层，这实际上提供了 O (E^2) 种不同的前馈网络组合，从而实现了更大的计算灵活性。 6park.com

由于 FLAN-MoE 是经过指令调优的模型，因而指令调优非常重要，该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外，该研究将每个 FLAN-MOE 的输入序列长度调整为 2048，输出长度调整为 512。 6park.com

实验与分析 6park.com

平均而言，在不增加任何额外计算的情况下，Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。 6park.com

专家数量。图 4 显示，随着专家数量的增加，初始时，模型受益于更丰富的专门子网络，每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率，从而整体上改善性能。然而，随着专家数量的不断增加，模型性能增益开始减少，最终达到饱和点。 6park.com

图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能：通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出，激活更多的专家会在四个基准测试中提高性能。在这些基准测试中，MMLU-Direct 模型显示出最显著的改进，对于 BASE/LARGE 尺寸的模型，从 38.0% 增加到 39.9%。 6park.com

值得注意的是，与等效容量的密集模型相比，指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型，这些优势进一步放大。例如，指令调优使 ST_32B 的性能提升了 45.2%，而对于 FLAN-PALM_62B，这种改进相对较小，约为 6.6%。 6park.com

当进行模型扩展时，Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。 6park.com

此外，该研究通过 freeze 给定模型的门控函数（gating function）、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示，实验结果表明，freeze 专家模块或 MoE 组件对模型性能有负面影响。 6park.com

相反，freeze 门控函数会使模型性能略有改善，尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。 6park.com

最后，为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距，该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验。 6park.com

最新的大型语言模型GPT-4将通过其API正式开放使用。 6park.com

目前，所有OpenAI的API付费用户（有成功支付历史的）都可以访问拥有8K上下文记忆的GPT-4。并且该公司计划在本月底向新的开发人员开放API访问权限，然后通过算力可用性来调整可用限制。 6park.com

这也就意味着全球开发者都能使用GPT-4大型语言模型，来增强自己的应用程序或开发全新的生成式AI应用。 6park.com

OpenAI周四在一篇博客文章中写道，“自3月份以来，数以百万计的开发人员要求访问GPT-4 API，利用GPT-4的创新产品的范围每天都在增长。” 6park.com

今年3月，OpenAI正式发布GPT-4，该模型可以接受图像和文本输入来生成文本（包括代码），并在各种专业和学术基准上达到“人类水平”，这是对其前身GPT-3.5的改进，后者只接受文本输入。与过往GPT模型一样，GPT-4是使用公开可用的数据进行训练的，包括来自公共网页的数据以及OpenAI许可的数据。 6park.com

GPT-4在上下文窗口方面保持了之前的桂冠，默认为8k个token（token是模型处理文本的基本单位），上限为32k个token。一般来说，上下文窗口更大的模型越能记住最近对话的内容，而窗口较小的模型在对话过程中容易忘记上文内容，导致它们偏离主题。 6park.com

支持任何用例 6park.com

博客文章还指出，“我们设想未来基于聊天的模型可以支持任何使用案例。” 6park.com

OpenAI还计划推出GPT-3.5 Turbo，DALL·E和Whisper的API接口。 6park.com

GPT-3.5 Turbo是OpenAI的另一个文本生成模型之一，但功能较GPT-4较弱；DALL-E 2是OpenAI的图像生成模型；而Whisper是该公司的语音转文本模型。 6park.com

目前图像理解功能还没有提供给所有OpenAI的客户。据悉，OpenAI正在与一家名为“Be My Eyes”的合作伙伴进行测试，但它还没有表明何时会向更广泛的客户群开放。 6park.com

OpenAI还表示，在未来，它将允许开发人员用自己的数据微调GPT-4和GPT-3.5 Turbo，这一功能或将在今年晚些时候实现。 6park.com

淘汰和替代 6park.com

值得注意的是，即使是当今最好的生成式人工智能模型之一，GPT-4也并不完美。它会对事实产生错误认知，有时还会“很自信”地犯一些推理错误，并在一些复杂问题上失败了。 6park.com

对此，OpenAI还宣布将在Completions API中淘汰几个旧版模型，未来的模型将侧重于Chat Completions API，作为该公司优化计算能力的一部分。 6park.com

下图是OpenAI宣布淘汰的旧模型，以及替代它们的新模型： 6park.com

OpenAI将在6个月内淘汰这些Completions API的旧型号。虽然现下这个API仍然可以访问，但从今天开始，该公司将在开发人员文档中将其标记为“遗留”。从2024年1月4日开始，旧的Completions API将不再可用。

所有跟帖: ( 主贴楼主有权删除不文明回复，拉黑不受欢迎的用户 )

打开微信，扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐：

哈佛发现新技术，可以让人类活更久？ 04/13/24
6G通信能力是5G十倍以上？ 02/27/24
华为发布5.5G智能核心网解决方案 02/27/24
微软再放大招，ChatGPT出现现象级应用，A股算法+算力公司最受益 12/26/23
GPT-5、开源、更强的ChatGPT！OpenAI公布2024年计划 12/26/23
37℃不再是人体标准体温？体温是高好，还是低好？ 12/26/23
科学家发现新逆生长分子，2个月让细胞明显改善，或成抗衰爆款 12/26/23
在中国的苹果手机被阉割了哪些部分? 12/10/23
新一代通用处理器龙芯3A6000在京发布 11/28/23
华为终于下定决心，彻底删除“美国代码” 11/27/23
阿里达摩院量子实验室裁撤背后：科技创新的无奈与坚韧 11/26/23
字节舞动第二季度营收飙升 11/14/23

>>>>查看更多楼主社区动态...