大语言模型综合评测报告2023

文化传媒2023-05-31 InfoQ苏***

1 大语言模型综合能力测评报告2023 1 研究方法说明桌面研究通过对行业公开信息进行桌面研究，资料包括但不限于专业机构学术论文、文章资料、论坛讨论、研究报告、相关厂商产品介绍、相关专家公开演讲内容等。专家访谈 2 InfoQ研究中心针对本次研究定向邀请了国内外的相关专家进行访谈。 InfoQ分析 3 结合桌面研究和专家访谈进行观点沉淀和交流，并经由报告形式对外展示。 2 目录 CONTENTS 01大模型发展背景 02大模型产品特征和核心能力 03大模型产品测评结果和特征 3 04大模型产品未来发展展望 4 大模型发展背景大语言模型诞生阶段 2017 •谷歌推出用于处理自然语言任务的Transformer神经网络架构 2018 •OpenAI发布GPT-1 大语言模型探索阶段 2019 •OpenAI发布GPT-2并部分开源 •谷歌推出BERT模型 2020 •百度推出可以准确理解语义的ERNINE2.0 2021 •OpenAI推出能实现文本生成图像的DALL-E模型 •FaceBook推出CLIP模型 •华为正式发布盘古大模型 •OpenAI推出Codex 大语言模型爆发阶段 2022 •OpenAI推出ChatGPT-3.5 2023 •微软基于ChatGPT发布NewBing •FaceBook发布LLaMA-13B •谷歌发布Bard以应对ChatGPT •复旦团队发布MOSS •OpenAI发布GPT-4并实现图像识别 •百度文心一言发布 •微软宣布将GPT-4接入Office全家桶 •通义千问、盘古NLP、天工3.5、星火等国产大模型陆续发布 •谷歌更新Bard并推出PaLM2模型 •微软宣布Windows系统全方位集成Copilot LaMDA 国PaLM 外PaLM-E T5 ImagenFlan GopherChinchillaGato 基础模型 LLaMAMMS OPT-175B LIMA-65B GPT-4DALL·E2 CodeX BloomT0 BloomZ StableDiffusionStableLM ChatBot BardBingChat 其他应用 AI CedilleAI Copilot Dolly2.0Jurassic-1Jumbo Claude GPT-J6B 悟道文心通义基础模型二郎神源1.0 孟子日日新言犀基础模型混元盘古天河天元大模型星火玉言自研大模型 ChatBot vicuna-13b ChatGPTClaude 其他应用 ColabCopilot ChatJD 从容国内斜杠 WPSAI MathGPT 雪湖·海若序列猴子子曰曹植知海图AI 大语言模型产品研发需要同时具备三大要素，分别为数据资源要素、算法和模型要素、资金和资源要素。InfoQ研究中心分析目前市场中的产品特征，数据资源、资金和资源两要素为大模型研发的基础要素，即必要不充分要素。虽然数据、资金资源为大语言模型研发设置了高门槛，但对于实力雄厚的大型企业仍然是挑战较小的。算法和模型是目前区分大语言模型研发能力的核心要素。算法和模型影响的的模型丰富度、模型准确性、能力涌现等都成为评价大语言模型优劣的核心指标。算法和模型 •模型训练的形式 •涌现出的思维链 •基于人类反馈的学习模型数据资源 •模型参数规模 •训练模型次数 •训练使用的数据集基础要素核心要素基础要素资金和资源 •顶级开发者构建的大规模研发团队 •昂贵的GPU背后的大规模资金投入百亿参数是入场券 GPT-3和LaMDA的数据显示，在模型参数规模不超过100亿-680亿时，大模型的很多能力（如计算能力）几乎为零。大量计算触发炼丹机制根据NVIDIA研究论文里的附录章节显示，一次迭代的计算量约为4.5ExaFLOPS，而完整训练需要9500次迭代，完整训练的计算量即为430ZettaFLOPS （相当于单片A100跑43.3年的计算量）。常见的数据集包括GSM8k、USSE、MMLU、HumanEval等。 O1.模型参数规模 O2.模型计算量 O3.训练使用数据集 •模型在参数规模达到一定程度后，性能首先得到急剧提升，同时涌现许多新的能力。特别是任务所训练的模型适用于更多以前未经训练的任务。涌现对大型模型应用的影响非常重要，只有通过这种能力，我们才能高效地实现模型的泛化，并实现模型的迁移。数据来源：SparksofArtificialGeneralIntelligenceEarlyexperimentswithGPT-4 国际模型参数规模 •GPT-4（OpenAI）未公开，推测为超过50000亿 •PaLM（Google）5400亿 •BERT（Google）4810亿 •GPT-3.5（OpenAI）1750亿 •LaMDA（Google）1370亿 •Galatica（Meta）1200亿 •LLaMDA（Meta）650亿 •Chinchilla（DeepMind）700亿 •Claude（Anthropic）520亿 •Mineva（Google）5400亿 •国内大模型出现大量参数规模大于100亿的模型 •百度研发的Ernie和华为研发的盘古目前是有数据的国内大模型参数规模的领先者国内模型参数规模 >100亿 •ERNIE3.0（百度） •盘古（华为） •MOSS（复旦大学） •遵义（阿里） •言犀（京东） •混元（腾讯） •伏羲（网易） •源1.0（浪潮信息） •行业精灵（云从科技） •八卦炉（达摩院） •元语大模型（莫塔社区） •曹植大模型（达观数据） •紫东太初（中科院自动化研究所） •自研大模型（西湖星辰） •悟道2.0（智源研究院） •国际领先的大模型GPT-4据推测参数规模量级可达5万亿以上国内未公布参数规模 •自研大模型（字节） •1+N认知智能大模型（科大讯飞） •二郎神模型（IDEA研究院） •自研AI大模型（光年之外） •自研大模型（燧原科技） •超拟人大模型（聆心智能） •自研大模型（香依科技） •魔力写作（竹间智能） •自研大模型（MiniMax） •蛋白质大模型（浙江大学杭州国际科创中心）国内模型参数规模 <100亿 •书生3.5（商汤科技） •孟子（澜舟科技） •DriveGPT（毫末智行） •ChatGLM（清华大学）资料来源：民生证券研究院和wiki百科模型训练技术（举例） Prompt-tuningInstruction-tuning ChainofThought HumanFeedback 使用自然语言提示（prompt）的方法，以指导模型生成特定的输出。这种方法的目的是通过对模型进行定向训练，使其在特定任务上表现出更好的性能。通过为模型提供任务相关的指令来指导模型学习的方法。这种方法的目的是使模型更好地理解任务的要求，并提高其生成能力和上下文理解能力。通过分解训练过程为较小的相互关联的任务来训练模型的方法。这种方法的目的是使模型能够理解和维护文本中的思维链，从而生成连贯的、上下文相关的响应。通过人类给予反馈对模型形成奖励机制，帮助模型进行强化学习的训练。这种方法可以在预训练模型和产品投入市场后持续获得反馈，帮助模型增强判断力。训练方式工程化训练方式直接决定大模型产出的效率，根据已经公开的论文解读，现有优秀模型训练方式呈现高度工程化特征。工程化训练方式主要呈现三个特征： 1、详细而严格的规则：对于如何处理数据和什么是高质量数据等给出详细和严格的执行和判断的方法论； 2、明确定义标注意图：如详细说明标注原因，并要求如果标注人员不能完全理解，则迅速跳出流程；基础模型 3、团队培训和考核机制完善：通过李克特评分等方式，持续保证团队处在目标水准以上。自研闭源元模型自研开源元模型在开源模型基础上微调的模型自研闭源元模型：典型代表包括OpenAI的GPT3.5、GPT4等，国内厂商百度的原模型ERNIE3.0、华为的元模型PanGu-Σ等。自研开源元模型：典型代表包括OpenAI的GPT2、Google的BERT等。在开源模型基础上微调的模型：典型代表包括清华大学的ChatGLM-6B、商汤科技和华中科技大学开源中文语言模型骆驼Luotuo等。人才和资本都对大语言模型提出了高密度的要求高密度人才团队高密度资本加持人工智能领域中自然语言处理、机器学习等领域目前均为对开发者要求最高的技术领域之一，需要开发者拥有优秀的教育背景和前沿技术背景。另外，对于团队磨合、经验等要求均较为严格。从目前公布的部分大模型研发团队背景可以看出，团队成员均来自国际顶级高校或拥有顶级科研经验。根据谷歌披露数据，训练参数规模1750亿的大模型，理想训练费用超过900万美元。类似的，计算服务为了实现覆盖的产品和功能范围的广度，要求云服务提供商持续进行产品功能更新和产品矩阵建设来满足用户多元需求，Amazon和Google持续进行大额资本投入以完善产品能力。2022年Amazon和Google的资本性支出分别达583亿美元和315亿美元，并仍然呈现上涨趋势。 11 12 大模型产品核心能力解读行动&解决方案大语言模型将计算机能力从搜索拓展到认知&学习和行动&解决方案层面搜索在大语言模型惊艳世人以前，技术及为人类提供的能力主要集中在信息的检索搜集层面。无论是搜索引擎还是电商娱乐，都在帮助人类在接近零成本的条件下获取无限量信息。认知&学习大语言模型推动了计算机认知和学习能力的拓展。通过海量数据的预训练模型，大语言模型拥有了很多方面接近于人类认知的能力。而在涌现能力的加持下，大语言模型也逐渐拥有了更为准确的逻辑推理能力，这一能力体现为人类的学习能力。随着大语言模型在涌现能力中的不断升级，未来计算机将有极大可能在行动和解决方案层面拥有人类能力或者超越人类能力。大语言模型进阶能力 03更为进阶的理解力人类情感理解和识别其他高阶能力进阶能力 02逻辑推理能力编程能力数学医学法律核心能力 01认知和学习能力概念抽象文字理解视觉识别 15 大模型产品测评结果和特征标号权重一级分类二级分类具体任务测试方法题目类型 1 70% 语言模型的准确性语义理解语言理解能力-词句级古诗文识记、中文分词、中文分词和词性标注、命名实体识别、实体关系抽取知识题、历史题、词句理解题语言理解能力-篇章级阅读理解、故事情节完形填空、幽默检测知识题、商业写作题、文学题、幽默题、中文特色写作题语言理解能力-数据级语言抽象成表格商务制表题语法结构根据给定条件，生成连贯文本摘要生成、数据到文本生成应用写作题、商务写作题、中文特色写作题给出主题，生成连贯文本制作多种类型的文案商业写作题知识问答知识问答知识题、历史题知识误导知识题逻辑推理抽象给定应用场景，执行数学计算任务数值计算数学题、商务制表题非数学逻辑推理 MBA逻辑题逻辑推理题、编程类代码能力编程题上下文理解陌生概念的新词理解幽默题知识题、中文特色推理题语境感知通过语境推测身份商务应用题商务应用写作题多语言能力完成涉及多种语言任务机器翻译、跨语言摘要翻译题多模态能力文生图等多模态问题多模态问题标号权重一级分类二级分类具体任务测试方法题目类型 2 10% 数据基础专家访谈 3 15% 模型和算法的能力专家访谈 4 5% 安全和隐私安全性不会被恶意利用问题测试安全问题隐私性不会泄露用户的个人隐私信息问题测试隐私问题本次测评选取的大模型产品及使用版本海外产品使用版本 gpt-3.5-turboClaude-instantgpt-3.5-tur

点击免费查看完整报告

你可能感兴趣

大语言模型综合评测报告2023

你可能感兴趣

大语言模型综合能力测评报告（2023）

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

大语言模型综合性能评估报告（）

这一指标或可直观反应情绪是否回暖；国内首个音视频多媒体大模型万兴“天幕”正式发布，这家公司在腾讯优图实验室开展的多模态大语言模型测评中，综合得分排名第一

【电报解读】苹果入局生成式Al领域，多模态大模型新一轮浪潮有望开启，这家公司在腾讯优图实验室多模态大语言模型测评中，综合得分排名第一-20240321