定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页).pdf》由会员分享,可在线阅读,更多相关《浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页).pdf(42页珍藏版)》请在薪酬报告网上搜索。
1、人类经验与AI算法的镜像之旅报告提纲语言的奥秘:人类如何解码世界DeepSeek-R1:推理模型的诞生与突破从符号到智能:AI的语言理解之路智能体时代:AI如何重塑教育未来DeepSeek-V3:大语言模型的构建与进化维克多-D.O.-桑托斯语言对我们有多重要语言造就了人类,人和动物的根本区别就是人具有创造性地运用语言的能力语言赋予人类秩序语言是思维的工具语言是合作的纽带如果想要实现通用的人工智能,理解人类使用的不太精确、可能有歧义、混乱的语言是一个有效途径。语言对我们有多重要,光明日报,刘松青,2019-06-01 维克多-D.O.-桑托斯的是什么让我们成为人类维克多-D.O.-桑托斯人类是
2、如何理解语言的?下雨了我要赶紧回家.“下雨”/“家”/“收衣服”这些词语,基于我们的经验,在我们大脑中已经建立了固定的神经连接。维克多-D.O.-桑托斯人类是如何理解语言的?下雨了我要赶紧回家收衣服。人类大脑通过理解每个词语的意思、进行词语组装,从而得到句子的意思,甚至推断出句子背后的含义。因此,理解语言的基础是理解词语及词语间的关联关系。人类是如何理解语言的?人类语言的精准解译与语义歧义的消解具有显著的语境依赖性,需通过系统性整合上下文信息构建语义解析模型。这个苹果品质真高 ,已通过欧盟有机认证,每颗果实都带有 NFC 溯源标签。报告提纲语言的奥秘:人类如何解码世界DeepSeek-R1:推
3、理模型的诞生与突破从符号到智能:AI的语言理解之路智能体时代:AI如何重塑教育未来DeepSeek-V3:大语言模型的构建与进化计算机的数字化世界Towards Seamless Communication for Sign Language Support:Architecture,Algorithms,and Optimization计算机理解一切信息的基础是将信息进行数字化。在处理图像时,计算机会将图像的每一个像素转换为数字信号,通常使用颜色的RGB值来表示每个像素。语言的数字化计算机无法直接理解离散的人类语言词向量(word embedding)和词与词之间的位置关系词向量及单词之间的
4、相似度 欧式距离:两个点(或向量)在空间中的“直线距离”。它反映了两个向量的绝对差异。欧氏距离值越小,说明两个向量越接近;值越大,说明差异越大。余弦相似度:两个向量之间夹角的余弦值来衡量它们的相似度。它反映了两个向量的方向是否相似,而不关心向量的大小。更适用于比较两者相似性(如文本相似度)。dogcatman词向量模型的缺陷 在序列数据中,同一个元素处在不同的上下文中意思是不同的。如:(1)The animal didnt cross the street because it was too tired.(那只动物没有过马路,因为它太累了。)(2)The animal didnt cross
5、 the street because it was too wide.(那只动物没有过马路,因为马路太宽了。)然而,传统的词向量模型中同一个词只有一个向量,这对于一些词语会造成歧义问题,如何解决这个问题呢?https:/jalammar.github.io/illustrated-transformer/注意力机制与上下文建模 大语言模型通过使用Transformer架构,可以为每个词生成一个上下文相关的词向量,这解决了传统词向量无法处理多义词和上下文依赖的问题。一个单词的真实含义,不仅仅取决于它自身,还取决于句子中的其它上下文信息(来自其它单词的信息)。一个单词的向量值,需要融合从句子上下
6、文中的其他单词中的信息,在数学上可以表达为所有单词的向量值的加权平均。这些权重值,我们可以称之为注意力权重(attention weights)。it与其他单词之间的注意力权重。蓝色的深浅表达了权重的相对大小。https:/jalammar.github.io/illustrated-transformer/报告提纲语言的奥秘:人类如何解码世界DeepSeek-R1:推理模型的诞生与突破从符号到智能:AI的语言理解之路智能体时代:AI如何重塑教育未来DeepSeek-V3:大语言模型的构建与进化数学家陶哲轩:不是魔法,基于数学的猜测机,基于概率的猜想机文字接龙游戏大语言模型(LLM)最令人印象
7、深刻的能力是它能够通过对话的方式回答用户的问题。那么LLM回答问题的原理是什么呢?不同于传统问答系统中答案来源于现成的网络或者数据库,大语言模型的回答是随着提问的进行自动生成的。这一点很像文字接龙游戏,大语言模型会基于前面的话不断地生成下一个合成的词汇,直到觉得不必继续生成为止。苹果是一种水果吗?是的大语言模型下一个可能的词概率是的0.8不是0.05好吃0.03.下一个可能的词概率苹果0.9香蕉0.06西瓜0.02.下一个可能的词概率确实0.8没错0.09对的0.04.是的,苹果是的,苹果确实被归类为一种水果。王一博,ChatGPT发展史:从基础神经元到多模态智能体,科学杂志DeepSeek-
8、V3 有16B,236B和671B三种配置B:Billion 10亿大模型是如何工作的数学家陶哲轩:大模型不是魔法,是基于概率的猜测机。那么大模型是如何不断生成下一个词的概率的呢?实际上,这一过程依赖于模型内部的参数,这些参数通过大量数据的训练来不断调整,蕴含了数据的分布规律,从而使模型能够在特定上下文下预测出最合适的下一个词。并且,当这些参数单元的数量级提升时,系统的认知能力通常会呈现出显著的进化趋势。-0.012.341.09.DeepSeek-V3 满血版是671模型B:Billion 10亿(苹果是一种水果吗?)是的大模型的参数实际是什么东西?通俗解释DeepSeek-V3 有16B,
9、236B和671B三种配置B:Billion 10亿大模型是如何工作的Spreadsheets-are-all-you-need:在 Excel 中完全实现了 GPT2 的前向推理过程。大模型的参数实际是什么东西?通俗解释DeepSeek-V3 有16B,236B和671B三种配置B:Billion 10亿大模型参数是如何通过学习得到的?=+y=0.516x+0.8567(高尔顿)父亲身高(米)儿子身高(米)1.651.69 1.721.751.781.801.831.791.901.83希望能够得到一个模型:基于父亲的身高预测儿子的未来身高。类似地,大语言模型的参数也是通过大量数据的学习,逐
10、渐调整和优化的,将数据的规律压缩到参数中,以便对新的数据进行更准确地预测和生成合适的输出。DeepSeek-V3 有16B,236B和671B三种配置B:Billion 10亿大模型训练流程数据集训练耗时模型算法原始数据万亿级别词汇海量数据预训练语言模型预训练预测下一个词基座模型千级别GPU,数月示例:GPT、LLaMA、PaLM指令数据数万提示回复对指令微调语言模型监督微调预测下一个词指令微调模型1-100个GPU,数天示例:Vicuna-13B对比数据百万次比较奖励函数二元分类模型预测偏好一致的奖励奖励模型1-100个GPU,数天指令数据十万次指令强化学习强化学习生成最大化奖励的词强化学习
11、模型1-100个GPU,数天示例:ChatGPT,ClaudeState of GPT,Microsoft Build 2023,Andrej KarpathyDeepSeek-V3 有16B,236B和671B三种配置B:Billion 10亿预训练阶段在模型预训练(Pretraining)环节,系统通过整合多种来源的数据资源构建训练集,这些数据涵盖互联网网页、维基百科、书籍、GitHub代码库、学术文献及社区问答平台等各类数据源,形成总量达万亿单词级的多样化语料库。基于超级计算集群(集成数千块高性能GPU)和分布式训练算法,逐步优化深度神经网络的数千亿参数,最终形成具备通用语义理解能力的基
12、座模型(Base Model)。DeepSeek-V3模型的训练语料库包含14.8万亿词元(Token)。若让一个人每秒读1个词:需要 47万年才能读完,相当于从智人走出非洲开始昼夜不停读到今天。假设每个token是一颗沙粒,14.8万亿颗沙可填满 4.5个北京水立方。DeepSeek-V3 有16B,236B和671B三种配置B:Billion 10亿预训练阶段 预训练阶段的训练方法:完形填空下的自监督学习(Self-supervised Leaning)原话:一辆 列车 缓慢 行驶 在 崎岖 的 山路上预测填空:一辆 列车 缓慢 行驶 在 崎岖 的 山路上移除单词:一辆 列车 行驶 在 崎
13、岖 的 山路上在预训练阶段,人工智能模型会不断地在句子中挖去一个单词,根据剩下单词的上下文来填空,即预测最合适的填空词出现的概率,这一过程为自监督学习。例如:提示词(Prompt)提示词(Prompt):浙江大学的发展历史?理想输出:理想输出:浙江大学前身是创立于1897年的求是书院,1914年停办。1928年于求是书院旧址新建国立浙江大学。1937年举校西迁,在遵义、湄潭等地办学,1946年秋回迁杭州。1952年部分系科转入中国科学院和其他高校,主体部分在杭州重组为若干所院校,后分别发展为原浙江大学、杭州大学、浙江农业大学和浙江医科大学。1998年,同根同源的四校实现合并,组建了新的浙江大学
14、。指令微调阶段 指令微调阶段的训练方法:指令微调(Instruction Tuning),亦称有监督微调(Supervised Finetuning),是一种通过向模型提供明确任务指令来实现参数优化的方法。在此过程中,模型不仅学习输入与输出的映射关系,更重要的是掌握如何理解并执行各类任务指令。该阶段的训练数据通常由少量高质量样本构成,这些样本包含用户输入的提示词(prompt)及其对应的理想输出(response)结果,从而确保模型能够准确理解和响应特定任务需求。提示词(Prompt):浙江大学的发展历史?理想输出(Response):浙江大学前身是创立于1897年的求是书院,1914年停办。
15、1928年于求是书院旧址新建国立浙江大学。1937年举校西迁,在遵义、湄潭等地办学,1946年秋回迁杭州。1952年部分系科转入中国科学院和其他高校,主体部分在杭州重组为若干所院校,后分别发展为原浙江大学、杭州大学、浙江农业大学和浙江医科大学。1998年,同根同源的四校实现合并,组建了新的浙江大学。指令微调数据示例例如:提示词(Prompt)提示词(Prompt):浙江大学的发展历史?理想输出:理想输出:浙江大学前身是创立于1897年的求是书院,1914年停办。1928年于求是书院旧址新建国立浙江大学。1937年举校西迁,在遵义、湄潭等地办学,1946年秋回迁杭州。1952年部分系科转入中国科
16、学院和其他高校,主体部分在杭州重组为若干所院校,后分别发展为原浙江大学、杭州大学、浙江农业大学和浙江医科大学。1998年,同根同源的四校实现合并,组建了新的浙江大学。奖励建模和强化学习奖励建模(Reward Modeling):构建一个能够评估模型生成内容质量的奖励模型(Reward Model)。在强化学习阶段,模型通过与奖励模型的交互,优化其生成策略以最大化奖励。主要采用基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)方法。模型根据奖励模型的反馈调整参数,从而生成更符合人类偏好的文本。报告提纲语言的奥秘:人类如何解码世
17、界DeepSeek-R1:推理模型的诞生与突破从符号到智能:AI的语言理解之路智能体时代:AI如何重塑教育未来DeepSeek-V3:大语言模型的构建与进化例如:提示词(Prompt)提示词(Prompt):浙江大学的发展历史?理想输出:理想输出:浙江大学前身是创立于1897年的求是书院,1914年停办。1928年于求是书院旧址新建国立浙江大学。1937年举校西迁,在遵义、湄潭等地办学,1946年秋回迁杭州。1952年部分系科转入中国科学院和其他高校,主体部分在杭州重组为若干所院校,后分别发展为原浙江大学、杭州大学、浙江农业大学和浙江医科大学。1998年,同根同源的四校实现合并,组建了新的浙江
18、大学。什么是推理模型Understanding Reasoning LLMs,Sebastian Raschka;DeepSeek-R1赏析,潜云思绪赏析,潜云思绪问题:Joy能在20分钟内读8页书。她需要多少小时才能读完120页书?Joy读5个小时才能读完120页。一个小时有60分钟,20分钟可以分成几组呢?60 20=3组。所以,Joy每小时可以读8页 3组=24页。接着,Joy需要读120页,计算她需要的时间:120 24=5小时。因此,Joy需要5小时才能读完120页书。简单回答带有中间推理步骤的回答推理模型:推理模型是指能够进行复杂推理任务的大型语言模型(LLMs)。这些模型能够处理
19、需要多步推导、计算或分析的问题,通常涉及多个中间步骤。推理模型不仅能够解决基本的推理问题,还能应对更复杂的任务,如解谜、数学证明等。推理模型中的中间步骤可以通过两种方式呈现。首先,它们可能会显式地出现在回答中,如示例所示。其次,一些推理型LLM(如OpenAI的o1)会进行多次迭代,而这些中间步骤则不会展示给用户。例如:提示词(Prompt)提示词(Prompt):浙江大学的发展历史?理想输出:理想输出:浙江大学前身是创立于1897年的求是书院,1914年停办。1928年于求是书院旧址新建国立浙江大学。1937年举校西迁,在遵义、湄潭等地办学,1946年秋回迁杭州。1952年部分系科转入中国科
20、学院和其他高校,主体部分在杭州重组为若干所院校,后分别发展为原浙江大学、杭州大学、浙江农业大学和浙江医科大学。1998年,同根同源的四校实现合并,组建了新的浙江大学。推理模型是怎样炼成的Understanding Reasoning LLMs,Sebastian Raschka;DeepSeek-R1赏析,潜云思绪赏析,潜云思绪例如:提示词(Prompt)提示词(Prompt):浙江大学的发展历史?理想输出:理想输出:浙江大学前身是创立于1897年的求是书院,1914年停办。1928年于求是书院旧址新建国立浙江大学。1937年举校西迁,在遵义、湄潭等地办学,1946年秋回迁杭州。1952年部分
21、系科转入中国科学院和其他高校,主体部分在杭州重组为若干所院校,后分别发展为原浙江大学、杭州大学、浙江农业大学和浙江医科大学。1998年,同根同源的四校实现合并,组建了新的浙江大学。推理模型R1-Zero是怎样炼成的纯强化学习DeepSeek-R1-Zero的模板。在训练过程中,prompt将被替换为具体的推问题。激励类型准确度激励:1+1=?答对2得1分,否则0分格式激励:是否遵循 的格式,遵循得1分,否则0分没有推理过程的激励!训练模版Understanding Reasoning LLMs,Sebastian Raschka;DeepSeek-R1赏析,潜云思绪赏析,潜云思绪DeepSee
22、k-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。推理模型是怎样炼成的DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。没有用到中间的过程推理数据来监督训练模型!Understanding Reasoning LLMs,Sebastian Raschka;DeepSeek-R1赏析,潜云思绪赏析,潜云思绪DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来
23、解决推任务。推理模型R1是怎样炼成的有监督微调和强化学习 DeepSeek-R1-Zero缺陷:可读性差(poor readability)和语言混淆(language mixing)左脚踩右脚Understanding Reasoning LLMs,Sebastian Raschka;DeepSeek-R1赏析,潜云思绪赏析,潜云思绪DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。模型蒸馏有监督微调 利用DeepSeek-R1和DeepSeek-V3产生的数据进一步微调小规模LLM。超大规模的推理模型
24、产生的数据,可以大幅提升小规模模型的效果。Understanding Reasoning LLMs,Sebastian Raschka;DeepSeek-R1赏析,潜云思绪赏析,潜云思绪报告提纲语言的奥秘:人类如何解码世界DeepSeek-R1:推理模型的诞生与突破从符号到智能:AI的语言理解之路智能体时代:AI如何重塑教育未来DeepSeek-V3:大语言模型的构建与进化DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。DeepSeek+Kimi:自动生成PPT打开Kimi,点击左侧状态栏,找到PPT助
25、手向PPT助手中粘贴刚刚生成的内容DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。DeepSeek辅助编程DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。DeepSeek+即梦AI:生成图片复制生成的提示词到即梦AI中DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。苏格拉底式教学智能体智海-三乐教育大模型InfiAgent
26、推理大模型知识问答逻辑推理构建构建苏格拉底式教学智能体苏格拉底式教学智能体,赋能教与学,实现从,赋能教与学,实现从知识本位教育知识本位教育向向能力本位教育能力本位教育转变转变苏格拉底教学法苏格拉底教学法(Socratic Method)的核心在于,教师并不直接向学生传授知识,而是根据学生已有的知识和经验,通过一系列的问题引导、讨论、问答和辩论,揭示学生思维中的矛盾和不足,促使他们自主地推理和反思,最终得出正确的结论。大模型更多是以知识问答的形式向学生传授知识大模型更多是以知识问答的形式向学生传授知识DeepSeek-R1-Zero在RL过程中训练集上的平均响应长度。DeepSeek-R1-Zero自然地学会通过多的思考时间来解决推任务。苏格拉底式教学智能体习题InfiAgent解题框架解题步骤列表智海-三乐(智能助教)人类教师学生 引导提问修改反馈逻辑推理代码生成1.解题步骤拆解2.苏格拉底式提问3.引导解题 作答检查反馈围绕苏格拉底式教学智能体,构建教与学赋能平台,鼓励学生思考与探索,培养学生批判性思维和自主学习能力,推动教育从知识本位向能力本位转变感谢聆听敬请批评指正