登录社区云,与社区用户共同成长
邀请您加入社区
近日,在由中央网信办指导,北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI),包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0,并在20
大规模图像-文本预训练模型实现了零样本分类,并在不同数据分布下提供了一致的准确性。然而,这些模型在下游任务中通常需要微调优化,这会降低对于超出分布范围的数据的泛化能力,并需要大量的计算资源。论文提出新颖的Robust Adapter(R-Adapter),可以在微调零样本模型用于下游任务的同时解决这两个问题。该方法将轻量级模块集成到预训练模型中,并采用新颖的自我集成技术以提高超出分布范围的鲁棒..
在数字化浪潮的推动下,人工智能技术的飞速发展正深刻改变着各行各业的面貌。作为人工智能领域的核心驱动力之一,大模型以其强大的数据处理与学习能力,在通用领域展现出了初步而广泛的场景应用能力。然而,当我们将目光投向医疗健康、教育等垂直细分领域时,不难发现,大模型的能力尚显不足,难以直接支撑起这些领域高度专业化的需求。这一瓶颈的根源在于模型训练过程中缺乏高质量、行业针对性的数据集作为支撑。
在查看 https://arxiv.org/abs/2407.10671中讨论的预训练和后训练方法之前,我们先简要总结一些核心规格。Qwen 2 模型有5种类型。有4个常规(密集)LLM,参数量分别为5亿、15亿、70亿和720亿。此外,还有一个57亿参数的专家混合模型,其中有14亿参数同时被激活。(由于架构细节不是这次的重点,我不会深入讨论专家混合模型;简而言之,这类似于Mistral AI的M
LoRA微调(Low-Rank Adaptation)是一种用于大型预训练语言模型(LLM)的高效微调技术。它的核心思想是在不改变预训练模型权重的前提下,通过在模型的Transformer层中引入可训练的低秩矩阵来实现模型的微调。这种方法可以显著减少训练参数的数量,从而降低对计算资源的需求。
对话机器人是一个用来模拟人类对话或聊天的计算机程序,本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。在未来几十年,人机交互方式将发生变革。越来越多的设备将具有联网能力,这些设备如何与人进行交互将成为一个挑战。自然语言成为适应该趋势的新型交互方式,对话机器人有望取代过去的网站、如今的App,占据新一代人机交互风口。在未来对话
公司做个大模型助手,需要提取用户query中的人名、公司名和产品名称来进行问答。目前我使用的是bert+crf模型 开源cluer数据+自造的数据,训练数据18w,测试数据1.3w。目前这个方案有些瓶颈,主要表现如下:1、产品名称识别错误 有的时候会把产品名称识别很长2、产品名称简称识别不了,比如招白,这块数据训练集里面是没有的,训练集里面的产品名称是基金全称、基金简称、以及基金代码加上目前都是用
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
预训练(Pretraining)是一个非常消耗资源的工作,尤其在 LLM 时代。随着LLama2的开源,越来越多人都开始尝试在这个强大的英文基座模型上进行中文增强。但,我们如何才能保证模型在既学到「中文知识」的情况下,又不丢掉原有的「英文知识」呢?今天给大家带来一篇 Continue Pretraining 的论文(来自何枝大佬,知乎@何枝),Continual Pre-Training of L