登录社区云,与社区用户共同成长
邀请您加入社区
让算力成为公共服务:用大规模的通用计算,帮助客户做从前不能做的事情,做从前做不到的规模。让数据成为生产资料:用数据的实时在线,帮助客户以数据为中心改变生产生活方式创造新的价值。
你是否在微调大语言模型时遇到过显存不足的问题?是否希望在消费级设备上高效训练专业领域模型?本文将带你通过MLX框架的LoRA(Low-Rank Adaptation)实现,以最少的计算资源完成大模型微调。读完本文,你将掌握从环境配置、数据准备到模型训练、评估和部署的全流程,即使在M1/M2芯片的Mac设备上也能流畅运行。## 技术背景:LoRA与MLX的完美结合LoRA技术通过冻结预训练模...
还在为多模态大模型(Multimodal Large Language Model, MLLM)微调的高昂硬件成本而苦恼吗?传统全参数微调动辄需要8张A100,让许多研究者和开发者望而却步。MiniCPM-V团队推出的LoRA(Low-Rank Adaptation)微调方案,仅需**2张V100 GPU**即可完成高效微调,将多模态大模型的门槛降至新低!本文将手把手教你如何使用MiniCPM..
摘要:本文介绍了两项强化学习前沿工作RLPD和RLDG。RLPD提出了一种高效融合离线数据的在线强化学习方法,通过"对称采样"机制(50%在线数据+50%离线数据)和层归一化技术,有效缓解了价值函数过度外推问题,在多个基准测试中实现了SOTA性能。RLDG则采用知识蒸馏框架,先训练精密任务RL策略生成数据,再微调视觉语言模型,性能超越人类演示数据。两项工作分别从数据利用效率和知
在语音识别(Automatic Speech Recognition, ASR)领域,预训练模型如wav2vec2-base-960h已经在通用数据集上取得了优异表现。然而,当面对特定领域(如医疗、法律、技术术语等)的语音数据时,通用模型往往表现不佳。词错误率(Word Error Rate, WER)可能显著上升,影响实际应用效果。本文将深入探讨如何对wav2vec2-base-960h模型..
论文《RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning》提出通过强化学习生成高质量训练数据,以提升通用机器人策略(如OpenVLA/Octo)在精密操作任务中的性能。传统基于人类演示的微调存在精度不足、数据不一致等问题,而RLDG先训练任务专用RL策略生成优化轨迹,再蒸馏至通用模型,实验显示其成功率比人类
下载r2_gaussian项目现成数据集后已成功复现,为了更清晰地理解该方法的数据生成过程从而更理解原理,今天按照项目github上面的流程尝试了一下。前情提要:我是远程连接pycharm完成的,租用的主机是3090。
未来,AgentFly的研究方向可能包括:更高效的记忆压缩与检索机制、遗忘策略以应对记忆爆炸、以及在更开放的多智能体环境中的协作与应用。近年来,大型语言模型(LLM)智能体已成为AI领域的热点,它们能自主使用工具、进行多步推理,完成复杂任务,如深度研究、代码生成、多轮对话等。,智能体通过不断积累成功和失败的经验(存入“案例库”),在遇到新任务时快速检索相似案例指导决策,从而实现持续进步——:它告诉
文章详细介绍了OWL-ViT模型微调与自定义训练的全过程,重点涵盖了四个核心方面:自定义数据集的准备与标注要求、模型微调的超参数配置策略、领域特定词汇的适配方法,以及训练过程中的监控与调试技巧。文章提供了具体的技术实现方案、代码示例和最佳实践,为开发者提供了完整的OWL-ViT模型定制化训练指南。## 自定义数据集的准备与标注在OWL-ViT模型微调过程中,高质量的自定义数据集是确保模型...
初学者常对大模型的预训练(Pre-training)、微调(Fine-tuning)和蒸馏(Distillation)感到困惑,三者虽均属模型训练,但目标、数据和实现方式差异显著。