您的浏览器版本太低,将不能正常浏览。请升级 Internet Explorer或使用Google Chrome浏览器。
如果您在使用双核浏览器,请切换到高速 / 极速 / 神速 核心。

青科派 打破技术壁垒让开源大模型微调像搭积木一样简单

来源:m6米乐官方入口    发布时间:2025-03-24 00:50:25

  期间,DeepSeek的爆火引发了人们对开源大模型的广泛讨论——在此之前,等海外头部大模型公司仍在维持“算法黑箱”的神秘性,但DeepSeek却赋予了用户对其模型进行洞察、修改和二次开发的权利,于是各行各业的开发的人能站在DeepSeek的肩膀上推动自身的发展。

  事实上,早在DeepSeek前,由Meta推出的Llama作为开源大语言模型的先锋,已经在研究和商业领域得到了广泛的应用。如果说开源模型是一个待被打磨的璞玉,那么微调工具就是雕琢它的刻刀。正是这些工具,帮助强大的模型适应社会多变的需求,在医疗、教育、金融等场景落地。LlamaFactory正在扮演这样的重要角色。

  科协频道采访了LlamaFactory的作者、北京航空航天大学博士郑耀威。他不仅与我们分享了该平台在模型兼容、社区互动等方面的创新实践,也分享了他对开源生态、AI人才教育培训等方面的见解。

  LlamaFactory是一个低代码的大语言模型(LLM)训练平台,“它类似于‘百宝箱’的功能,不仅能做到‘易用’,而且能做到‘泛用’”,郑耀威介绍道,这样的平台能支持微调一百多种大语言模型,包括DeepSeek、阿里通义千问、腾讯混元在内的多种国产开源模型。

  由于不同模型有各自独特的数据格式要求,未解决多种模型接入的难题,郑耀威在采访中表示,其团队采用了算法、模型、数据“解耦”的策略,将模型训练过程打造成一套标准的流水线,最终能够给大家提供一个模型的统一出入口来完成大模型定制化。

  打个比方,这一策略类似于修建了一条标准化的高速公路,不同的模型像是在高速上行驶的不一样的种类的车辆,而数据就像是装在车上的货物。在传统的模型训练中,每种模型可能都需要“修建一条对自己最合适的训练道路”,但 LlamaFactory 选择了另一种方式:把路修好了,无论货物在哪辆车上运载,都沿着统一的路线流转——只要模型的推理能够在这条“高速公路”上跑通,微调时只需调节参数并完成相关操作,整一个完整的过程就变得更简单快捷。

  LlamaFactory修建了一条标准化的高速公路,让不同模型的推理可以在一条路线上跑通

  除此以外,郑耀威表示,LlamaFactory 可以将不相同的领域的“专家模型”整合为一个“专家系统”:开发者只有必要了解任务需求,选择正真适合的“专家”并调整参数即可。这使得缺乏深厚编程背景的研究人员也能快速上手微调模型,某些特定的程度上打破了“技术壁垒”。

  郑耀威表示,LlamaFactory 并非止步于技术层面的优化,而是试图构建一个活跃的开源大模型社区生态。他提到自己几乎天天都会在社区内与用户互动,哪怕是周末也会及时解答用户问题,“我觉得开源社区最大的优点就应该直面用户”,郑耀威说,建立开源社区一方面能够推动工具的广泛使用,让更多普通开发者也能更深入地了解并使用工具,另一方面持续在社区内处理问题,也是优化系统、磨炼水平的宝贵机会。

  开源是AI发展的必然趋势,郑耀威说:“闭源和开源类似于传统攻防的角色,开源模型的崛起,也会加速闭源模型的优化,两者相互博弈,共同加速AI模型的发展演进。”

  郑耀威指出,开源大模型本身只是一套参数和代码的集合,真正让这些模型发挥作用的,是像Ollama、LlamaFactory、vLLM这样的配套工具。将工具交给更多人,赋予他们使用和改进AI的权利,这既是开源的意义所在,也是“人本主义”的体现。

  “AI它不是取代人类工作的,而是去辅助人类工作,去提升人的效率的。”在郑耀威看来,AI应当,并应被允许成为服务于每个人的“助手”。LlamaFactory 正推动“技术普惠”这一理念的落地。

  但我们还需认识到,智能鸿沟将成为人类发展和治理面临的巨大挑战之一。有学者指出,“作为工具和手段,AI技术的可访问性包括物理可达性(基础设施)、经济可负担性(成本)、认知可理解性(教育与技能)等,其本质上还包含了算法、数据、计算能力等组成部分”。因此真正的完成AI的公平应用,不能仅依赖工具本身,还需在教育、政策、社区等层面开展更深层次的努力。

  “人工智能”成为今年两会的热词之一,今年两会的“部长通道”上,教育部部长怀进鹏表示,会继续加大国家智慧教育平台建设,把AI和教育结合起来,今年中国将发布人工智能教育白皮书。AI成为当下教育改革和发展的重大机遇。

  清华大学教育研究院党委书记张羽曾在接受各个媒体采访时表示,人工智能技术正在全面取代普通程序员,未来社会将更为看重“人机协同”创造新兴事物的能力。那么未来的社会AI人才将呈现出什么模样呢?

  有人认为是具备交叉学科素养,能够综合统筹不相同的领域的知识,也有人说是快速适应新兴技术的出现,敢于创新突破。郑耀威的答案是:“在钻研技术的同时,对AI的应用有清晰的认知,我们学习AI的目的是帮助这个社会更好的发展”,这指向了一条科技与人文交融的道路。

  9月29日,北京建筑大学土木工程专业大一学生正在上人工智能通识课。学生们用手机回答问题,在教室前方的屏幕上显示。新华社记者 赵旭 摄

  近年来,人工智能通识课逐步走入高校,郑耀威也表示,希望进一步加大高校人工智能通识课的开设力度,人工智能不止是计算机专业的“专属”。对于跨学科学习人工智能的同学,郑耀威表示不用太焦虑:“我认为AI是一个非常泛用的工具,可以从自己学科的角度去理解模型、应用模型,不需要去探索里面过多的细节。”

  作为一个诞生于实验室的项目,LlamaFactory团队的运作模式本身也是AI人才培养的一个典型案例。小组成员以北航实验室研究生为主,资深博士生承担项目核心开发,带动新生逐步积累经验,充分的发挥了实验室文化中“传帮带”的优势,让团队在推进项目开发的同时,也培养出了一批具备科研创造新兴事物的能力和工程实践能力的AI人才,加速了高校教育和产业的融合。

  方兴东,钟祥铭.生成式AI与智能鸿沟:智能时代数字不平等的趋势、逻辑与对策[J].湖南师范大学社会科学学报,2024,53(06):121-131.