博客
关于我
创建大模型的新方法 - 配比两个模型
阅读量:797 次
发布时间:2023-04-04

本文共 1109 字,大约阅读时间需要 3 分钟。

大模型的创建现在有了新的方法,这种方法可以类比于炼金术中的巫师法则。

工具1:Medusa

Medusa 为 LLM 添加了额外的"头",用于同时预测多个未来代币。在使用 Medusa 增强模型时,原始模型保持不变,只有新增的头部在训练过程中进行微调。在生成过程中,这些头每个都会为相应位置生成多个可能的单词。通过基于树的注意力机制,处理并组合这些选项。最终,采用典型的接受方案,从候选者中挑选最长的合理前缀以进行进一步解码。

工具2:MergeKit

MergeKit 是一个用于合并预训练语言模型的工具包,支持多种合并方法,包括 TIES、线性和 slerp 方法。此外,该工具包还可以从其他模型中选择特定的层来分段组装语言模型 bakllama.py。

合并模型脚本:main.py

要使用脚本合并模型 main.py,需指定最终模型的输出目录以及要使用的 --merge 选项合并的模型。根据所选的合并方法,可能需要额外参数,如 --density、--weight 和 --base-model。

支持以下合并方法:

  • 默认方法(TIES):需要一个基础模型,可以指定每个模型的重量和密度。
  • 线性方法:不需要基础模型,必须指定所有模型的权重。
  • SLERP 方法:正好需要两个模型,需指定单个权重来设置两个模型之间的插值参数。
  • 带层权重插值梯度的 SLERP:支持自定义层梯度权重。
  • 示例命令:

    python main.py ./output-model --cuda --merge garage-bAInd/Platypus2-13B --weight 0.3 --density 0.5 \--merge WizardLM/WizardLM-13B-V1.2 --weight 0.5 --density 0.5

    分段层组合:bakllama.py

    bakllama.py 脚本允许从其他预训练模型中获取特定层来分段组建模型。使用 YAML 配置文件定义要从各源模型获取的层,并可选指定嵌入和 LM 头组件的源。

    配置文件需包含以下字段:

    • layer_slices:图层切片对象列表,每个对象指定要从源模型获取的层范围。
    • embedding_source:可选字段,指定嵌入层的模型,默认为 layer_slices 中的第一个模型。
    • lm_head_source:可选字段,指定 LM 头的模型,默认为 layer_slices 中的最后一个模型。

    使用命令运行脚本:

    python bakllama.py path/to/your/config.yml ./output-model-directory

    转载地址:http://jnrfk.baihongyu.com/

    你可能感兴趣的文章
    OpenCV与AI深度学习 | 实战 | 通过微调SegFormer改进车道检测效果(数据集 + 源码)
    查看>>
    OpenCV与AI深度学习 | 实战—使用YOLOv8图像分割实现路面坑洞检测(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战篇——基于YOLOv8和OpenCV实现车速检测(详细步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | 实战|OpenCV实时弯道检测(详细步骤+源码)
    查看>>
    OpenCV与AI深度学习 | 实用技巧 | 使用OpenCV进行模糊检测
    查看>>
    OpenCV与AI深度学习 | 实践教程|旋转目标检测模型-TensorRT 部署(C++)
    查看>>
    OpenCV与AI深度学习 | 工业缺陷检测中数据标注需要注意的几个事项
    查看>>
    OpenCV与AI深度学习 | 干货 | 深度学习模型训练和部署的基本步骤
    查看>>
    OpenCV与AI深度学习 | 手把手教你用Python和OpenCV搭建一个半自动标注工具(详细步骤 + 源码)
    查看>>
    OpenCV与AI深度学习 | 水下检测+扩散模型:或成明年CVPR最大惊喜!
    查看>>
    OpenCV与AI深度学习 | 深入浅出了解OCR识别票据原理
    查看>>
    OpenCV与AI深度学习 | 深度学习检测小目标常用方法
    查看>>
    OpenCV与AI深度学习 | 超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务
    查看>>
    OpenCV与AI深度学习 | 高效开源的OCR工具:Surya-OCR介绍与使用
    查看>>
    OpenCV与AI深度学习|16个含源码和数据集的计算机视觉实战项目(建议收藏!)
    查看>>
    Opencv中KNN背景分割器
    查看>>
    OpenCV中基于已知相机方向的透视变形
    查看>>
    OpenCV中的监督学习
    查看>>
    opencv中读写视频
    查看>>
    OpenCV中遇到Microsoft C++ 异常 cv::Exception
    查看>>