您现在的位置是:网站首页> AI人工智能

AI大模型、数据集相关应用技术

摘要

AI大模型、数据集相关应用技术

常逛huggingface,魔塔社区

标签数据与QA(一问一答)数据

一个 7b 的模型通常是指该模型具有 70 亿个参数

模型增量微调、外挂知识库


AI数据标注一般使用的软件

AI模型的格式有哪些文件后缀分别是啥及各种格式模型的使用方法

AI人工智能模型YOLO创建训练等知识积累

AI视频教程收集

基础知识

一般企业选模型训练




基础知识

标签数据与QA(一问一答)数据

标签数据:包含数据分类和分类标签



一般企业选模型训练

模型大小(一般指参数大小)

1-3b  500条可见效果

6-8b   1000条可见效果

70b以上模型

模型常到huggingface,魔塔社区

模型私有定制化

rag 外挂知识库(检索的方式来增强生成模型能力)

(离线处理:索引库开发,给出的答案:具备可解释性)

  点击查看视频教程

  文本向量化(OpenAI SDK 可以文本向量化维度可以达几千)

  文本转向量用到的模型文章:https://sbert.net/

  Sentence Transformers(又名 SBERT)是用于访问、使用和训练最先进的文本和图像嵌入模型的首选 Python 模块。

fine-tuning 模型微调【难】

( 预训练模型+私有化数据+训练-》微调后的模型 ,高质量数据,训练数据,验证数据,测试数据)

  微调1W数据可以看到效果

pre training 增量训练

       funtion calling 调用现有的企业业务接口api

主要时间用在数据准备:

数据采集,清洗,标注










Top