您现在的位置是:网站首页> AI人工智能
AI大模型、数据集相关应用技术
- AI人工智能
- 2025-01-15
- 162人已阅读
摘要
AI大模型、数据集相关应用技术
标签数据与QA(一问一答)数据
一个 7b 的模型通常是指该模型具有 70 亿个参数
模型增量微调、外挂知识库
AI模型的格式有哪些文件后缀分别是啥及各种格式模型的使用方法
基础知识
标签数据与QA(一问一答)数据
标签数据:包含数据分类和分类标签
一般企业选模型训练
模型大小(一般指参数大小)
1-3b 500条可见效果
6-8b 1000条可见效果
70b以上模型
模型常到huggingface,魔塔社区
模型私有定制化:
rag 外挂知识库(检索的方式来增强生成模型能力)
(离线处理:索引库开发,给出的答案:具备可解释性)
文本向量化(OpenAI SDK 可以文本向量化维度可以达几千)
文本转向量用到的模型文章:https://sbert.net/
Sentence Transformers(又名 SBERT)是用于访问、使用和训练最先进的文本和图像嵌入模型的首选 Python 模块。
fine-tuning 模型微调【难】
( 预训练模型+私有化数据+训练-》微调后的模型 ,高质量数据,训练数据,验证数据,测试数据)
微调1W数据可以看到效果
pre training 增量训练
funtion calling 调用现有的企业业务接口api
主要时间用在数据准备:
数据采集,清洗,标注
上一篇:开源的的AI模型及调用平台
下一篇:向量数据库相关技术收集