散装码农,AI大模型、数据集相关应用技术

您现在的位置是：网站首页> AI人工智能

摘要

AI大模型、数据集相关应用技术

常逛huggingface,魔塔社区

标签数据与QA(一问一答)数据

一个 7b 的模型通常是指该模型具有 70 亿个参数

模型增量微调、外挂知识库

AI数据标注一般使用的软件

基础知识

标签数据与QA(一问一答)数据

标签数据：包含数据分类和分类标签

一般企业选模型训练

模型大小(一般指参数大小)

1-3b 500条可见效果

6-8b 1000条可见效果

70b以上模型

模型私有定制化：

rag 外挂知识库（检索的方式来增强生成模型能力）

（离线处理：索引库开发，给出的答案：具备可解释性）

文本向量化（OpenAI SDK 可以文本向量化维度可以达几千）

文本转向量用到的模型文章：https://sbert.net/

Sentence Transformers（又名 SBERT）是用于访问、使用和训练最先进的文本和图像嵌入模型的首选 Python 模块。

fine-tuning 模型微调【难】

（预训练模型+私有化数据+训练-》微调后的模型，高质量数据，训练数据，验证数据，测试数据）

微调1W数据可以看到效果

pre training 增量训练

funtion calling 调用现有的企业业务接口api

主要时间用在数据准备：

数据采集，清洗，标注