宇宙主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

欧基零壹微头条IP归属甄别会员请立即修改密码
查看: 455|回复: 6

AI模型训练,求高人指点!拜个师傅

[复制链接]
发表于 2024-8-28 12:44:38 | 显示全部楼层 |阅读模式
前提说明:想给公司合作商的内部培训系统做一个AI知识库,知识库里大概有几百个文档+表格图片等。我根据网上的教程加上自己琢磨,跌跌撞撞部署好了Dify,但是有几个地方比较迷糊。用了一台新加坡的阿里云小鸡(2核4g)部署的。

知识库维护,我有一个excel表格,大概3M左右,里面有几千条相关的信息。怎么样才能传到知识库并且能每一行逐条索引成功。现在失败N次了
还有几本书,我也想丢上去索引。
但是目前用百度的Embedding-V1,基本上经常卡死,索引不成功。只能处理一些小文档。
其他知识库零零散散的也能索引完成,但是失败率很高,是不是必须要一条一条的录进去知识库片段才行?

目前主要知识库算是完成了,聊天助手模式,模型选择的是gpt4o。回答的内容马马虎虎吧,很多信息都不能完全从知识库检索。还没办**式用。

还有一些向量检索,rerank模型,TopK,存在惩罚,温度,TopP 什么的,根本不太懂怎么设置和训练
求高人能给一些指导和答疑,能通俗易懂一些的,最好能长期,可以给学费~想拜个师傅学习一下。
发表于 2024-8-28 13:10:43 | 显示全部楼层
这个需求应该不用训练吧,搞个RAG就够了。
Dify没用过,用fastgpt搞了一个,操作起来挺方便的。
rerank模型可以不用,TopK,存在惩罚,温度,TopP这些要求不高的话可以直接用默认。
embedding模型推荐部个bge或者m3e,fastgpt文档里面都有教程。
 楼主| 发表于 2024-8-28 13:58:15 来自手机 | 显示全部楼层
GodZ222 发表于 2024-8-28 13:10
这个需求应该不用训练吧,搞个RAG就够了。
Dify没用过,用fastgpt搞了一个,操作起来挺方便的。
rerank模型 ...

现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gpt的都不太ok,求大佬指点
发表于 2024-8-28 14:12:13 | 显示全部楼层
tubos 发表于 2024-8-28 13:58
现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gp ...

fastgpt我也是用这个感觉好用。
发表于 2024-8-28 14:28:51 | 显示全部楼层
本帖最后由 GodZ222 于 2024-8-28 14:35 编辑

刚刚上Dify官网试了一下知识库功能,应该是你的数据格式问题。它的文本分段与清洗里面的自动分段与清洗,没法识别excel表格里面单元格内包含换行的情况,就导致了整个表格分段为0.

数据弄成这样就可以了,单元格内没有换行

difyQ&A分段数据集格式应该是怎样的?
https://github.com/langgenius/dify/issues/5560
发表于 2024-8-28 14:30:15 | 显示全部楼层
tubos 发表于 2024-8-28 13:58
现在csv表格索引不成功,表格也不算大 就5000条数据,不知道是不是格式问题。换了几个大模型,阿里百度gp ...

索引也跟embedding的模型有关,也可以看看百度的Embedding-V1调用情况
 楼主| 发表于 2024-8-28 16:51:23 | 显示全部楼层
GodZ222 发表于 2024-8-28 14:28
刚刚上Dify官网试了一下知识库功能,应该是你的数据格式问题。它的文本分段与清洗里面的自动分段与清洗,没 ...

谢谢,我重新调整一下表格试试,这个表格是从我们erp系统导出的,相当是一份合作商资料,想导入进去知识库,大概有6000行,50多列
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|兜哪儿主机交流论坛

GMT+8, 2024-9-20 11:46 , Processed in 0.075352 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表