知识库训练
将内容上传至知识库后,需要先对内容进行分段与数据清洗,该阶段可以被理解为是对内容预处理与结构化。
针对不同文档格式有不同的训练方式:
- 文本格式
支持以下两种策略:
- 自动分段和清洗
自动模式为对分段规则和预处理规则不太熟悉的初级用户设计。在此模式下,chatDZQ会自动结合分段长度和标点符号,将长文本拆分为多个段落,便于用户进行检索和阅读。
- 自定义
自定义模式适合对于文本处理有明确需求的进阶用户。在自定义模式下,你可以根据不同的文档格式和场景要求,手动配置文本的分段规则和清洗策略。
参数配置说明:
分段标识符:用户可指定自定义标识符,系统将在文本中识别该标识符时进行分段。
::: 默认情况下,系统使用“换行”作为分段标识符,但支持用户自定义标识符以实现自动分段。
遇到分段标识符时,将强制进行拆分;如果文本超过最大长度但尚未遇到分段标识符,亦会强制拆分。
如果选择“无分段标识符”,系统将仅依据分段的最大长度进行处理。
如果无分段最大长度,系统将仅依据分段标识符进行切分。 :::
分段最大长度:此参数指定文本字符数的最大上限,超出该长度时将强制进行分段。如果此值为0或未设置,系统将不施加分段最大长度限制,而依据模型预设的最大长度进行操作。
文本预处理规则:文本预处理规则旨在过滤知识库中的无意义内容,以提升信息的有效性和准确性。
-
表格模式
-
在获取表结构时,系统默认显示所有可用的表格文件。如果用户未进行任何修改,系统将自动选择第一个数据表、第一行作为表头,并将第一个数据行设为数据的起始行
-
鉴于同一知识库中的表头必须保持一致,当通过“从已有知识库添加文件”的功能进入此设置页面时,表结构区域将被锁定,用户无法进行更改,系统将读取并保留上一次的表结构设定。
-
图片格式
支持以下两种策略:
-
人工标注:不执行处理,在图片导入完成后,手动添加图片描述
-
智能标注:深度理解编排,系统自动提供全面详细内容描述信息