- class langchain_text_splitters.html.HTMLHeaderTextSplitter(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]¶
基于指定标题分割HTML文件。需要lxml包。
创建一个新的HTMLHeaderTextSplitter。
- 参数
headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组的列表,映射到(任意)的元数据键。允许的标题值:h1, h2, h3, h4, h5, h6,例如 [("h1", "标题 1"), ("h2", "标题 2")]。
return_each_element (bool) – 返回带有相关标题的每个元素。
方法
__init__
(headers_to_split_on[, ...])创建一个新的HTMLHeaderTextSplitter。
aggregate_elements_to_chunks
(elements)将具有共同元数据的项目组合成块
split_text
(text)分割HTML文本字符串
split_text_from_file
(file)分割HTML文件
split_text_from_url
(url)从网络URL分割HTML
- __init__(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]¶
创建一个新的HTMLHeaderTextSplitter。
- 参数
headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组的列表,映射到(任意)的元数据键。允许的标题值:h1, h2, h3, h4, h5, h6,例如 [("h1", "标题 1"), ("h2", "标题 2")]。
return_each_element (bool) – 返回带有相关标题的每个元素。
- aggregate_elements_to_chunks(elements: List[ElementType]) List[Document] [source]¶
将具有共同元数据的项目组合成块
- 参数
elements (List[ElementType]) – 带有相关标识信息和元数据的HTML元素内容
- 返回类型
List[Document]
- split_text(text: str) List[Document] [source]¶
分割HTML文本字符串
- 参数
text (str) – HTML文本
- 返回类型
List[Document]