langchain_text_splitters.html
.HTMLSectionSplitter¶
- class langchain_text_splitters.html.HTMLSectionSplitter(headers_to_split_on: List[Tuple[str, str]], xslt_path: Optional[str] = None, **kwargs: Any)[源代码]¶
基于指定的标签和字体大小分割HTML文件。需要lxml库。
创建一个新的HTMLSectionSplitter。
- 参数
headers_to_split_on (列表[元组[str, str]]) - 我们想要跟踪的标题的元组列表,映射到元数据的任意键。允许的标题值:h1, h2, h3, h4, h5, h6,例如:[(“h1”, “标题 1”),(“h2”, “标题 2”)].
xslt_path (可选[str]) - 文档转换的xslt文件路径。
passed. (如果未提供,使用默认值) -
layouts. (用于使用不同格式和) –
kwargs (任意) –
方法
__init__
(headers_to_split_on[, xslt_path])创建一个新的HTMLSectionSplitter。
convert_possible_tags_to_header
(html_content)create_documents
(texts[, metadatas])从一个文本列表中创建文档。
split_documents
(documents)分割文档。
split_html_by_headers
(html_doc)split_text
(text)分割HTML文本字符串
split_text_from_file
(file)分割HTML文件
- __init__(headers_to_split_on: List[Tuple[str, str]], xslt_path: Optional[str] = None, **kwargs: Any) None [来源]¶
创建一个新的HTMLSectionSplitter。
- 参数
headers_to_split_on (列表[元组[str, str]]) - 我们想要跟踪的标题的元组列表,映射到元数据的任意键。允许的标题值:h1, h2, h3, h4, h5, h6,例如:[(“h1”, “标题 1”),(“h2”, “标题 2”)].
xslt_path (可选[str]) - 文档转换的xslt文件路径。
passed. (如果未提供,使用默认值) -
layouts. (用于使用不同格式和) –
kwargs (任意) –
- 返回类型
None
- create_documents(texts: List[str], metadatas: Optional[List[dict]] = None) List[Document] [来源]¶
从一个文本列表中创建文档。
- 参数
texts (List[str]) –
metadatas (Optional[List[dict]]) –
- 返回类型
List[Document]
- split_html_by_headers(html_doc: str) List[Dict[str, Optional[str]]] [来源代码]¶
- 参数
html_doc (str) –
- 返回类型
列表[[字符串, 可选[字符串]]]