langchain_community.document_loaders.parsers.html.bs4
.BS4HTMLParser¶
- class langchain_community.document_loaders.parsers.html.bs4.BS4HTMLParser(*, features: str = 'lxml', get_text_separator: str = '', **kwargs: Any)[源代码]¶
使用 Beautiful Soup 解析 HTML 文件。
初始化基于 bs4 的 HTML 解析器。
方法
__init__
(*[, features, get_text_separator])初始化基于 bs4 的 HTML 解析器。
lazy_parse
(blob)将 HTML 文档加载到文档对象中。
parse
(blob)冲动的将 blob 解析成文档或文档集。
- 参数
features (str) –
get_text_separator (str) –
kwargs (Any) –
- __init__(*, features: str = 'lxml', get_text_separator: str = '', **kwargs: Any) None [源代码]¶
初始化基于 bs4 的 HTML 解析器。
- 参数
features (str) –
get_text_separator (str) –
kwargs (Any) –
- 返回类型
None