langchain_community.document_transformers.markdownify
.MarkdownifyTransformer¶
- class langchain_community.document_transformers.markdownify.MarkdownifyTransformer(strip: Optional[Union[str, List[str]]] = None, convert: Optional[Union[str, List[str]]] = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any)[source]¶
使用markdownify库,将HTML文档转换为Markdown格式,并支持对链接、图片、其它标签和标题样式的自定义处理。
- 参数
strip (可选[Union[str, List[str]]]) – 要移除的标签列表。此选项与convert选项不能同时使用。
convert (可选[Union[str, List[str]]]) – 要转换的标签列表。此选项与strip选项不能同时使用。
autolinks (bool) – 一个布尔值,指示当标签的内容与其href匹配时是否应使用“自动链接”样式。默认为True。
heading_style (str) – 定义标题的转换方式。接受值为ATX、ATX_CLOSED、SETEXT和UNDERLINED(SETEXT的别名)。默认为ATX。
kwargs (Any) – 传递给markdownify的额外选项。
示例
更多配置选项可在markdownify GitHub页面找到: https://github.com/matthewwithanm/python-markdownify
方法
__init__
([strip, convert, autolinks, ...])atransform_documents
(documents, **kwargs)异步转换文档列表。
transform_documents
(documents, **kwargs)转换文档列表。
- __init__(strip: Optional[Union[str, List[str]]], convert: Optional[Union[str, List[str]]], autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any) None [source]¶
- 参数
strip (可选:Optional:Union:[str,List:[str]]) –
convert (可选:Optional:Union:[str,List:[str]]) –
autolinks (布尔值) –
heading_style (字符串) –
kwargs (任何类型) –
- 返回类型
None