langchain_community.document_transformers.markdownify.MarkdownifyTransformer

class langchain_community.document_transformers.markdownify.MarkdownifyTransformer(strip: Optional[Union[str, List[str]]] = None, convert: Optional[Union[str, List[str]]] = None, autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any)[source]

使用markdownify库,将HTML文档转换为Markdown格式,并支持对链接、图片、其它标签和标题样式的自定义处理。

参数
  • strip (可选[Union[str, List[str]]]) – 要移除的标签列表。此选项与convert选项不能同时使用。

  • convert (可选[Union[str, List[str]]]) – 要转换的标签列表。此选项与strip选项不能同时使用。

  • autolinks (bool) – 一个布尔值,指示当标签的内容与其href匹配时是否应使用“自动链接”样式。默认为True。

  • heading_style (str) – 定义标题的转换方式。接受值为ATX、ATX_CLOSED、SETEXT和UNDERLINED(SETEXT的别名)。默认为ATX。

  • kwargs (Any) – 传递给markdownify的额外选项。

示例

更多配置选项可在markdownify GitHub页面找到: https://github.com/matthewwithanm/python-markdownify

方法

__init__([strip, convert, autolinks, ...])

atransform_documents(documents, **kwargs)

异步转换文档列表。

transform_documents(documents, **kwargs)

转换文档列表。

__init__(strip: Optional[Union[str, List[str]]], convert: Optional[Union[str, List[str]]], autolinks: bool = True, heading_style: str = 'ATX', **kwargs: Any) None[source]
参数
  • strip (可选OptionalUnion[strList[str]]) –

  • convert (可选OptionalUnion[strList[str]]) –

  • autolinks (布尔值) –

  • heading_style (字符串) –

  • kwargs (任何类型) –

返回类型

None

async atransform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]

异步转换文档列表。

参数
  • documents (Sequence[Document]) – 待转换的文档序列。

  • kwargs (任何类型) –

返回值:

转换后的文档序列。

返回类型

Sequence[Document]

transform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document][source]

转换文档列表。

参数
  • documents (Sequence[Document]) – 待转换的文档序列。

  • kwargs (任何类型) –

返回值:

转换后的文档序列。

返回类型

Sequence[Document]

使用 MarkdownifyTransformer 的示例