`langchain_core.utils.html`.extract_sub_links¶

langchain_core.utils.html.extract_sub_links(raw_html: str, url: str, *, base_url: Optional[str] = None, pattern: Optional[Union[str, Pattern]] = None, prevent_outside: bool = True, exclude_prefixes: Sequence[str] = (), continue_on_failure: bool = False) → List[str][source]¶

从原始HTML字符串中提取所有链接并将其转换为绝对路径。

参数

raw_html (str) – 原始HTML。
url (str) – HTML的URL。
base_url (Optional[str]) – 用于检查外部链接的基本URL。
pattern (Optional[Union[str, Pattern]]) – 用于从原始HTML中提取链接的正则表达式。
prevent_outside (bool) – 如果为True，忽略不是基本URL子链接的外部链接。
exclude_prefixes (Sequence[str]) – 排除以这些前缀之一开始的任何URL。
continue_on_failure (bool) – 如果为True，解析特定链接引发异常时继续。否则，抛出异常。

返回

子链接。

返回类型

List[str]

langchain_core.utils.html.extract_sub_links¶

`langchain_core.utils.html`.extract_sub_links¶