langchain_community.document_loaders.url_playwright.PlaywrightURLLoader

class langchain_community.document_loaders.url_playwright.PlaywrightURLLoader(urls: List[str]], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]

使用 Playwright 加载 HTML 页面并以 Unstructured 进行解析。

这对于需要 JavaScript 渲染的页面加载非常有用。

参数
  • urls (List[str]) –

  • continue_on_failure (bool) –

  • headless (bool) –

  • remove_selectors (Optional[List[str]]) –

  • evaluator (Optional[PlaywrightEvaluator]) –

  • proxy (Optional[Dict[str, str]]) –

urls

要加载的 URL 列表。

类型

List[str]

continue_on_failure

如果为 True,则在发生失败时继续加载其他 URL。

类型

bool

headless

如果为 True,浏览器将在无头模式下运行。

类型

bool

proxy

如果设置,浏览器将通过指定的代理访问URL。

类型

可选[Dict[str, str]]

示例

from langchain_community.document_loaders import PlaywrightURLLoader

urls = ["https://api.ipify.org/?format=json",]
proxy={
    "server": "https://xx.xx.xx:15818", # https://<host>:<port>
    "username": "username",
    "password": "password"
}
loader = PlaywrightURLLoader(urls, proxy=proxy)
data = loader.load()

使用Playwright加载URL列表。

方法

__init__(urls[, continue_on_failure, ...])

使用Playwright加载URL列表。

alazy_load()

使用Playwright加载指定的URL并异步创建文档。

aload()

使用Playwright加载指定的URL并异步创建文档。

lazy_load()

使用Playwright加载指定的URL并创建文档实例。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并将其拆分为块。

__init__(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]

使用Playwright加载URL列表。

参数
  • urls (List[str]) –

  • continue_on_failure (bool) –

  • headless (bool) –

  • remove_selectors (Optional[List[str]]) –

  • evaluator (Optional[PlaywrightEvaluator]) –

  • proxy (Optional[Dict[str, str]]) –

async alazy_load() AsyncIterator[Document][source]

使用Playwright加载指定的URL并创建文档,当处于jupyter notebook环境时使用此函数。

返回

含有加载内容的文档实例列表。

返回类型

AsyncIterator[Document]

async aload() List[Document][source]

使用Playwright加载指定的URL并创建文档,当处于jupyter notebook环境时使用此函数。

返回

含有加载内容的文档实例列表。

返回类型

List[Document]

lazy_load() Iterator[Document][source]

使用Playwright加载指定的URL并创建文档实例。

返回

含有加载内容的文档实例列表。

返回类型

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其拆分为块。块作为文档返回。

不要重写此方法。应考虑将其弃用!

参数

text_splitter (可选[TextSplitter]) – 用于拆分文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

使用PlaywrightURLLoader的示例