langchain_community.document_loaders.url_playwright.UnstructuredHtmlEvaluator

class langchain_community.document_loaders.url_playwright.UnstructuredHtmlEvaluator(remove_selectors: Optional[List[str]] = None)[来源]

使用 unstructured 库评估页面 HTML 内容。

初始化 UnstructuredHtmlEvaluator

方法

__init__([remove_selectors])

初始化 UnstructuredHtmlEvaluator

evaluate(page, browser, response)

同步处理页面的 HTML 内容。

evaluate_async(page, browser, response)

异步处理页面的 HTML 内容。

参数

remove_selectors (Optional[List[str]]) –

__init__(remove_selectors: Optional[List[str]] = None)[来源]

初始化 UnstructuredHtmlEvaluator

参数

remove_selectors (Optional[List[str]]) –

evaluate(page: Page, browser: Browser, response: Response) str[来源]

同步处理页面的 HTML 内容。

参数
  • page (Page) –

  • browser (Browser) –

  • response (Response) –

返回类型

str

异步 evaluate_async(page: AsyncPage, browser: AsyncBrowser, response: AsyncResponse) str[source]

异步处理页面的 HTML 内容。

参数
  • page (AsyncPage) –

  • browser (AsyncBrowser) –

  • response (AsyncResponse) –

返回类型

str