langchain_community.document_loaders.url_selenium.SeleniumURLLoader

class langchain_community.document_loaders.url_selenium.SeleniumURLLoader(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: Optional[str] = None, executable_path: Optional[str] = None, headless: bool = True, arguments: List[str] = [])[来源]

使用 Selenium 加载 HTML 页面并使用 Unstructured 进行解析。

这对于加载需要 JavaScript 渲染的页面非常有用。

参数
  • urls (列表[字符串]) –

  • continue_on_failure (布尔) –

  • browser (字面量['chrome', 'firefox']) –

  • binary_location (可选[字符串]) –

  • executable_path (可选[字符串]) –

  • headless (布尔) –

  • arguments (列表[字符串]) –

urls

待加载的 URL 列表。

类型

列表[字符串]

continue_on_failure

如果为 True,则在失败时继续加载其他 URL。

类型

布尔

browser

要使用的浏览器,可以是 'chrome' 或 'firefox'。

类型

字符串

binary_location

浏览器的二进制文件位置。

类型

可选[str]

executable_path

浏览器可执行文件的路径。

类型

可选[str]

headless

如果为True,浏览器将以无头模式运行。

类型

布尔

arguments [List[str]]

传递给浏览器的参数列表。

使用Selenium和Unstructured加载URL列表。

方法

__init__(urls[, continue_on_failure, ...])

使用Selenium和Unstructured加载URL列表。

alazy_load()

Documents的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

Documents的懒加载器。

load()

使用Selenium加载指定的URL并创建Document实例。

load_and_split([text_splitter])

加载Documents并将其分割成块。

__init__(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: Optional[str] = None, executable_path: Optional[str] = None, headless: bool = True, arguments: List[str] = [])[源代码]

使用Selenium和Unstructured加载URL列表。

参数
  • urls (列表[字符串]) –

  • continue_on_failure (布尔) –

  • browser (字面量['chrome', 'firefox']) –

  • binary_location (可选[字符串]) –

  • executable_path (可选[字符串]) –

  • headless (布尔) –

  • arguments (列表[字符串]) –

async alazy_load() AsyncIterator[Document]

Documents的懒加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

lazy_load() Iterator[Document]

Documents的懒加载器。

返回类型

Iterator[Document]

load() List[Document][source]

使用Selenium加载指定的URL并创建Document实例。

返回

包含加载内容的Document实例的列表。

返回类型

列表[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其分割成块。这些块作为Document返回。

不要重写此方法。应将其视为已弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

列表[Document]

使用SeleniumURLLoader的示例