langchain_community.document_loaders.url_selenium
.SeleniumURLLoader¶
- class langchain_community.document_loaders.url_selenium.SeleniumURLLoader(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: Optional[str] = None, executable_path: Optional[str] = None, headless: bool = True, arguments: List[str] = [])[来源]¶
使用 Selenium 加载 HTML 页面并使用 Unstructured 进行解析。
这对于加载需要 JavaScript 渲染的页面非常有用。
- 参数
urls (列表[字符串]) –
continue_on_failure (布尔) –
browser (字面量['chrome', 'firefox']) –
binary_location (可选[字符串]) –
executable_path (可选[字符串]) –
headless (布尔) –
arguments (列表[字符串]) –
- urls¶
待加载的 URL 列表。
- 类型
列表[字符串]
- continue_on_failure¶
如果为 True,则在失败时继续加载其他 URL。
- 类型
布尔
- browser¶
要使用的浏览器,可以是 'chrome' 或 'firefox'。
- 类型
字符串
- binary_location¶
浏览器的二进制文件位置。
- 类型
可选[str]
- executable_path¶
浏览器可执行文件的路径。
- 类型
可选[str]
- headless¶
如果为True,浏览器将以无头模式运行。
- 类型
布尔
- arguments [List[str]]
传递给浏览器的参数列表。
使用Selenium和Unstructured加载URL列表。
方法
__init__
(urls[, continue_on_failure, ...])使用Selenium和Unstructured加载URL列表。
Documents的懒加载器。
aload
()将数据加载到Document对象中。
Documents的懒加载器。
load
()使用Selenium加载指定的URL并创建Document实例。
load_and_split
([text_splitter])加载Documents并将其分割成块。
- __init__(urls: List[str], continue_on_failure: bool = True, browser: Literal['chrome', 'firefox'] = 'chrome', binary_location: Optional[str] = None, executable_path: Optional[str] = None, headless: bool = True, arguments: List[str] = [])[源代码]¶
使用Selenium和Unstructured加载URL列表。
- 参数
urls (列表[字符串]) –
continue_on_failure (布尔) –
browser (字面量['chrome', 'firefox']) –
binary_location (可选[字符串]) –
executable_path (可选[字符串]) –
headless (布尔) –
arguments (列表[字符串]) –
- load() List[Document] [source]¶
使用Selenium加载指定的URL并创建Document实例。
- 返回
包含加载内容的Document实例的列表。
- 返回类型
列表[Document]
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并将其分割成块。这些块作为Document返回。
不要重写此方法。应将其视为已弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
列表[Document]