langchain_community.document_loaders.blackboard
.BlackboardLoader¶
- class langchain_community.document_loaders.blackboard.BlackboardLoader(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Optional[Tuple[str, str]] = None, cookies: Optional[dict] = None, continue_on_failure: bool = False, show_progress: bool = True)[源代码]¶
加载一个 Blackboard 课程。
此加载器可能与所有Blackboard课程不兼容。它仅适用于使用新Blackboard界面的课程。要使用此加载器,您必须拥有BbRoutercookie。您可以通过登录课程并从浏览器开发者工具中复制BbRoutercookie的值来获取此cookie。
示例
from langchain_community.document_loaders import BlackboardLoader loader = BlackboardLoader( blackboard_course_url="https://blackboard.example.com/webapps/blackboard/execute/announcement?method=search&context=course_entry&course_id=_123456_1", bbrouter="expires:12345...", ) documents = loader.load()
使用Blackboard课程URL初始化。
BbRouter cookie对于大多数Blackboard课程都是必需的。
- 参数
blackboard_course_url (str) – Blackboard课程URL。
bbrouter (str) – BbRouter cookie。
load_all_recursively (bool) – 如果为True,则递归加载所有文档。
basic_auth (Optional[Tuple[str, str]]) – 基本认证凭据。
cookies (Optional[dict]) – Cookie。
continue_on_failure (bool) – 当在加载URL时发生错误时是否继续加载网站地图,发出警告而不是引发异常。将此设置为True会使加载器更健壮,但也可能导致数据丢失。默认值:False
show_progress (bool) – 是否在加载时显示进度条。默认值:True
- 引发
ValueError – 如果Blackboard课程URL无效。
属性
web_path
方法
__init__
(blackboard_course_url, bbrouter[, ...])使用Blackboard课程URL初始化。
用于文档的懒加载器。
aload
()以异步方式从 web_path 中的 URL 加载文本到文档中。
检查是否已安装 BeautifulSoup4。
download
(path)从 URL 下载文件。
fetch_all
(urls)以速率限制同时获取所有 URL。
从 web_path 中的 URL(s) 懒加载文本。
load
()将数据加载到文档对象。
load_and_split
([text_splitter])加载文档并将它们分割成块。
parse_filename
(url)从 URL 解析文件名。
scrape
([parser])从网页抓取数据并以 BeautifulSoup 格式返回。
scrape_all
(urls[, parser])获取所有 URL,然后返回所有结果的对齐列表。
- __init__(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Optional[Tuple[str, str]] = None, cookies: Optional[dict] = None, continue_on_failure: bool = False, show_progress: bool = True)[源代码]¶
使用Blackboard课程URL初始化。
BbRouter cookie对于大多数Blackboard课程都是必需的。
- 参数
blackboard_course_url (str) – Blackboard课程URL。
bbrouter (str) – BbRouter cookie。
load_all_recursively (bool) – 如果为True,则递归加载所有文档。
basic_auth (Optional[Tuple[str, str]]) – 基本认证凭据。
cookies (Optional[dict]) – Cookie。
continue_on_failure (bool) – 当在加载URL时发生错误时是否继续加载网站地图,发出警告而不是引发异常。将此设置为True会使加载器更健壮,但也可能导致数据丢失。默认值:False
show_progress (bool) – 是否在加载时显示进度条。默认值:True
- 引发
ValueError – 如果Blackboard课程URL无效。
- async fetch_all(urls: List[str]) Any ¶
以速率限制同时获取所有 URL。
- 参数
urls (List[str]) –
- 返回类型
Any
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并分割成块。块以文档的形式返回。
不要重写此方法。应考虑将其弃用!
- 参数
text_splitter (Optional[TextSplitter]) – 用于分割文档的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
List[Document]
- scrape(parser: Optional[str] = None) Any ¶
从网页抓取数据并以 BeautifulSoup 格式返回。
- 参数
parser (Optional[str]) –
- 返回类型
Any
- scrape_all(urls: List[str], parser: Optional[str] = None) List[Any] ¶
获取所有 URL,然后返回所有结果的对齐列表。
- 参数
urls (List[str]) –
parser (Optional[str]) –
- 返回类型
List[Any]