langchain_community.document_loaders.mediawikidump
.MWDumpLoader¶
- class langchain_community.document_loaders.mediawikidump.MWDumpLoader(file_path: Union[str, Path], encoding: Optional[str] = 'utf8', namespaces: Optional[Sequence[int]] = None, skip_redirects: Optional[bool] = False, stop_on_error: Optional[bool] = True)[source]¶
从本地XML文件加载《MediaWiki》数据包。
示例
from langchain_text_splitters import RecursiveCharacterTextSplitter from langchain_community.document_loaders import MWDumpLoader loader = MWDumpLoader( file_path="myWiki.xml", encoding="utf8" ) docs = loader.load() text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=0 ) texts = text_splitter.split_documents(docs)
- 参数
file_path (str) – XML本地文件路径
encoding (str, 可选) – 字符编码,默认为“utf8”
namespaces (整型列表,可选) – 您想要解析的页面的命名空间。有关所有常见命名空间列表,请参阅https://www.mediawiki.org/wiki/Help:Namespaces#Localisation
skip_redirects (布尔型,可选) – 若为True则跳过重定向到其他页面的页面,False则保留。默认为False
stop_on_error (布尔型,可选) – False则跳过导致解析错误的页面,True则停止。默认为True
方法
__init__
(file_path[, encoding, namespaces, ...])Documents的懒加载器。
aload
()将数据加载到Document对象。
从文件路径进行懒加载。
load
()将数据加载到Document对象。
load_and_split
([text_splitter])加载Documents并分割成块。
- __init__(file_path: Union[str, Path], encoding: Optional[str] = 'utf8', namespaces: Optional[Sequence[int]] = None, skip_redirects: Optional[bool] = False, stop_on_error: Optional[bool] = True)[源代码]¶
- 参数
文件路径 (Union[str, Path]) –
编码 (可选[str]) –
命名空间 (可选[Sequence[int]]) –
跳过重定向 (可选[bool]) –
错误时停止 (可选[bool]) –
- load_and_split(text_splitter: Optional[TextSplitter] = None) 列表[Document] ¶
加载文档并分割成块。块作为文档返回。
不要重写此方法。应考虑将其视为已弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认值为RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
列表[Document]