langchain_community.document_loaders.parsers.audio.OpenAIWhisperParserLocal

class langchain_community.document_loaders.parsers.audio.OpenAIWhisperParserLocal(device: str = '0', lang_model: Optional[str] = None, batch_size: int = 8, chunk_length: int = 30, forced_decoder_ids: Optional[Tuple[Dict]] = None)[来源]

使用 OpenAI Whisper 模型转录和解析音频文件。

从 transformers 中本地使用 OpenAI Whisper 模型进行音频转录。

参数:device - 要使用的设备

注意:默认情况下,如果可用,则使用 GPU,如果想要使用 CPU,请将 device 设置为 “cpu”

lang_model - 要使用的 whisper 模型,例如 “openai/whisper-medium” forced_decoder_ids - 多语言模型中解码器的 id 状态,

示例用法:from transformers import WhisperProcessor processor = WhisperProcessor.from_pretrained(“openai/whisper-medium”) forced_decoder_ids = WhisperProcessor.get_decoder_prompt_ids(language=”french”,

task=”transcribe”)

forced_decoder_ids = WhisperProcessor.get_decoder_prompt_ids(language=”french”, task=”translate”)

初始化解析器。

参数
  • device (str) – 要使用的设备。

  • lang_model (可选[str]) – 要使用的 whisper 模型,例如 “openai/whisper-medium”。默认为 None。

  • forced_decoder_ids (可选[元组[字典]]) – 多语言模型中解码器的 id 状态。默认为 None。

  • batch_size (int) – 用于解码的批次大小。默认为 8。

  • chunk_length (int) – 在推理期间使用的块长度。默认为 30 秒。

方法

__init__([device, lang_model, batch_size, ...])

初始化解析器。

lazy_parse(blob)

延迟解析 blob。

parse(blob)

急切地将blob解析为文档或文档集。

__init__(device: str = '0', lang_model: Optional[str] = None, batch_size: int = 8, chunk_length: int = 30, forced_decoder_ids: Optional[Tuple[Dict]] = None)[source]

初始化解析器。

参数
  • device (str) – 要使用的设备。

  • lang_model (可选[str]) – 要使用的 whisper 模型,例如 “openai/whisper-medium”。默认为 None。

  • forced_decoder_ids (可选[元组[字典]]) – 多语言模型中解码器的 id 状态。默认为 None。

  • batch_size (int) – 用于解码的批次大小。默认为 8。

  • chunk_length (int) – 在推理期间使用的块长度。默认为 30 秒。

lazy_parse(blob: Blob) Iterator[Document][source]

延迟解析 blob。

参数

blob (Blob) –

返回类型

Iterator[Document]

parse(blob: Blob) List[Document]

急切地将blob解析为文档或文档集。

这是一个用于交互式开发环境的便利方法。

生产应用应优先考虑laz(parse)方法。

子类通常不应覆盖此解析方法。

参数

blob (Blob) – Blob实例

返回

文档列表

返回类型

List[Document]