langchain_experimental.data_anonymizer.presidio.PresidioAnonymizer

class langchain_experimental.data_anonymizer.presidio.PresidioAnonymizer(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)[source]

利用 Microsoft Presidio 进行匿名化。

参数
  • analyzed_fields (Optional[List[str]]) – 要检测并匿名化的字段列表。默认为 Microsoft Presidio 所支持的 所有实体。

  • operators (Optional[Dict[str, OperatorConfig]]) – 用于匿名化的操作符。操作符允许对检测到的 PII 进行自定义匿名化。了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/

  • languages_config (Optional[Dict]) – NLP 引擎的配置。列表中的第一语言将作为在没有指定语言时使用 self.anonymize(…) 的主要语言。了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/

  • faker_seed (Optional[int]) – 初始化 faker 使用的种子。默认为 None,在这种情况下,faker 将随机生成种子并随机提供值。

  • add_default_faker_operators (bool) –

方法

__init__([analyzed_fields, operators, ...])

参数

要检测并匿名化的字段列表。

add_operators(operators)

向匿名化器添加操作符

add_recognizer(recognizer)

向分析器添加一个识别器

anonymize(text[, language, allow_list])

匿名化文本。

__init__(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)
参数
  • analyzed_fields (Optional[List[str]]) – 要检测并匿名化的字段列表。默认为 Microsoft Presidio 所支持的 所有实体。

  • operators (Optional[Dict[str, OperatorConfig]]) – 用于匿名化的操作符。操作符允许对检测到的 PII 进行自定义匿名化。了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/

  • languages_config (Optional[Dict]) – NLP 引擎的配置。列表中的第一语言将作为在没有指定语言时使用 self.anonymize(…) 的主要语言。了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/

  • faker_seed (Optional[int]) – 初始化 faker 使用的种子。默认为 None,在这种情况下,faker 将随机生成种子并随机提供值。

  • add_default_faker_operators (bool) –

add_operators(operators: Dict[str, OperatorConfig]) None

向匿名化器添加操作符

参数

operators (Dict[str, OperatorConfig]) – 添加到匿名化的操作符。

返回类型

None

add_recognizer(recognizer: EntityRecognizer) None

向分析器添加一个识别器

参数

recognizer (EntityRecognizer) – 添加到分析器的识别器。

返回类型

None

匿名化(text: str, language: Optional[str] = None, allow_list: Optional[List[str]] = None) str

匿名化文本。

参数
  • text (str) –

  • language (可选[str]) –

  • allow_list (可选[列表[str]]) –

返回类型

str

使用 PresidioAnonymizer 的示例