文本数据增强

发布于 2025-12-31

6 文本数据增强

学习目标

了解文本数据增强的作用.
掌握实现常见的文本数据增强的具体方法.
常见的文本数据增强方法:
回译数据增强法

6.1 回译数据增强法

回译数据增强目前是文本数据增强方面效果较好的增强方法

概念

基于google、有道等翻译接口, 将文本数据翻译成另外一种语言(一般选择小语种), 之后再翻译回原语言, 即可认为得到与原语料同标签的新语料, 新语料加入到原数据集中即可认为是对原数据集数据增强，这样能够增加数据多样性，帮助模型更好地理解语言中的多样性和变化。

优势
多样性：生成不同句式但语义相似的文本，增加训练集的多样性。
避免过拟合：由于模型会接触到不同的句子结构，模型对文本的理解会更加泛化，从而降低过拟合风险。
不需要标注数据：回译能够在没有人工标注的情况下生成额外的数据，对于需要大量标注的任务尤为有用。
存在问题

在短文本回译过程中, 新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间。

高重复率解决办法

进行连续的多语言翻译, 如: 中文→韩文→日语→英文→中文, 根据经验, 最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题。

代码实现

# 需要科学上网才能访问谷歌翻译
from googletrans import Translator
# pip install googletrans==4.0.0-rc1 -i https://mirrors.aliyun.com/pypi/simple/

def back_translate(text, src_lang='zh-cn', intermediate_lang='en'):
  # 回译数据增强
  # param text: 原始文本
  # param src_lang: 原始语言（默认中文）
  # param intermediate_lang: 中间语言（默认英语）
  # return: 回译后的文本
  translator = Translator()

  # 将原始文本翻译为中间语言
  translated = translator.translate(text=text, src=src_lang, dest=intermediate_lang)
  intermediate_text = translated.text

  # 将中间语言翻译回原始语言
  back_translated = translator.translate(intermediate_text, src=intermediate_lang, dest=src_lang)
  back_translated_text = back_translated.text

  return back_translated_text


if __name__ == '__main__':
  # 示例
  original_text = "这个价格非常便宜!"
  augmented_text = back_translate(original_text)
  print("原始文本：", original_text)
  print("回译文本：", augmented_text)

输出结果:

原始文本： 这个价格非常便宜!
回译文本： 这很便宜！

6.2 小结

常见的文本数据增强方法:
回译数据增强法
什么是回译数据增强法:
回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google、有道等翻译接口, 将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言, 即可认为得到与与原语料同标签的新语料, 新语料加入到原数据集中即可认为是对原数据集数据增强.
回译数据增强优势:
操作简便, 获得新语料质量高.
回译数据增强存在的问题:
在短文本回译过程中, 新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间.
高重复率解决办法:
进行连续的多语言翻译, 如: 中文→韩文→日语→英文→中文, 根据经验, 最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.

发布于 2025-12-31