文本预处理

文本预处理

我们将解析文本的常见预处理步骤。 这些步骤通常包括:

  • ```python
    import collections
    import re
    from d2l import torch as d2l
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25

    1. 将文本作为字符串加载到内存中。

    - ```python
    #下面的函数将数据集读取到由多条文本行组成的列表中,其中每条文本行都是一个字符串。 为简单起见,我们在这里忽略了标点符号和字母大写。
    #@save
    d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt',
    '090b5e7e70c295757f55df93cb0a180b9691891a')

    def read_time_machine(): #@save
    """将时间机器数据集加载到文本行的列表中"""
    with open(d2l.download('time_machine'), 'r') as f:
    lines = f.readlines()
    return [re.sub('[^A-Za-z]+', ' ', line).strip().lower() for line in lines]

    lines = read_time_machine()
    print(f'# 文本总行数: {len(lines)}')
    print(lines[0])
    print(lines[10])

    ######
    Downloading ../data/timemachine.txt from http://d2l-data.s3-accelerate.amazonaws.com/timemachine.txt...
    # 文本总行数: 3221
    the time machine by h g wells
    twinkled and his usually pale face was flushed and animated the
  1. 将字符串拆分为词元(如单词和字符)。

    • ```python

      下面的tokenize函数将文本行列表(lines)作为输入, 列表中的每个元素是一个文本序列(如一条文本行)。 每个文本序列又被拆分成一个词元列表,词元(token)是文本的基本单位。 最后,返回一个由词元列表组成的列表,其中的每个词元都是一个字符串(string)。

      def tokenize(lines, token=’word’): #@save

      """将文本行拆分为单词或字符词元"""
      if token == 'word':
          return [line.split() for line in lines]
      elif token == 'char':
          return [list(line) for line in lines]
      else:
          print('错误:未知词元类型:' + token)
      

      tokens = tokenize(lines)
      for i in range(11):

      print(tokens[i])
      
      #

      [‘the’, ‘time’, ‘machine’, ‘by’, ‘h’, ‘g’, ‘wells’]
      []
      []
      []
      []
      [‘i’]
      []
      []
      [‘the’, ‘time’, ‘traveller’, ‘for’, ‘so’, ‘it’, ‘will’, ‘be’, ‘convenient’, ‘to’, ‘speak’, ‘of’, ‘him’]
      [‘was’, ‘expounding’, ‘a’, ‘recondite’, ‘matter’, ‘to’, ‘us’, ‘his’, ‘grey’, ‘eyes’, ‘shone’, ‘and’]
      [‘twinkled’, ‘and’, ‘his’, ‘usually’, ‘pale’, ‘face’, ‘was’, ‘flushed’, ‘and’, ‘animated’, ‘the’]

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      22
      23
      24
      25
      26
      27
      28
      29
      30
      31
      32
      33
      34
      35
      36
      37
      38
      39
      40
      41
      42
      43
      44
      45
      46
      47
      48
      49
      50
      51
      52
      53
      54
      55
      56

      3. 建立一个词表,将拆分的词元映射到数字索引。

      - ```python
      #词元的类型是字符串,而模型需要的输入是数字,因此这种类型不方便模型使用。 现在,让我们构建一个字典,通常也叫做词表(vocabulary), 用来将字符串类型的词元映射到从开始的数字索引中。 我们先将训练集中的所有文档合并在一起,对它们的唯一词元进行统计, 得到的统计结果称之为语料(corpus)。 然后根据每个唯一词元的出现频率,为其分配一个数字索引。 很少出现的词元通常被移除,这可以降低复杂性。 另外,语料库中不存在或已删除的任何词元都将映射到一个特定的未知词元“<unk>”。 我们可以选择增加一个列表,用于保存那些被保留的词元, 例如:填充词元(“<pad>”); 序列开始词元(“<bos>”); 序列结束词元(“<eos>”)。

      class Vocab: #@save
      """文本词表"""
      def __init__(self, tokens=None, min_freq=0, reserved_tokens=None):
      if tokens is None:
      tokens = []
      if reserved_tokens is None:
      reserved_tokens = []
      # 按出现频率排序
      counter = count_corpus(tokens)
      self._token_freqs = sorted(counter.items(), key=lambda x: x[1],
      reverse=True)
      # 未知词元的索引为0
      self.idx_to_token = ['<unk>'] + reserved_tokens
      self.token_to_idx = {token: idx
      for idx, token in enumerate(self.idx_to_token)}
      for token, freq in self._token_freqs:
      if freq < min_freq:
      break
      if token not in self.token_to_idx:
      self.idx_to_token.append(token)
      self.token_to_idx[token] = len(self.idx_to_token) - 1

      def __len__(self):
      return len(self.idx_to_token)

      def __getitem__(self, tokens):
      if not isinstance(tokens, (list, tuple)):
      return self.token_to_idx.get(tokens, self.unk)
      return [self.__getitem__(token) for token in tokens]

      def to_tokens(self, indices):
      if not isinstance(indices, (list, tuple)):
      return self.idx_to_token[indices]
      return [self.idx_to_token[index] for index in indices]

      @property
      def unk(self): # 未知词元的索引为0
      return 0

      @property
      def token_freqs(self):
      return self._token_freqs

      def count_corpus(tokens): #@save
      """统计词元的频率"""
      # 这里的tokens是1D列表或2D列表
      if len(tokens) == 0 or isinstance(tokens[0], list):
      # 将词元列表展平成一个列表
      tokens = [token for line in tokens for token in line]
      return collections.Counter(tokens)
  2. 将文本转换为数字索引序列,方便模型操作。

    • vocab = Vocab(tokens)
      print(list(vocab.token_to_idx.items())[:10])
      
      for i in [0, 10]:
          print('文本:', tokens[i])
          print('索引:', vocab[tokens[i]])
      

文本预处理
http://example.com/2024/11/28/20241128_文本预处理/
作者
XuanYa
发布于
2024年11月28日
许可协议