Pārlūkot izejas kodu

Removing invisible chars before tokenization. (#4233)

### What problem does this PR solve?

#4223

### Type of change

- [x] Bug Fix (non-breaking change which fixes an issue)
tags/nightly
Kevin Hu pirms 10 mēnešiem
vecāks
revīzija
7e063283ba
Revīzijas autora e-pasta adrese nav piesaistīta nevienam kontam
1 mainītis faili ar 1 papildinājumiem un 0 dzēšanām
  1. 1
    0
      rag/nlp/rag_tokenizer.py

+ 1
- 0
rag/nlp/rag_tokenizer.py Parādīt failu

@@ -264,6 +264,7 @@ class RagTokenizer:
return [self.stemmer.stem(self.lemmatizer.lemmatize(t)) if re.match(r"[a-zA-Z_-]+$", t) else t for t in tks]

def tokenize(self, line):
line = re.sub(r"\W+", " ", line)
line = self._strQ2B(line).lower()
line = self._tradi2simp(line)
zh_num = len([1 for c in line if is_chinese(c)])

Notiek ielāde…
Atcelt
Saglabāt