Преглед на файлове

Fix tokenizer bug (#2573)

### What problem does this PR solve?

### Type of change

- [x] Bug Fix (non-breaking change which fixes an issue)
tags/v0.12.0
lidp преди 1 година
родител
ревизия
08d5637770
No account linked to committer's email address
променени са 1 файла, в които са добавени 1 реда и са изтрити 1 реда
  1. 1
    1
      rag/nlp/rag_tokenizer.py

+ 1
- 1
rag/nlp/rag_tokenizer.py Целия файл

@@ -64,7 +64,7 @@ class RagTokenizer:
self.stemmer = PorterStemmer()
self.lemmatizer = WordNetLemmatizer()

self.SPLIT_CHAR = r"([ ,\.<>/?;'\[\]\\`!@#$%^&*\(\)\{\}\|_+=《》,。?、;‘’:“”【】~!¥%……()——-]+|[a-z\.-]+|[0-9,\.-]+)"
self.SPLIT_CHAR = r"([ ,\.<>/?;:'\[\]\\`!@#$%^&*\(\)\{\}\|_+=《》,。?、;‘’:“”【】~!¥%……()——-]+|[a-z\.-]+|[0-9,\.-]+)"
try:
self.trie_ = datrie.Trie.load(self.DIR_ + ".txt.trie")
return

Loading…
Отказ
Запис