Quellcode durchsuchen

fix special code (#473)

tags/0.3.6
Jyong vor 2 Jahren
Ursprung
Commit
2eea114ac0
Es ist kein Account mit der E-Mail-Adresse des Committers verbunden
1 geänderte Dateien mit 5 neuen und 2 gelöschten Zeilen
  1. 5
    2
      api/core/indexing_runner.py

+ 5
- 2
api/core/indexing_runner.py Datei anzeigen

@@ -235,7 +235,8 @@ class IndexingRunner:
if len(preview_texts) < 5:
preview_texts.append(document.page_content)

tokens += TokenCalculator.get_num_tokens(self.embedding_model_name, document.page_content)
tokens += TokenCalculator.get_num_tokens(self.embedding_model_name,
self.filter_string(document.page_content))

return {
"total_segments": total_segments,
@@ -345,6 +346,8 @@ class IndexingRunner:
return text_docs

def filter_string(self, text):
text = text.replace('<|', '<')
text = text.replace('|>', '>')
pattern = re.compile('[\x00-\x08\x0B\x0C\x0E-\x1F\x7F\x80-\xFF]')
return pattern.sub('', text)

@@ -425,7 +428,7 @@ class IndexingRunner:
return documents

def _split_to_documents(self, text_docs: List[Document], splitter: TextSplitter,
processing_rule: DatasetProcessRule) -> List[Document]:
processing_rule: DatasetProcessRule) -> List[Document]:
"""
Split the text documents into nodes.
"""

Laden…
Abbrechen
Speichern