Quellcode durchsuchen

Fix: order chunks from docx by positions. (#7979)

### What problem does this PR solve?

#7934

### Type of change

- [x] Bug Fix (non-breaking change which fixes an issue)
tags/v0.19.1
Kevin Hu vor 5 Monaten
Ursprung
Commit
93f5df716f
Es ist kein Account mit der E-Mail-Adresse des Committers verbunden
1 geänderte Dateien mit 2 neuen und 1 gelöschten Zeilen
  1. 2
    1
      rag/nlp/__init__.py

+ 2
- 1
rag/nlp/__init__.py Datei anzeigen

@@ -279,12 +279,13 @@ def tokenize_chunks(chunks, doc, eng, pdf_parser=None):
def tokenize_chunks_with_images(chunks, doc, eng, images):
res = []
# wrap up as es documents
for ck, image in zip(chunks, images):
for ii, (ck, image) in enumerate(zip(chunks, images)):
if len(ck.strip()) == 0:
continue
logging.debug("-- {}".format(ck))
d = copy.deepcopy(doc)
d["image"] = image
add_positions(d, [[ii]*5])
tokenize(d, ck, eng)
res.append(d)
return res

Laden…
Abbrechen
Speichern