Parcourir la source

Fix: order chunks from docx by positions. (#7979)

### What problem does this PR solve?

#7934

### Type of change

- [x] Bug Fix (non-breaking change which fixes an issue)
tags/v0.19.1
Kevin Hu il y a 5 mois
Parent
révision
93f5df716f
Aucun compte lié à l'adresse e-mail de l'auteur
1 fichiers modifiés avec 2 ajouts et 1 suppressions
  1. 2
    1
      rag/nlp/__init__.py

+ 2
- 1
rag/nlp/__init__.py Voir le fichier

@@ -279,12 +279,13 @@ def tokenize_chunks(chunks, doc, eng, pdf_parser=None):
def tokenize_chunks_with_images(chunks, doc, eng, images):
res = []
# wrap up as es documents
for ck, image in zip(chunks, images):
for ii, (ck, image) in enumerate(zip(chunks, images)):
if len(ck.strip()) == 0:
continue
logging.debug("-- {}".format(ck))
d = copy.deepcopy(doc)
d["image"] = image
add_positions(d, [[ii]*5])
tokenize(d, ck, eng)
res.append(d)
return res

Chargement…
Annuler
Enregistrer