Quellcode durchsuchen

Bug fix pdf parse index out of range (#440)

### What problem does this PR solve?

fix a bug comes when parse some pdf file #436 

### Type of change

- [☑️ ] Bug Fix (non-breaking change which fixes an issue)
tags/v0.3.0
加帆 vor 1 Jahr
Ursprung
Commit
39f1feaccb
Es ist kein Account mit der E-Mail-Adresse des Committers verbunden
1 geänderte Dateien mit 4 neuen und 1 gelöschten Zeilen
  1. 4
    1
      deepdoc/parser/pdf_parser.py

+ 4
- 1
deepdoc/parser/pdf_parser.py Datei anzeigen

@@ -830,10 +830,13 @@ class HuParser:
pn = [bx["page_number"]]
top = bx["top"] - self.page_cum_height[pn[0] - 1]
bott = bx["bottom"] - self.page_cum_height[pn[0] - 1]
if pn[-1] - 1 >= len(self.page_images): return ""
page_images_cnt = len(self.page_images)
if pn[-1] - 1 >= page_images_cnt: return ""
while bott * ZM > self.page_images[pn[-1] - 1].size[1]:
bott -= self.page_images[pn[-1] - 1].size[1] / ZM
pn.append(pn[-1] + 1)
if pn[-1] - 1 >= page_images_cnt:
return ""

return "@@{}\t{:.1f}\t{:.1f}\t{:.1f}\t{:.1f}##" \
.format("-".join([str(p) for p in pn]),

Laden…
Abbrechen
Speichern