Bläddra i källkod

Perf: ignore concate between rows. (#8507)

### What problem does this PR solve?


### Type of change

- [x] Performance Improvement
tags/v0.20.0
Kevin Hu 4 månader sedan
förälder
incheckning
6d256ff0f5
Inget konto är kopplat till bidragsgivarens mejladress
2 ändrade filer med 5 tillägg och 1640 borttagningar
  1. 5
    1
      deepdoc/parser/pdf_parser.py
  2. 0
    1639
      rag/res/ner.json

+ 5
- 1
deepdoc/parser/pdf_parser.py Visa fil

@@ -479,6 +479,9 @@ class RAGFlowPdfParser:
self.boxes = bxs

def _concat_downward(self, concat_between_pages=True):
self.boxes = Recognizer.sort_Y_firstly(self.boxes, 0)
return

# count boxes in the same row as a feature
for i in range(len(self.boxes)):
mh = self.mean_height[self.boxes[i]["page_number"] - 1]
@@ -1136,7 +1139,8 @@ class RAGFlowPdfParser:
need_image, zoomin, return_html, False)
return self.__filterout_scraps(deepcopy(self.boxes), zoomin), tbls

def remove_tag(self, txt):
@staticmethod
def remove_tag(txt):
return re.sub(r"@@[\t0-9.-]+?##", "", txt)

def crop(self, text, ZM=3, need_position=False):

+ 0
- 1639
rag/res/ner.json
Filskillnaden har hållits tillbaka eftersom den är för stor
Visa fil


Laddar…
Avbryt
Spara