chrysanthemum-boy
							
						 
						
							
								72384b191d
								
									
										
											 
										
									
								
							 
						 
						
							
									Add `.doc` file parser. (#497) 
							 
							
							 
							
							
							
							
### What problem does this PR solve?
Add `.doc` file parser, using tika.
```
pip install tika
```
```
from tika import parser
from io import BytesIO
def extract_text_from_doc_bytes(doc_bytes):
    file_like_object = BytesIO(doc_bytes)
    parsed = parser.from_buffer(file_like_object)
    return parsed["content"]
```
### Type of change
- [x] New Feature (non-breaking change which adds functionality)
---------
Co-authored-by: chrysanthemum-boy <fannc@qq.com> 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								0dfc8ddc0f
								
									
										
											 
										
									
								
							 
						 
						
							
									enlarge docker memory usage (#501) 
							 
							
							 
							
							
							
							
### What problem does this PR solve?
### Type of change
- [x] Refactoring 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								a38e163035
								
									
										
											 
										
									
								
							 
						 
						
							
									remove doc from supported processing types (#488) 
							 
							
							 
							
							
							
							
### What problem does this PR solve?
#474  
### Type of change
- [x] Bug Fix (non-breaking change which fixes an issue) 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								ed6081845a
								
									
										
											 
										
									
								
							 
						 
						
							
									Fit a lot of encodings for text file. (#458) 
							 
							
							 
							
							
							
							
### What problem does this PR solve?
#384 
### Type of change
- [x] Performance Improvement 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								f6c7204002
								
									
										
											 
										
									
								
							 
						 
						
							
									refine log format (#312) 
							 
							
							 
							
							
							
							
### What problem does this PR solve?
Issue link:#264
### Type of change
- [x] Documentation Update
- [x] Refactoring 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								a0a480b708
								
									
										
											 
										
									
								
							 
						 
						
							
									continue add layout model for 'laws' (#292) 
							 
							
							 
							
							
							
							
### What problem does this PR solve?
Issue link:#289
### Type of change
- [x] New Feature (non-breaking change which adds functionality) 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								243de6ac90
								
									
										
											 
										
									
								
							 
						 
						
							
									add a new model for 'Laws' (#290) 
							 
							
							 
							
							
							
							
### What problem does this PR solve?
Issue link:#289
### Type of change
- [x] New Feature (non-breaking change which adds functionality) 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								fd7fcb5baf
								
									
										
											 
										
									
								
							 
						 
						
							
									apply pep8 formalize (#155) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								da21320b88
								
									
										
											 
										
									
								
							 
						 
						
							
									fix plainPdf bugs (#152) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								f6aee7f230
								
									
										
											 
										
									
								
							 
						 
						
							
									add use layout or not option (#145) 
							 
							
							 
							
							
							
							
* add use layout or not option
* trival 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								d7c362f237
								
									
										
											 
										
									
								
							 
						 
						
							
									adjust hierarchical_merge strategy (#100) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								602038ac49
								
									
										
											 
										
									
								
							 
						 
						
							
									fix task cancling bug (#98) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								8a57f2afd5
								
									
										
											 
										
									
								
							 
						 
						
							
									change callback strategy, add timezone to docker (#96) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								685b4d8a95
								
									
										
											 
										
									
								
							 
						 
						
							
									fix table desc bugs, add positions to chunks (#91) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								7fd1eca582
								
									
										
											 
										
									
								
							 
						 
						
							
									init README of deepdoc, add picture processer. (#71) 
							 
							
							 
							
							
							
							
* init README of deepdoc, add picture processer.
* add resume parsing 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								cacd36c5e1
								
									
										
											 
										
									
								
							 
						 
						
							
									use onnx models, new deepdoc (#68) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								a8294f2168
								
							 
						 
						
							
									Refine resume parts and fix bugs in retrival using sql (#66) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								407b2523b6
								
							 
						 
						
							
									remove unused codes, seperate layout detection out as a new api. Add new rag methed 'table' (#55) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								51482f3e2a
								
							 
						 
						
							
									Some document API refined. (#53) 
							 
							
							 
							
							
							
							
Add naive chunking method to RAG 
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								e6acaf6738
								
							 
						 
						
							
									Add Q&A and Book, fix task running bugs (#50) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								6224edcd1b
								
							 
						 
						
							
									Add task moduel, and pipline the task and every parser (#49) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								96a1a44cb6
								
							 
						 
						
							
									add paper & manual parser (#46) 
							 
							
							
							
						 
						1 рік тому  
					 
				
					
						
							
								   KevinHuSh
							
						 
						
							
								072f9dd5bc
								
							 
						 
						
							
									Add app to rag module: presentaion & laws (#43) 
							 
							
							
							
						 
						1 рік тому