27 Commits (13fcd7a901b78219fb7ecae5aea250ca70ec6ddc)

Autor SHA1 Nachricht Datum
  Bowen Liang 39c14ec7c1
improve: unify Excel files parsing in either xls or xlsx file format by Pandas (#4965) vor 1 Jahr
  takatost 12c815c597
fix: ExtractSetting optional value missing None as default val (#5238) vor 1 Jahr
  Jyong ba5f8afaa8
Feat/firecrawl data source (#5232) vor 1 Jahr
  Bowen Liang f976740b57
improve: mordernizing validation by migrating pydantic from 1.x to 2.x (#4592) vor 1 Jahr
  Jyong 3b60c28b3a
deal the external image when extract docx image (#5024) vor 1 Jahr
  YC 9f8ca75a81
fixing a bug of handling header row when parsing xls file, and tune xls/xlsx parsing result to be more structured (#3600) vor 1 Jahr
  Bowen Liang 58db719a2c
dep: bump pandas from 1.x to 2.x (#4820) vor 1 Jahr
  Oliver Lee 176d91937d
fix 'NoneType' and new ContentType supported. (#4818) vor 1 Jahr
  yalei 026175c8f7
feat: update notion extractor (#3898) vor 1 Jahr
  Jyong 233c4150d1
support images and tables extract from docx (#4619) vor 1 Jahr
  majian b5204111da
Add UNSTRUCTURED_API_KEY env support (#4369) vor 1 Jahr
  Charlie.Wei 97b65f9b4b
Optimize webscraper (#4392) vor 1 Jahr
  Bowen Liang 7919596a21
fix: UP031 style rule violation (#3866) vor 1 Jahr
  Jyong 0737e930cb
chore: remove Langchain tools import (#3407) vor 1 Jahr
  chenxu9741 ad65c891e7
add xls file suport (#3321) vor 1 Jahr
  LiuVaayne b00466f025
feat:api Add support for extracting EPUB files in ExtractProcessor (#3254) vor 1 Jahr
  Jyong 6164604462
fix dataset retrival in dataset mode (#3334) vor 1 Jahr
  Jyong 9eba6ffdd4
Optimize csv and excel extract (#3155) vor 1 Jahr
  Vikey Chen e4f686deb7
fix unstructured api,remove unused parameters (#3056) vor 1 Jahr
  Jyong b0b0cc045f
add mutil-thread document embedding (#3016) vor 1 Jahr
  Weaxs 20bd49285b
excel: get keys from every sheet (#2796) vor 1 Jahr
  Bowen Liang b163545771
Use `python-docx` to extract docx files (#2654) vor 1 Jahr
  Charlie.Wei fa7ba30ba3
Fix rebuild index&csv parsing (#2705) vor 1 Jahr
  takatost a4d86496e1
fix: notion extractor raise 'NoneType' object has no attribute 'curre… (#2608) vor 1 Jahr
  Jyong 5b953c1ef2
Fix some RAG bugs (#2570) vor 1 Jahr
  Jyong 91ea6fe4ee
Fix/langchain document schema (#2539) vor 1 Jahr
  Jyong 6c4e6bf1d6
Feat/dify rag (#2528) vor 1 Jahr