1 년 전 · 72c75b75cf
--- a/api/core/rag/extractor/word_extractor.py
+++ b/api/core/rag/extractor/word_extractor.py
 """Abstract interface for document loader implementations."""
 import datetime
 import logging
 import mimetypes
 import os
 import re
 import tempfile
 import uuid
 import xml.etree.ElementTree as ET
 from urllib.parse import urlparse
 import requests
 from extensions.ext_storage import storage
 from models.model import UploadFile
 logger = logging.getLogger(__name__)
 class WordExtractor(BaseExtractor):
    """Load docx files.
        image_map = self._extract_images_from_docx(doc, image_folder)
        hyperlinks_url = None
        url_pattern = re.compile(r'http://[^\s+]+//|https://[^\s+]+')
        for para in doc.paragraphs:
            for run in para.runs:
                if run.text and hyperlinks_url:
                    result = f'  [{run.text}]({hyperlinks_url})  '
                    run.text = result
                    hyperlinks_url = None
                if 'HYPERLINK' in run.element.xml:
                    try:
                        xml = ET.XML(run.element.xml)
                        x_child = [c for c in xml.iter() if c is not None]
                        for x in x_child:
                            if x_child is None:
                                continue
                            if x.tag.endswith('instrText'):
                                for i in url_pattern.findall(x.text):
                                    hyperlinks_url = str(i)
                    except Exception as e:
                        logger.error(e)
        def parse_paragraph(paragraph):
            paragraph_content = []
            for run in paragraph.runs: