浏览代码

add a new model for 'Laws' (#290)

### What problem does this PR solve?

Issue link:#289
### Type of change

- [x] New Feature (non-breaking change which adds functionality)
tags/v0.1.0
KevinHuSh 1年前
父节点
当前提交
243de6ac90
没有帐户链接到提交者的电子邮件
共有 4 个文件被更改,包括 13 次插入8 次删除
  1. 3
    2
      README.md
  2. 3
    3
      README_ja.md
  3. 3
    2
      README_zh.md
  4. 4
    1
      rag/app/laws.py

+ 3
- 2
README.md 查看文件

## 🆕 Latest Features ## 🆕 Latest Features
- Support [Ollama](./docs/ollama.md) for local LLM deployment.
- Support Chinese UI.
- 2023-04-10 Add a new layout recognize model for method 'Laws'.
- 2023-04-08 Support [Ollama](./docs/ollama.md) for local LLM deployment.
- 2023-04-07 Support Chinese UI.
## 📜 Roadmap ## 📜 Roadmap

+ 3
- 3
README_ja.md 查看文件

``` ```
## 🆕 最新の新機能 ## 🆕 最新の新機能
- [Ollama](./docs/ollama.md) を使用した大規模モデルのローカライズされたデプロイメントをサポートします。
- 中国語インターフェースをサポートします。
- 2023-04-10 メソッド「Laws」に新しいレイアウト認識モデルを追加します。
- 2023-04-08 [Ollama](./docs/ollama.md) を使用した大規模モデルのローカライズされたデプロイメントをサポートします。
- 2023-04-07 中国語インターフェースをサポートします。
## 📜 ロードマップ ## 📜 ロードマップ

+ 3
- 2
README_zh.md 查看文件



## 🆕 最近新特性 ## 🆕 最近新特性


- 支持用 [Ollama](./docs/ollama.md) 对大模型进行本地化部署。
- 支持中文界面。
- 2023-04-10 为‘Laws’版面分析增加了模型。
- 2023-04-08 支持用 [Ollama](./docs/ollama.md) 对大模型进行本地化部署。
- 2023-04-07 支持中文界面。


## 📜 路线图 ## 📜 路线图



+ 4
- 1
rag/app/laws.py 查看文件

import re import re
from io import BytesIO from io import BytesIO
from docx import Document from docx import Document
from api.db import ParserType
from rag.nlp import bullets_category, is_english, tokenize, remove_contents_table, hierarchical_merge, \ from rag.nlp import bullets_category, is_english, tokenize, remove_contents_table, hierarchical_merge, \
make_colon_as_title, add_positions, tokenize_chunks make_colon_as_title, add_positions, tokenize_chunks
from rag.nlp import huqie from rag.nlp import huqie
class Docx(DocxParser): class Docx(DocxParser):
def __init__(self): def __init__(self):
pass
self.model_speciess = ParserType.LAWS.value
super().__init__()
def __clean(self, line): def __clean(self, line):
line = re.sub(r"\u3000", " ", line).strip() line = re.sub(r"\u3000", " ", line).strip()

正在加载...
取消
保存