Procházet zdrojové kódy
enable 3 char words to finegrind tokenize (#2210)
### What problem does this PR solve?
### Type of change
- [x] Performance Improvement
tags/v0.11.0
Kevin Hu
před 1 rokem
Žádný účet není propojen s e-mailovou adresou tvůrce revize
|
|
|
|
|
|
|
|
), tks |
|
|
), tks |
|
|
|
|
|
|
|
|
def need_fine_grained_tokenize(tk): |
|
|
def need_fine_grained_tokenize(tk): |
|
|
if len(tk) < 4: |
|
|
|
|
|
|
|
|
if len(tk) < 3: |
|
|
return False |
|
|
return False |
|
|
if re.match(r"[0-9a-z\.\+#_\*-]+$", tk): |
|
|
if re.match(r"[0-9a-z\.\+#_\*-]+$", tk): |
|
|
return False |
|
|
return False |