Avoid Chinese tokenizer when building

2024-12-23 17:31:41 +00:00 · 2015-09-08 12:59:03 -04:00 · 2015-09-08 12:59:03 -04:00 · 77a9b5c55b
commit 77a9b5c55b
parent 9071defb33
1 changed files with 6 additions and 0 deletions
--- a/wordfreq_builder/wordfreq_builder/tokenizers.py
+++ b/wordfreq_builder/wordfreq_builder/tokenizers.py
@ -32,6 +32,12 @@ def cld2_surface_tokenizer(text):
    text = TWITTER_HANDLE_RE.sub('', text)
    text = TCO_RE.sub('', text)
    lang = cld2_detect_language(text)
+
+    # Don't allow tokenization in Chinese when language-detecting, because
+    # the Chinese tokenizer may not be built yet
+    if lang == 'zh':
+        lang = 'en'
+
    tokens = tokenize(text, lang)
    return lang, tokens