tokenize_file should ignore lines with unknown languages

2024-12-23 17:31:41 +00:00 · 2015-06-18 10:18:57 -04:00 · 2015-06-18 10:18:57 -04:00 · 34e9512517
commit 34e9512517
parent 2f4fe92c90
1 changed files with 2 additions and 2 deletions
--- a/wordfreq_builder/wordfreq_builder/tokenizers.py
+++ b/wordfreq_builder/wordfreq_builder/tokenizers.py
@ -67,8 +67,8 @@ def tokenize_file(in_filename, out_prefix, tokenizer, line_reader=last_tab):
    with open(in_filename, encoding='utf-8') as in_file:
        for line in in_file:
            text = line_reader(line)
-            tokens, language = tokenizer(text)
-            if language == 'un':
+            language, tokens = tokenizer(text)
+            if language != 'un':
                tokenized = '\n'.join(tokens)
                out_filename = '%s.%s.txt' % (out_prefix, language)
                if out_filename in out_files: