Separate tokens with spaces, not line breaks, in intermediate files

2024-12-23 17:31:41 +00:00 · 2016-01-12 12:59:18 -05:00 · 2016-01-12 12:59:18 -05:00 · 115c74583e
commit 115c74583e
parent 973caca253
1 changed files with 1 additions and 1 deletions
--- a/wordfreq_builder/wordfreq_builder/tokenizers.py
+++ b/wordfreq_builder/wordfreq_builder/tokenizers.py
@ -95,7 +95,7 @@ def tokenize_by_language(in_filename, out_prefix, tokenizer):
            text = line.split('\t')[-1].strip()
            language, tokens = tokenizer(text)
            if language != 'un':
-                tokenized = '\n'.join(tokens)
+                tokenized = ' '.join(tokens)
                out_filename = '%s.%s.txt' % (out_prefix, language)
                if out_filename in out_files:
                    out_file = out_files[out_filename]