| | --- |
| | license: mit |
| | datasets: |
| | - CohereForAI/aya_collection_language_split |
| | metrics: |
| | - f1 |
| | - recall |
| | - precision |
| | language: |
| | - te |
| | - kn |
| | - gu |
| | - mr |
| | - ml |
| | - bn |
| | - pa |
| | - ta |
| | library_name: transformers |
| | --- |
| | This is based on [Kredor's work](https://huggingface.co/kredor/punctuate-all). But the languages are: Telugu, Tamil, Malayalam, Kannada, Gujarathi, Panjabi, Marathi and Bengali. |
| |
|
| | ----- report ----- |
| |
|
| | precision recall f1-score support |
| | |
| | 0 0.99 0.99 0.99 18156530 |
| | . 0.95 0.95 0.95 987478 |
| | , 0.82 0.79 0.80 1064002 |
| | ? 0.97 0.96 0.97 316902 |
| | - 0.94 0.86 0.90 226991 |
| | : 0.94 0.96 0.95 262314 |
| | |
| | accuracy 0.97 21014217 |
| | macro avg 0.93 0.92 0.93 21014217 |
| | weighted avg 0.97 0.97 0.97 21014217 |
| | |
| |
|
| | ----- confusion matrix ----- |
| |
|
| | t/p 0 . , ? - : |
| | 0 1.0 0.0 0.0 0.0 0.0 0.0 |
| | . 0.0 1.0 0.0 0.0 0.0 0.0 |
| | , 0.2 0.0 0.8 0.0 0.0 0.0 |
| | ? 0.0 0.0 0.0 1.0 0.0 0.0 |
| | - 0.1 0.0 0.0 0.0 0.9 0.0 |
| | : 0.0 0.0 0.0 0.0 0.0 1.0 |
| | |
| |
|
| | ## Install |
| |
|
| | To get started install the package from [pypi](https://pypi.org/project/deepmultilingualpunctuation/): |
| |
|
| | ```bash |
| | pip install deepmultilingualpunctuation |
| | ``` |
| | ### Restore Punctuation |
| | ```python |
| | from deepmultilingualpunctuation import PunctuationModel |
| | |
| | model = PunctuationModel('ModelsLab/punctuate-indic-v1') |
| | text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను" |
| | result = model.restore_punctuation(text) |
| | print(result) |
| | ``` |
| |
|
| | **output** |
| | > హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు, అక్కడి భూమి నాకు కావాలి, నేను దాన్ని ఎలా పొందగలను? |
| |
|
| | ### Predict Labels |
| | ```python |
| | from deepmultilingualpunctuation import PunctuationModel |
| | |
| | model = PunctuationModel('ModelsLab/punctuate-indic-v1') |
| | text = "హ్యారీ చాలా చిన్న వ్యవసాయ కలిగి ఒక పెద్ద పొలం కావాలని కలలు కనేవాడు ఒకసారి తన తండ్రి బిల్ ను అడిగాడు అక్కడి భూమి నాకు కావాలి నేను దాన్ని ఎలా పొందగలను" |
| | clean_text = model.preprocess(text) |
| | labled_words = model.predict(clean_text) |
| | print(labled_words) |
| | ``` |
| |
|
| | **output** |
| |
|
| | > ['హ్యారీ', '0', 0.7721978], |
| | ['చాలా', '0', 0.9996537], |
| | ['చిన్న', '0', 0.9703038], |
| | ['వ్యవసాయ', '0', 0.99389863], |
| | ['కలిగి', '0', 0.66695035], |
| | ['ఒక', '0', 0.99995697], |
| | ['పెద్ద', '0', 0.9995778], |
| | ['పొలం', '0', 0.999982], |
| | ['కావాలని', '0', 0.9995049], |
| | ['కలలు', '0', 0.99998343], |
| | ['కనేవాడు', '0', 0.3442819], |
| | ['ఒకసారి', '0', 0.925744], |
| | ['తన', '0', 0.9999279], |
| | ['తండ్రి', '0', 0.82426786], |
| | ['బిల్', '0', 0.9998516], |
| | ['ను', '0', 0.99997056], |
| | ['అడిగాడు', ',', 0.55599153], |
| | ['అక్కడి', '0', 0.9996816], |
| | ['భూమి', '0', 0.9978115], |
| | ['నాకు', '0', 0.9999769], |
| | ['కావాలి', ',', 0.873619], |
| | ['నేను', '0', 0.99976164], |
| | ['దాన్ని', '0', 0.999979], |
| | ['ఎలా', '0', 0.99997866], |
| | ['పొందగలను', '?', 0.9895349] |
| |
|
| |
|