PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

CKSD: Comprehensive Kurdish-Sorani Database

Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
CKSD: kompleksowa baza danych kurdyjsko-sorani
Języki publikacji
EN
Abstrakty
EN
Every individual has a specific language with which he/she communicates. Each language has special letters and features distinguishing it from other languages. Ideas, cultures, and sciences are exchanged through some notions of languages, including retrieval, translation, and classification of texts from journals, books, journals, research, and the internet. It is accomplished through database availability. Unfortunately, due to some reasons, Kurdish language databases may be rare or non-existent. In the present study, a Comprehensive Kurdish-Sorani Database (CKSD) is generated, which contains datasets of dates, letters, and common words in the Kurdish language, as well as the documents employed for the extraction of these datasets. Elements of these collections were extracted from the written documents in 27 different fonts. It bestows a comprehensiveness feature to the CKSD database that can be utilized by researchers. In order to determine the extent to which classifiers can categorize such data, these data were utilized in this study. Indeed, this study demonstrated the reliability of this data and its suitability for use in the fields of machine learning and other artificial intelligence applications.
PL
Każda osoba ma określony język, którym się komunikuje. Każdy język ma specjalne litery i cechy odróżniające go od innych języków. Idee, kultury i nauki są wymieniane za pośrednictwem niektórych pojęć języków, w tym wyszukiwania, tłumaczenia i klasyfikacji tekstów z czasopism, książek, badań i Internetu. Jest to możliwe dzięki dostępności baz danych. Niestety, z pewnych powodów bazy danych w języku kurdyjskim mogą być ograniczone lub nie istnieć. W niniejszym badaniu wygenerowano kompleksową bazę danych kurdyjsko-sorani (CKSD), która zawiera zbiory danych dat, liter i popularnych słów w języku kurdyjskim, a także dokumenty wykorzystane do ekstrakcji tych zbiorów danych. Elementy tych zbiorów zostały wyodrębnione z dokumentów pisanych 27 różnymi czcionkami. Nadaje to bazie danych CKSD cechę kompleksowości, która może być wykorzystywana przez badaczy. W celu określenia zakresu, w jakim klasyfikatory mogą kategoryzować takie dane, dane te zostały wykorzystane w tym badaniu. Badanie to wykazało wiarygodność tych danych i ich przydatność do wykorzystania w dziedzinie uczenia maszynowego i innych zastosowań sztucznej inteligencji.
Rocznik
Strony
153--156
Opis fizyczny
Bibliogr. 25 poz., tab.
Twórcy
  • University of Raparin, Software Engineering Department, Ranya, Iraq
  • University of Raparin, Department of Computer Science, Ranya, Iraq
  • Erbil Polytechnic University, Koya Technical Institute, Department of Information Technology, Koya, Erbil, Iraq
  • University of Raparin, Software Engineering Department, Ranya, Iraq
Bibliografia
  • [1] Abdulrahman R. O. et al.: Developing a Fine-Grained Corpus for a Less Resourced Language: The Case of Kurdish. arXiv 11467, 2019.
  • [2] Ahmed R. M. et al.: Kurdish Handwritten Character Recognition Using Deep Learning Techniques 46, 2022, 119278.
  • [3] Akhter M. P. et al.: Exploring Deep Learning Approaches for Urdu Text Classification in Product Manufacturing 16(2), 2022, 223–248.
  • [4] Allahyari M. et al.: A Brief Survey of Text Mining: Classification, Clustering, and Extraction Techniques. arXiv 1707.02919v2, 2017.
  • [5] Alwehaibi A., Roy K.: Comparison of Pre-Trained Word Vectors for Arabic Text Classification Using Deep Learning Approach. 17th IEEE International Conference on Machine Learning and Applications (ICMLA), 2018, 1471–1474.
  • [6] Celik S.: Collaborative English Language Learning in Primary School: A Sequential Explanatory Study in Kurdistan Region of Iraq. Id No. 2520, 2019.
  • [7] Chen K. et al.: Defect Texts Mining of Secondary Device in Smart Substation with GloVe and Attention-Based Bidirectional LSTM. Energies 13(17), 2020, 4522.
  • [8] Choudhary P. et al.: A Four-Tier Annotated Urdu Handwritten Text Image Dataset for Multidisciplinary Research on Urdu Script. Information Processing. 15(4), 2016, 1–23.
  • [9] Gómez L. A. et al.: Single Shot Scene Text Retrieval. European Conference on Computer Vision (ECCV), 2018, 700–715.
  • [10] Hakim L. et al.: Text Mining of UU-ITE Implementation in Indonesia. Journal of Physics: Conference Series 1, 2018.
  • [11] Hashimi A. O.: Ajami Tradition in Non-Islamic Society: The Roles of Ajami-Arabic Scripts in Keeping Records and Documentation. KIU Journal of Humanities 5(2), 2020, 373–379.
  • [12] Jana H. P.: The Tools of Language and Literature in Sustainable Development of the Globizen: An Enquiry with Special Reference to English Language and Literature. International Journal of Yogic, Human Movement and Sports Sciences 3(2), 2018, 318–324.
  • [13] Mallery G.: Sign Language among North American Indians Compared with That among Other Peoples and Deaf-Mutes. Vol. 14, Walter de Gruyter GmbH & Co KG, 2019.
  • [14] Rashid T. A. et al.: A Robust Categorization System for Kurdish Sorani Text Documents. Information Technology Journal 16(1), 2017, 27–34.
  • [15] Sheyholislami J.: Identity, Language, and New Media: The Kurdish Case. Language Policy 9, 2010, 289–312.
  • [16] Sun W. et al.: Data Processing and Text Mining Technologies on Electronic Medical Records: A Review. Journal of Healthcare Engineering 2018, 4302425 [https://doi.org/10.1155/2018/4302425].
  • [17] Tensmeyer C. et al.: Convolutional Neural Networks for Font Classification. 14th IAPR International Conference on Document Analysis and Recognition (ICDAR) 1, 2017, 985–990.
  • [18] Tofiq T. A., Hussein J. A.: Kurdish Text Segmentation Using Projection-Based Approaches. UHD Journal of Science and Technology 5(1), 2021, 56–65.
  • [19] Veisi H. et al.: Toward Kurdish Language Processing: Experiments in Collecting and Processing the Asosoft Text Corpus. Digital Scholarship in the Humanities 35(1), 2020, 176–193.
  • [20] Wahdan A. et al.: A Systematic Review of Text Classification Research Based on Deep Learning Models in Arabic Language. International Journal of Electrical and Computer Engineering (IJECE) 10(6), 2020, 6629–6643.
  • [21] Wang Z. et al.: DeepFont: Identify Your Font from an Image. 23rd ACM International Conference on Multimedia, 2015.
  • [22] Wiedemann G., Wiedemann: Text Mining for Qualitative Data Analysis in the Social Sciences. Vol. 1, Springer, 2016.
  • [23] Yao L. et al.: Graph Convolutional Networks for Text Classification. AAAI Conference on Artificial Intelligence 3(1), 2019, 7370–7377.
  • [24] Yaseen R., Hassani H.: Kurdish Optical Character Recognition. UKH Journal of Science and Engineering 2(1), 2018, 18–27.
  • [25] Zarro R. D. et al.: Recognition-based online Kurdish character recognition using hidden Markov model and harmony search. I. J. Technology 20(2), 2017, 783–794.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-3e313f40-ba96-45a0-b235-a6f8be2f66d5
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.