PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego oparta o formalną analizę pojęć

Autorzy
Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
The Method of Designing the Knowledge Database and Rules for a Text Segmentation Tool Based on Formal Concept Analysis
Języki publikacji
PL
Abstrakty
PL
Cel: Zaprezentowanie rozwiązania problemu segmentacji tekstu dziedzinowego. Badany tekst pochodził z raportów (formularza „Informacji ze zdarzenia”, pola „Dane opisowe do informacji ze zdarzenia”) sporządzanych po akcjach ratowniczo-gaśniczych przez jednostki Państwowej Straży Pożarnej. Metody: W celu realizacji zadania autor zaproponował metodę projektowania bazy wiedzy oraz reguł segmentatora regułowego. Zaproponowana w artykule metoda opiera się na formalnej analizie pojęć. Zaprojektowana według proponowanej metody baza wiedzy oraz reguł umożliwiła przeprowadzenie procesu segmentacji dostępnej dokumentacji. Poprawność i skuteczność proponowanej metody zweryfikowano poprzez porównanie jej wyników z dwoma innymi rozwiązaniami wykorzystywanymi do segmentacji tekstu. Wyniki: W ramach badań i analiz opisano oraz pogrupowano reguły i skróty występujące w badanych raportach. Dzięki zastosowaniu formalnej analizy pojęć utworzono hierarchię wykrytych reguł oraz skrótów. Wydobyta hierarchia stanowiła zarazem bazę wiedzy oraz reguł segmentatora regułowego. Przeprowadzone eksperymenty numeryczne i porównawcze autorskiego rozwiązania z dwoma innymi rozwiązaniami wykazały znacznie lepsze działanie tego pierwszego. Przykładowo otrzymane wyniki F-miary otrzymane w wyniku zastosowania proponowanej metody wynoszą 95,5% i są lepsze o 7-8% od pozostałych dwóch rozwiązań. Wnioski: Zaproponowana metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego umożliwia projektowanie i implementację oprogramowania do segmentacji tekstu z małym błędem podziału tekstu na segmenty. Podstawowa reguła dotycząca wykrywania końca zdania poprzez interpretację kropki i dodatkowych znaków jako końca segmentu w rzeczywistości, zwłaszcza dla tekstów specjalistycznych, musi być opakowana dodatkowymi regułami. Działania te znacznie podnoszą jakość segmentacji i zmniejszają jej błąd. Do budowy i reprezentacji takich reguł nadaje się przedstawiona w artykule formalna analiza pojęć. Wiedza inżyniera oraz dodatkowe eksperymenty mogą wzbogacać utworzoną sieć o nowe reguły. Nowo wprowadzana wiedza może zostać w łatwy sposób naniesiona na aktualnie utworzoną sieć semantyczną, tym samym przyczyniając się do polepszenia segmentacji tekstu. Ponadto w ramach eksperymentu numerycznego wytworzono unikalny: zbiór reguł oraz skrótów stosowanych w raportach, jak również zbiór prawidłowo wydzielonych i oznakowanych segmentów.
EN
Objective: Presentation of a specialist text segmentation technique. The text was derived from reports (a form “Information about the event”, field “Information about the event - descriptive data”) prepared by rescue units of the State Fire Service after firefighting and rescue operations. Methods: In order to perform the task the author has proposed a method of designing the knowledge base and rules for a text segmentation tool. The proposed method is based on formal concept analysis (FCA). The knowledge base and rules designed by the proposed method allow performing the segmentation process of the available documentation. The correctness and effectiveness of the proposed method was verified by comparing its results with the other two solutions used for text segmentation. Results: During the research and analysis rules and abbreviations that were present in the studied specialist texts were grouped and described. Thanks to the formal concepts analysis a hierarchy of detected rules and abbreviations was created. The extracted hierarchy constituted both a knowledge and rules base of tools for segmentation of the text. Numerical and comparative experiments on the author's solution with two other methods showed significantly better performance of the former. For example, the F-measure results obtained from the proposed method are 95.5% and are 7-8% better than the other two solutions. Conclusions: The proposed method of design knowledge and rules base text segmentation tool enables the design and implementation of software with a small error divide the text into segments. The basic rule to detect the end of a sentence by the interpretation of the dots and additional characters as the end of the segment, in fact, especially in case of specialist texts, must be packaged with additional rules. These actions will significantly improve the quality of segmentation and reduce the error. For the construction and representation of such rules is suitable presented in the article, the formal concepts analysis. Knowledge engineering and additional experiments can enrich the created hierarchy by the new rules. The newly inserted knowledge can be easily applied to the currently established hierarchy thereby contributing to improving the segmentation of the text. Moreover, within the numerical experiment is made unique: a set of rules and abbreviations used in reports and set properly separated and labeled segments.
Twórcy
  • Instytut Podstaw Informatyki PAN, Zespół Podstaw Sztucznej Inteligencji, ul. Jana Kazimierza 5, 01-248 Warszawa
Bibliografia
  • 1. Mirończuk M., Karol K., Koncepcja systemu ekspertowego do wspomagania decyzji w Państwowej Straży Pożarnej, [w:] Inżynieria Wiedzy i Systemy Ekspertowe, Grzech A., Juszczyn K., Kwaśnicka H., Nguyen N.T. (red.), Akademicka Oficyna Wydawnicza EXIT, Warszawa 2009.
  • 2. Mirończuk M., Maciak T., Problematyka projektowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej, „Zeszyty Naukowe SGSP”, No 39, 2009.
  • 3. Krasuski A., Maciak T. Wykorzystanie rozproszonej bazy danych oraz wnioskowania na podstawie przypadków w procesach decyzyjnych Państwowej Straży Pożarnej. „Zeszyty Naukowe SGSP”, No 36, 2008, s. 17-35.
  • 4. Mirończuk M. Zmodyfikowana analiza FMEA z elementami SFTA w projektowaniu systemu wyszukiwania informacji na temat obiektów hydrotechnicznych w nierelacyjnym katalogowym rejestrze, „Studia Informatica”, Vol. 2, number 2B (97), 2011.
  • 5. Mirończuk M. Przegląd oraz zastosowanie metod eksploracji danych tekstowych do przetwarzania raportów z akcji ratowniczo-gaśniczych. „Zeszyty Naukowe SGSP” (w cyklu recenzyjnym), 2011.
  • 6. Słownik języka polskiego PWN. Hasło: strukturalizacja. http://sjp.pwn.pl/slownik/2576375/strukturalizacja [dostęp: 1 kwietnia 2011]
  • 7. Mirończuk M. Eksploracja Danych w kontekscie procesu Knowledge Discovery In Databases (KDD) i metodologii Cross-Industry Standard Process for Data Mining (CRISP-DM). Metody Informatyki Stosowanej, No 2, 2009.
  • 8. Abakus: System EWID99, http://www.ewid.pl/?set=rozw_ewid&gr=roz, [dostęp: 1 maja 2009].
  • 9. Abakus: System EWIDSTAT. http://www.ewid.pl/?set=ewidstat&gr=prod [dostęp: 1 maja 2009].
  • 10. Strona firmy abakus. http://www.ewid.pl/?set=main&gr=aba [dostęp: 1 marca 2009].
  • 11. Przepiórkowski A., Techniki dezambiguacji morfo syntaktycznej. Powierzchniowe przetwarzanie języka polskiego. Akademicka oficyna wydawnicza EXIT, Warszawa 2008. s. 17-45.
  • 12. Mykowiecka A., Elementy tekstu – segmenty, słowa, zdania. Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym, Wydawnictwo PJWSTK, Warszawa 2007, s. 65-83.
  • 13. Mykowiecka A., Inżynieria lingwistyczna. Komputerowe przetwarzanie tekstów w języku naturalnym, PJWSTK, Warszawa 2007.
  • 14. Miłkowski M., Lipski J., Using SRX Standard for Sentence Segmentation In: Human Language Technology Challenges for Computer Science and Linguistics, Vetulani Z. (editor), Springer, Berlin/Heidelberg 2011. s. 172-182.
  • 15. openNLP, http://incubator.apache.org/opennlp/ [dostęp: 1 kwietnia 20011].
  • 16. Wolff KE., A first course in formal concept analysis. 1994. [dok. elektr.] http://www.fbmn.fh-darmstadt.de/home/wolff/Publikationen/A_First_Course_in_ Formal_ Concept_Analysis.pdf [dostęp: 22 grudnia 2009].
  • 17. Patil P,. Applying Formal Concept Analysis to Object Oriented Design and Refactoring, Bombay: Department Of Computer Science and Engineering Indian Institute Of Technology, 2009.
  • 18. Priss U., Formal concept analysis in information science, “Annu Rev Inform Sci Tech”, No 40, 2006, s. 521-543.
  • 19. Hwang S. H., Kim H. G., Yang H. S., A FCA-Based Ontology Construction for the Design of Class Hierarchy In: Computational Science and Its Applications – ICCSA 2005, Gervasi O., Gavrilova M., Kumar V., Laganà A., Lee H., Mun Y., et al. (editors), Springer, Berlin/Heidelberg 2005. s. 307-320.
  • 20. Carpineto C., Romano G. Using Concept Lattices for Text Retrieval and Mining In: Formal Concept Analysis, Ganter B., Stumme G., Wille R. (editors), Springer Berlin/Heidelberg, 2005. s. 3-45.
  • 21. Cimiano P, Hotho A., Staab S. Clustering concept hierarchies from text In: Proceedings of LREC, 2004.
  • 22. Leksyka.pl Knowledge-based system, http://megaslownik.pl/slownik/angielsko_polski/137416,knowledge-based+system [dostęp: 5 maja 2011].
  • 23. Mens K., Tourw T., Delving source code with formal concept analysis. “Comput Lang Syst Struct”, No 31, 2005, s. 183-197.
  • 24. Muangon W., Intakosum S., Retrieving design patterns by case-based reasoning and Formal Concept Analysis. [Beijing]: Computer Science and Information Technology, 2009 ICCSIT 2009 2nd IEEE International Conference, 2009.
  • 25. Muangon W., Intakosum S., Adaptation of Design Pattern Retrieval Using CBR and FCA. Proceedings of the 2009 Fourth International Conference on Computer Sciences and Convergence Information Technology, 2009.
  • 26. Arvalo G., Mens T., Analysing Object-Oriented Application Frameworks Using Concept Analysis. Proceedings of the Workshops on Advances in Object-Oriented Information Systems, 2002.
  • 27. Felleisen M., How to design class hierarchies. [Tallinn, Estonia]: Proceedings of the 2005 workshop on Functional and declarative programming in education, 2005.
  • 28. Proulx V. K., Gray K. E., Design of class hierarchies: an introduction to OO program design, “SIGCSE Bull”, No 38, 2006, s. 288-292.
  • 29. Godin R., Mili H., Mineau G. W., Missaoui R., Arfi A., Chau T. T., Design of class hierarchies based on concept (Galois) lattices, “Theor Pract Object Syst”, No 4, 1998, s. 117-133.
  • 30. Godin R., Valtchev P., Formal Concept Analysis-Based Class Hierarchy Design in Object-Oriented Software Development In: Formal Concept Analysis, Ganter B., Stumme G. and Wille R. (editors), Springer Berlin/Heidelberg 2005. p. 209-231.
  • 31. Snelting G., Tip F. Reengineering class hierarchies using concept analysis, “SIGSOFT Softw Eng Notes”, No 23, 1998, s. 99-110.
  • 32. Snelting G., Tip F., Understanding class hierarchies using concept analysis, “ACM Trans Program Lang Syst”, No 22, 2000, s. 540-582.
  • 33. Tonella P., Formal Concept Analysis in Software Engineering, Proceedings of the 26th International Conference on Software Engineering, 2004.
  • 34. Laukaitis A., Vasilecas O., Formal concept analysis and information systems modeling, [Bulgaria]: Proceedings of the 2007 international conference on Computer systems and technologies, 2007.
  • 35. Hesse W., Tilley T., Formal Concept Analysis Used for Software Analysis and Modelling, In: Formal Concept Analysis, Ganter B., Stumme G. and Wille R. (editors), Springer Berlin/Heidelberg 2005. s. 259-282.
  • 36. Díaz-Agudo B., González-Calero P. A., Formal concept analysis as a support technique for CBR, “Knowledge-Based Systems”, No 14, 2001, s. 163-171.
  • 37. Belén D. A., Marco A. G., Pedro P. G., Pedro A. G., Formal concept analysis for knowledge refinement in case based reasoning, Springer, 2005.
  • 38. Pattaraintakorn P., Boonjing V., Tadrat J., A New Case-Based Classifier System Using Rough Formal Concept Analysis, Proceedings of the 2008 Third International Conference on Convergence and Hybrid Information Technology – Volume 02, 2008.
  • 39. Li Y., Shiu S. C. K., Pal S. K., Combining Feature Reduction and Case Selection in Building CBR Classifiers, “IEEE Trans on Knowl and Data Eng”, No 18, 2006, s. 415-429.
  • 40. Rancz K. T. J., Varga V., A method for mining functional dependencies in relational database design using FCA, Studia Universitatis “Babes-Bolyai” Cluj-Napoca, Informatica, No LIII, 2008, s. 17-28.
  • 41. Haav H., A semi-automatic method to ontology design by using FCA, University of Ostrava, Department of Computer Science. Ostrava, 2004.
  • 42. Gliński W., Ontologie. próba uporządkowania terminologicznego chaosu, Instytut Informacji Naukowej i Studiów Bibliologicznych UW. [dok. elektr.] http://bbc.uw.edu.pl/Content/20/13.pdf [dostęp: 10 sierpnia 2010].
  • 43. Hesse W., Ontologies in the Software Engineering process, EAI 2005 – Proceedings of the Workshop on Enterprise Application Integration, 2005.
  • 44. Rozporządzenie Ministra Spraw Wewnętrznych i Administracji z dnia 29 grudnia 1999 r. w sprawie szczegółowych zasad organizacji krajowego systemu ratowniczo-gaśniczego. Dz.U.99.111.1311 § 34 pkt. 5 i 6.
  • 45. Radvansky M., Formal concept analyse, [dok. elektr.] http://www.fca.radvansky.net/news.php [dostęp: 1 maja 2011]
  • 46. Mirończuk M., System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda segmentacji tekstu i jej ocena, Białystok, 2011.
  • 47. Markov Z., Larose D. T., Wyszukiwanie informacji tekstowych i wyszukiwanie w Internecie. Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW, Wydawnictwo Naukowe PWN, Warszawa 2009, s. 3-47.
  • 48. Hand D., Mannila H., Smith P., Eksploracja danych. Wydanie 1., Wydawnictwo Naukowo-Techniczne, Warszawa 2005.
  • 49. Markov Z., Larose D. T., Eksploracja zasobów internetowych. Analiza struktury, zawartości i użytkowania sieci WWW, Wydawnictwo Naukowe PWN, Warszawa 2009.
  • 50. Christopher D. Manning, Prabhakar Raghavan., Schütze H., Introduction to Information Retrieval In: Press C.U., editor, 2008.
  • 51. The R Project for Statistical Computing, http://www.r-project.org [dostęp: 1 stycznia 2011]
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-10f4079d-3b4f-44d6-93a4-56c87852ee79
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.