PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Powiadomienia systemowe
  • Sesja wygasła!
  • Sesja wygasła!
Tytuł artykułu

Ekstrakcja spójnych tekstów z Internetu na potrzeby algorytmów lingwistycznych

Autorzy
Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
Extraction of coherent text from the Internet for use in natural language processing
Języki publikacji
PL
Abstrakty
PL
Lingwistyka komputerowa dąży do wytworzenia coraz lepszych algorytmów ekstrakcji informacji z tekstu. Bardzo obszernym źródłem tekstu jest obecnie Internet. Jest on jednak przeładowany informacjami nie skojarzonymi ze sobą tematycznie, a pojawiającymi się w jednym kontekście (np. na jednej stronie WWW). Powoduje to duże trudności w użyciu tych tekstów jako korpusów tekstu do przetwarzania lingwistycznego (szczególnie dla metod statystycznych). Celem stworzenia prezentowanych algorytmów była próba ekstrahowania tekstów spójnych tematycznie ze stron WWW, tak by teksty te mogły stanowić dobry korpus dla prac nad ekstrakcją informacji.
EN
Computer Linguistic is aimed to develop and improve text information extraction methods. Internet becomes a very extensive source of text, yet it is overloaded by thematically incoherent texts grouped by one presentation context (e.g. WWW page). This fact determines difficulties with usage of such texts as text corpuses for NLP processing (especially statistics based algorithms). Presented work is aimed to develop methods of extraction coherent texts from Web pages, that can improve quality of information extraction.
Słowa kluczowe
Wydawca
Rocznik
Strony
423--431
Opis fizyczny
Bibliogr. 6 poz., rys.
Twórcy
autor
  • Katedra Informatyki, Akademia Górniczo-Hutnicza w Krakowie
Bibliografia
  • [1] Manning C, Schiitze H., Foundations of Statistical Natural Language Processing. Cambridge, MIT Press 1999.
  • [2] Understanding Web 2.0
  • [3] Dorosz K., System automatycznej ekstrakcji tekstów z Internetu. Kraków, Akademia Górniczo-Hutnicza 2006 (praca magisterska).
  • [4] ISO8879 Standard, Information Processing - Text and Office Systems - Standard Generalized Markup Language (SGML).
  • [5] Murugesan S., Understanding Web 2.0. IT Professional Volume 9, Issue 4, July-Aug. 2007, 34-41, IEEE.
  • [6] onet.pl z dnia 11.02.2008
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-AGH1-0017-0027
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.