Ekstrakcja spójnych tekstów z Internetu na potrzeby algorytmów lingwistycznych

Dorosz, K.

Powiadomienia systemowe

Sesja wygasła!
Sesja wygasła!

Artykuł - szczegóły

Tytuł artykułu

Ekstrakcja spójnych tekstów z Internetu na potrzeby algorytmów lingwistycznych

Autorzy

Dorosz K.

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

Warianty tytułu

Extraction of coherent text from the Internet for use in natural language processing

Języki publikacji

Abstrakty

Lingwistyka komputerowa dąży do wytworzenia coraz lepszych algorytmów ekstrakcji informacji z tekstu. Bardzo obszernym źródłem tekstu jest obecnie Internet. Jest on jednak przeładowany informacjami nie skojarzonymi ze sobą tematycznie, a pojawiającymi się w jednym kontekście (np. na jednej stronie WWW). Powoduje to duże trudności w użyciu tych tekstów jako korpusów tekstu do przetwarzania lingwistycznego (szczególnie dla metod statystycznych). Celem stworzenia prezentowanych algorytmów była próba ekstrahowania tekstów spójnych tematycznie ze stron WWW, tak by teksty te mogły stanowić dobry korpus dla prac nad ekstrakcją informacji.

Computer Linguistic is aimed to develop and improve text information extraction methods. Internet becomes a very extensive source of text, yet it is overloaded by thematically incoherent texts grouped by one presentation context (e.g. WWW page). This fact determines difficulties with usage of such texts as text corpuses for NLP processing (especially statistics based algorithms). Presented work is aimed to develop methods of extraction coherent texts from Web pages, that can improve quality of information extraction.

Słowa kluczowe

ekstrakcja tekstów Internet spójność tekstu DOM HTML

text extraction Internet text DOM HTML

Wydawca

Wydawnictwa AGH

Czasopismo

Automatyka / Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

Rocznik

2008

Tom

T. 12, z. 2

Strony

423--431

Opis fizyczny

Bibliogr. 6 poz., rys.

Twórcy

autor

Dorosz K.

Katedra Informatyki, Akademia Górniczo-Hutnicza w Krakowie

Bibliografia

[1] Manning C, Schiitze H., Foundations of Statistical Natural Language Processing. Cambridge, MIT Press 1999.
[2] Understanding Web 2.0
[3] Dorosz K., System automatycznej ekstrakcji tekstów z Internetu. Kraków, Akademia Górniczo-Hutnicza 2006 (praca magisterska).
[4] ISO8879 Standard, Information Processing - Text and Office Systems - Standard Generalized Markup Language (SGML).
[5] Murugesan S., Understanding Web 2.0. IT Professional Volume 9, Issue 4, July-Aug. 2007, 34-41, IEEE.
[6] onet.pl z dnia 11.02.2008

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-AGH1-0017-0027