Wyniki wyszukiwania - BazTech

1

Examination of text's lexis using a Polish dictionary

Voitovych Roman, Łukasik Edyta

Journal of Computer Sciences Institute

|

2021

|

Vol. 21

316--323

EN

This paper presents an approach to compare and classify books written in the Polish language by comparing their lexis fields. Books can be classified by their features, such as literature type, literary genre, style, author, etc. Using a preas-sembled dictionary and Jaccard index, the authors managed to prove a lexical likeness for books. Further analysis with the PAM clustering algorithm presented a lexical connection between books of the same type or author. Analysis of values of similarities of any particular field on one side and some anomalous tendencies in other cases suggest that recognition of other features is possible. The method presented in this article allows to draw conclusions about the con-nection between any arbitrary books based solely on their vocabulary.

PL

Artykuł prezentuje metodę porównania i klasyfikacji książek napisanych w języku polskim na podstawie ich leksyki. Książki można dzielić, korzystając z ich cech, np. rodzaju literatury, gatunku literackiego, stylu, autora itp. Korzystając ze skompilowanego słownika i indeksu Jaccarda, udowodniona została hipoteza dotycząca podobieństwa książek rozpatrywanego pod kątem ich leksyki. Kolejna analiza za pomocą algorytmu klastrowego PAM wskazuje na związek leksykalny pomiędzy książkami jednego rodzaju literatury lub autora. Analiza wartości współczynników poszczególnych obszarów z jednej strony i anomalia w zachowaniu w niektórych przypadkach sugeruje, że wyodrębnienie kolejnych cech jest możliwe. Metoda przedstawiona w tym artykule pozwala wyciągać wnioski o relacjach między książkami, korzystając wyłącznie z ich słownictwa.

2

Odnajdywanie kampanii spamowych poprzez porównywanie cech szczególnych e-maili i podobieństwo tekstowe

Gajewski Robert, Korczak Adrian, Kozakiewicz Adam

Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

|

2020

|

nr 7-8

233--237, CD

PL

W tym artykule przedstawiono metodologię identyfikacji strategii spamowania opartej na odnajdywaniu kampanii spamowych. Pogrupowanie wiadomości spamowych w kampanie jest ważne, aby ujawnić zachowania, których nie można zauważyć patrząc na cały zestaw zebranych e-maili. Proponujemy technikę identyfikacji kampanii opartą na strukturze drzewa częstych wzorców FP Growth wraz z algorytmem do odnajdywania szablonu prawie identycznych treści między różnymi wiadomościami. Następnie staramy się scharakteryzować te kampanie pod względem zaciemnionych cech.

EN

This paper presents a methodology for identification of spam strategies based on finding spam campaigns. Grouping spam messages into campaigns is important to observe behaviors that cannot be noticed when looking at the whole set of collected emails. We propose a campaign identification technique based on a structure of frequent pattern tree FP Growth along with a separate algorithm for finding text templates for email messages with close to identical content. After that we try to characterize these campaigns in terms of the obfuscated features.

3

Związek między cyrkulacją atmosferyczną według Lityńskiego i sezonowymi opadami w Polsce

Pianko-Kluczyńska K.

Przegląd Naukowy Inżynieria i Kształtowanie Środowiska

|

2015

|

Vol. 24, No. 2

167--177

PL

Warunki opadowe (czyli suma opadu i liczba dni z opadem), jakie panują w danym sezonie, na określonym terenie, są bardzo ważne w agrometeorologii. W pracy analizowano związki między indeksami cyrkulacyjnymi i typami cyrkulacji zdefiniowanymi przez J. Lityńskiego i sezonowymi warunkami opadowymi dla sześciu wybranych stacji synoptycznych Polski. Stacje te reprezentują różne regiony Polski. Poszukiwano związków przydatnych z punktu widzenia klimatologa oraz osoby prognozującej pogodę. Ważne więc było, aby dana sytuacja cyrkulacyjna nie tylko często towarzyszyła danej klasie opadowej, ale żeby jednocześnie do rzadkości należały przypadki, gdy cyrkulacja ta występowała z inną klasą opadową. Warunki opadowe określono, posługując się kilkoma klasyfikacjami: pięcioklasową bazującą na stosunku sumy opadu i liczby dni z opadem do ich wieloletnich średnich sezonowych (Biuletyn Meteorologiczno-Hydrologiczny w IMGW), siedmioklasową dla sumy opadu, opartą na standaryzowanym indeksie opadowym – SPI (często wykorzystywaną w opracowaniach agrometeorologicznych) oraz trzyklasową KLIM, stosowaną w prognozach długoterminowych zarówno w stosunku do sezonowej sumy opadu, jak i liczby dni z opadem. Cyrkulacja sezonowa została opisana za pomocą odniesienia wartości percentyli dla sezonu z danego roku do percentyli z okresu referencyjnego 1981–2010. Percentyle dotyczyły wartości indeksów będących podstawą klasyfikacji Lityńskiego oraz liczby dni z danym typem lub jego składową. Za pomocą indeksu Jaccarda zbadano siłę związków między klasami opadowymi i typami cyrkulacji oraz między klasami opadowymi i poszczególnymi składowymi cyrkulacji. Autor przeprowadził dwie rekonstrukcje warunków opadowych za pomocą prostego probabilistycznego klasyfikatora Bayesa (dla typów i indeksów cyrkulacyjnych na wejściu). Celem pracy było sprawdzenie, czy klasyfikacja według Lityńskiego jest przydatna przy opracowywaniu modelu prognozy sezonowych suszy i powodzi. Potwierdziła się hipoteza, że cyrkulacja atmosferyczna niesie ze sobą informację o bieżących i przyszłych warunkach opadowych, należy ją jednak uwzględniać w modelach prognostycznych razem z wiedzą o innych procesach atmosferycznych.

EN

Precipitation conditions (i.e. the sum of precipitation and number of days with precipitation), which exist in a given season and area, are very important for agriculture. The aim of the study was to verify the thesis that the atmospheric circulation based on Lityński’s indices and types of circulation, can determine the most likely precipitation conditions, in future seasons, in selected synoptic stations in Poland. Precipitation conditions were specified using several classifications: of five classes based on the ratio of total precipitation (number of days with precipitation to their seasonal many-years averages (Meteorological and Hydrological Bulletin, IMWM), of seven classes for total precipitation, based on Standardized Precipitation Index – SPI (often used in studies of agrometeorological), and of three classes system, which is used in long-term forecasts (this classification, denoted KLIM, describes either total precipitation and the number of days with precipitation). Seasonal circulation was described by reference of percentiles for the season of the year to the percentiles of the reference period 1981–2010. Percentiles were determined for the values of the indices and the number of days with selected type or its component. The author conducted two reconstructions of precipitation characteristics using a simple probabilistic Bayesian classifier (for types and circulation indices as explanatory variables). The aim of this work was to verify whether the classification according to Lityński is useful in forecasting of seasonal drought and flooding. The hypothesis has been confirmed that the atmospheric circulation delivers the information about current and future precipitation conditions but the knowledge of other atmospheric processes should be taken into account in forecasting models.