Wyniki wyszukiwania - Biblioteka Nauki

1

Propozycja modyfikacji dowolnego indeksu wyznaczającego liczbę skupień w zbiorze danych

100%

Korzeniewski J.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2007

|

tom 14

|

nr nr 1169 Klasyfikacja i analiza danych - teoria i zastosowania

314-320

XX

Artykuł zawiera propozycję metody wyznaczenia minimalnej liczby skupień w zbiorze danych. Kiedy znamy taką liczbę, możemy zmodyfikować dowolny indeks, uznając za właściwą liczbę skupień tę, którą wskazuje indeks pod warunkiem, że jest ona nie mniejsza od znalezionej minimalnej liczby skupień. Jeśli jest mniejsza, to za właściwą liczbę skupień uznajemy znalezioną minimalna liczbę skupień. Metoda oparta jest na analizie rozkładu odległości pomiędzy dwoma elementami zbioru danych i wymaga tylko znajomości wszystkich par odległości w danym zbiorze, czyli macierzy odległości. W tekście przedstawiono sformułowanie metody oraz jej ocenę za pomocą eksperymentu, w którym badany jest odsetek poprawionych wskazań dla zbiorów z przestrzeni euklidesowych wygenerowanych z zastosowaniem programu CLUSTGEN. (fragment tekstu)

EN

In the paper a proposal of the modification of an arbitrary data set cluster number index is given. The idea of the modification is to obtain a lower bound of the number of clusters in a data set through analysing the distribution of pairwise distances. The modification was tested on 216 data sets from Euclidean spaces with the grouping done by the k-means method. The indices modified were the Rousseeuw silhouette index, the Krzanowski-Lai index, the Caliński-Harabasz index and the Hartigan index. (original abstract)

2

Modyfikacja metody HINoV selekcji zmiennych w analizie skupień

100%

Korzeniowski J.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2013

|

tom 20

|

nr nr 278 Klasyfikacja i analiza danych - teoria i zastosowania

93-100

XX

Metoda HINoV selekcji zmiennych w analizie skupień jest znana od roku 1999. Oryginalna metoda HINoV jest zupełnie nieodporna na występowanie wśród zmiennych zanieczyszczających strukturę skupień zmiennych skorelowanych jednomodalnych lub równomiernych. Wadę tę próbowano wyeliminować w modyfikacji VS-KM. Częściowo się to udało. W artykule zaproponowana jest prosta modyfikacja polegająca na tym, by dla każdej liczby skupień rozważanej w procedurze replikacji zbadać stabilność podziału zbioru dla obu porównywanych podzbiorów zmiennych (rozłącznych), z których jeden trzeba wybrać. Modyfikacja oceniona jest w obszernym eksperymencie symulacyjnym na 8100 zbiorach danych ze strukturami skupień wygenerowanymi w postaci mieszanin rozkładów normalnych.(abstrakt oryginalny)

EN

The HINoV metod of variable selection has been known since 1999. The original method is not resistant to the existence of correlated variables among the noisy variables. This drawback was partially eliminated in the VS-KM modification of HINoV. In the article a modification of HINoV is proposed, consisting in the assessment of stability of the data division for each number of clusters and for both of the compared sets of variables. In the simplest variant one has to choose the subset whose stability criterion is highest. A new way of dividing the set of variables into two subsets is also proposed. The stability criterion is based on repeated drawing of roughly half of the data and comparing the divisions received with the help of the k-means. The modification is assessed in a broad simulation experiment comprising 8100 data sets with cluster structures generated in the form of the mixtures of normal distributions.(original abstract)

3

Ocena wpływu wartości stałej Minkowskiego na możliwość identyfikacji struktury grupowej danych o wysokim wymiarze

100%

Migdał-Najman K.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2015

|

tom 24

|

nr nr 384 Klasyfikacja i analiza danych - teoria i zastosowania

192-199

XX

W analizie zróżnicowania jednostek w przestrzeni wielowymiarowej ważny jest wybór odpowiedniej miary odległości. Wybór ten nabiera znaczenia, gdy analizie poddany jest zbiór danych o dużej liczbie jednostek opisanych setkami cech. Najczęściej stosuje się miary odległości oparte na metryce potęgowej. W metryce tej istotny staje się wybór odpowiedniego poziomu stałej Minkowskiego. Celem prezentowanych badań jest ocena wpływu wartości stałej Minkowskiego i wymiaru przestrzeni na możliwą do uzyskania strukturę grupową. W artykule na podstawie przeprowadzonych badań symulacyjnych wykazano, że w przypadku wysokiego wymiaru przestrzeni zastosowanie ułamkowego poziomu wykładnika w normie potęgowej wpływa na możliwość identyfikacji istniejącej struktury grupowej badanych jednostek(abstrakt oryginalny)

EN

An important decision in the analysis of the variability of units in themultidimensional space, is the choice of the measurement of distance which is accurate for a given problem. This choice is of particular importance, when we have data sets which are described by hundreds of features. In the empirical studies, the most used measure of distance is the exponential metric measure. When the units are described by a very large number of features, an appropriate choice of the Minkowski's constant level is important because has to affect the properties of the exponential metrics. With the increase of dimensionality, the properties of the metrics may change. The aim of this paper is to estimate the influence of the Minkowski's constant and high dimensional space on the group structure which may be obtained. Based on simulation studies the author of this paper shows that the high dimension of the space application of fractional exponential metrics affects the ability to identify the group structure

4

Propozycja algorytmu samouczenia się sieci neuronowych typu GNG ze zmiennym krokiem uczenia

100%

Najman K.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2011

|

tom 18

|

nr nr 176 Klasyfikacja i analiza danych - teoria i zastosowania

282-289

XX

Jednym z kluczowych parametrów procesu samouczenia się sieci neuronowych typu GNG jest szybkość zmiany pozycji w przestrzeni neuronu uczącego się i najbliższego połączonego z nim neuronu. Zależy ona od lokalnego błędu kwantyzacji i stałej nazywanej krokiem uczenia. Stała wartość kroku uczenia w szczególności niepotrzebnie zwalnia proces samouczenia się w początkowej jego fazie. W artykule proponuje się modyfikację algorytmu, wprowadzając zmienny krok uczenia oparty na liniowej funkcji iteracji między kolejnymi fazami wstawiania nowego neuronu do sieci. Przeprowadzone rozważania teoretyczne i eksperymenty symulacyjne potwierdzają zasadność proponowanej zmiany.(abstrakt oryginalny)

EN

One of the key parameters of self-learning GNG neural network process is the speed of the change of position in the space of a learning unit and the nearest unit connected to it. It depends on a local quantization error and a learning step. In the initial phase the constant value of the learning step unnecessarily slows down the self-learning process. The article presents the proposal of algorithm modification with the changing learning step. Theoretical discussions and simulation experiments confirm the legitimacy of a proposed change.(original abstract)

5

Metody analizy skupień w klasyfikacji markerów map Google

100%

Dudek A.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2014

|

tom 22

|

nr nr 327 Klasyfikacja i analiza danych - teoria i zastosowania

229-236

XX

Klasyfikacja markerów na mapach Google jest ciekawym przykładem zasto-sowań algorytmów analizy skupień, w którym ostateczna liczba otrzymanych skupień jest wynikową nie tylko założeń wstępnych i zastosowanego algorytmu, ale również skali, w której jest wyświetlana mapa. Ostatecznym celem klasyfikacji nie jest wyłącznie otrzy-manie względnie homogenicznych skupień, ale również zapobieganie zjawisku "zlewania się" markerów na mapie. W artykule zaproponowano modyfikację klasycznego algorytmu k-średnich, uwzględniającą odległość między punktami opisanymi szerokością i długością geograficzną, opisano zagadnienie powiązania skali, w jakiej mapa jest wyświetlana, z otrzymaną strukturą klas oraz zaproponowano algorytm przydziału punktów do zadanej trasy na podstawie odległości od niej.

EN

Classification of geographical points on Google maps is an interesting example of the use of cluster analysis algorithm in which the final number of clusters is obtained not only by presuppositions and the algorithm used, but also by the scale, on which the map is actually displayed. The ultimate goal of classification is not only to obtain relatively homo-geneous clusters, but also to prevent the phenomenon of "blurring" partitions on the map. In the paper a modification of the classical k-means algorithm, taking into account the distance between the two points described by latitude and longitude, is proposed. Next the issue of relationship between the scale at which the map is displayed with the final structure of the classes is discussed. Finally the algorithm of allocation of points to a predetermined route is proposed.(original abstract)

6

Asymmetric Distances: Potential Output Structures and Procedures

100%

Owsiński J. W.

Studia i Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą

|

2010

|

tom 31

317-325

XX

Artykuł przedstawia zagadnienie analizy systemów opisanych zasadniczo niesymetrycznymi odległościami w sytuacjach, gdy oczekiwane wyniki zazwyczaj implikują symetrię. Pokazano przykładowe takie sytuacje z punktu widzenia danych wejściowych oraz pożądanych struktur wyników. Te ostatnie są przede wszystkim związane z grupowaniem obiektów i analizą skupień. Zaproponowano pewną konkretną procedurę, i odniesiono się do jej zasadniczych własności. Ponieważ rozpatrywane zagadnienie jest niezmiernie rzadko podejmowane w literaturze przedmiotu, artykuł należy uważać za wprowadzający pewne podstawowe kwestie z rozważanego obszaru i proponujący kierunki prac w tym zakresie, zarówno jeśli idzie o metodykę, jak i kwestie techniczne.(abstrakt oryginalny)

EN

The paper presents the issue of treating the case of essentially asymmetric distances in the cases, when the expected / desired output structure implies (usually) symmetricity. Some examples of input structures are given, along with those of the potential output structures, the latter primarily corresponding to grouping / clustering. A straightforward procedure is proposed and some of its properties are assessed. Since the problem appears to be little treated in the literature of the subject, the paper ought to be considered as a very preliminary consideration, which ought to be pursued from both theoretical and technical points of view, given the potential fields of application, and the unresolved basic problems.(original abstract)

7

The Legislations and Countries Operating in the New Approach to Technical Harmonization and Standards as an Aspect of Consumer Safety

80%

Pigłowski M.

Marketing i Zarządzanie

|

2016

|

nr nr 3 (44)

73-81

XX

W 1985 roku wydano Rezolucję Rady w sprawie nowego podejścia do harmonizacji technicznej i normalizacji. Na podstawie Rezolucji wydawane są akty prawne, obowiązujące głównie w krajach Unii Europejskiej (UE) i szerzej Europejskiego Obszaru Gospodarczego (EOG). Zawierają one wymaganie zasadnicze dla produktów wprowadzanych na rynek unijny. Jednostki notyfikowane zajmują się oceną zgodności z tymi wymaganiami. Celem artykułu było zbadanie, czy i które notyfikacje (jednostek notyfikowanych) związane z aktami prawnym i krajami (lub grupami aktów prawnych i krajów) miały dominujący wpływ na kształtowanie zapewnienia bezpieczeństwa konsumenta. Obliczeń dokonano w programie Statistica 10 z wykorzystaniem analizy skupień. Stwierdzono, że podział na skupienia w ramach aktów prawnych i krajów zależy od liczby notyfikacji (a w przypadku aktów prawnych - dodatkowo od podobnych typów produktów/ryzyk). Akty prawne i kraje z dużą liczbą notyfikacji utworzyły oddzielne (lub nawet pojedyncze) skupienia. Nowelizowanie wcześniejszych lub wydawanie nowych aktów prawnych powinno być powiązane z rozwijaniem możliwości oceny produktów przez jednostki notyfikowane z mniejszych krajów UE. W procesie tym powinno się także zwracać uwagę na produkty często zgłaszane w systemie RAPEX (Systemie szybkiego powiadamiania o niebezpiecznych produktach nieżywnościowych).(abstrakt oryginalny)

EN

In 1985, the Council issued the Resolution on a new approach to technical harmonization and standards. On the basis of the Resolution, legislations were issued, which are in force mainly in the countries of the European Union (EU) and the wider European Economic Area (EEA). They contain essential requirements for products placed on the EU market. The notified bodies are involved in the conformity assessment with those requirements. The goal of the article was to examine whether and which notifications (of notified bodies) related to legislations and countries (or groups of legislations and countries) had a dominant influence on shaping of ensuring of consumer safety. The calculations were made in Statistica 10 using the cluster analysis. It was found out that the division into clusters within the legislations and countries depended on the number of notifications (and in the case of legislation - additionally on similar types of products / risks). The legislations and countries with a big number of notifications created separate (or even single) clusters. Amending the former or issuing the new legislations should be linked to the development of a possibility of products assessment by the notified bodies from the smaller EU countries. In this process attention should be also paid to the products often notified in the RAPEX (Rapid Alert System for non-food dangerous products). (original abstract)

8

Zastosowanie analizy skupień do klasyfikacji obiektów symbolicznych

80%

Gliwa M.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2006

|

tom 13

|

nr nr 1126 Klasyfikacja i analiza danych - teoria i zastosowania

237-245

XX

W artykule zostanie przedstawiona analiza skupień (divisive clustering) dla symbolicznej macierzy danych oraz przykład jej zastosowania do klasyfikacji obiektów symbolicznych opracowany za pomocą programu Sodas. Omawiana metoda to hierarchiczna metoda podziału. Polega na tym, aby z rozpatrywanego zbioru obiektów wydzielić możliwie jednorodne podzbiory (skupienia), zapewniając jednocześnie jak największe zróżnicowanie tych podzbiorów między sobą. Proces podziału zbioru obiektów zatrzymywany jest po określonej przez użytkownika liczbie skupień, a jego rezultatem jest drzewo, w którym każdy węzeł reprezentuje skupienie. (fragment tekstu)

EN

The article presents divisive clustering method for symbolic data array. This is a hierarchical clustering method. Its main aim is division of the set of symbolic objects for K separate clusters, inside which objects are as homogeneous as possible, however each cluster is as different as possible. K is the number of clusters given as input by the user. As a summary they present an example worked out by Sodas v. 1.2 programme. (original abstract)

9

Analityczne metody ustalania liczby skupień w rozmytych zbiorach danych

80%

Migdał-Najman K. , Najman K.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2006

|

tom 13

|

nr nr 1126 Klasyfikacja i analiza danych - teoria i zastosowania

159-167

XX

W niniejszej pracy zaprezentowane zostaną wybrane wskaźniki liczby skupień nazywane też wskaźnikami jakości grupowania (cluster validity index, duster separation index). Wskaźniki te mogą być szczególnie użyteczne w analizie dwuwymiarowych map SOM, a także innych dwuwymiarowych, rozmytych zbiorów danych. Dokonana zostanie ich ocena oparta na wynikach przeprowadzonych badań eksperymentalnych. (fragment tekstu)

EN

Several clustering techniques have been proposed for the analysis of fuzzy data sets. Cluster validity indices represent useful tools to support such a task. In this paper three validation indices were applied to fourteen data sets. The resultant optimal clusters have been found to be stable for the different validity indices used, viz. Bezdek's Partition Coefficient (PC), Classification Entropy (CE) and Separation Index (S). It was shown that these methods might support the prediction of the optimal cluster partitioning for those data sets but the determination of the optimal number of clusters is an open problem. Two indices (PC and CE) were called into question their usefulness. Index S was characterized by relatively not large errors and significant effectiveness. (original abstract)

10

Cluster Analysis of Medical Text Documents by Using Semi-Clustering Approach Based on GRAPH Representation

80%

Woźniak R. , Ożdżyński P. , Zakrzewska D.

Information Systems in Management

|

2018

|

tom 7

|

nr nr 3

213-224

EN

The development of Internet resulted in an increasing number of online text repositories. In many cases, documents are assigned to more than one class and automatic multi-label classification needs to be used. When the number of labels exceeds the number of the documents, effective label space dimension reduction may significantly improve classification accuracy, what is a major priority in the medical field. In the paper, we propose document clustering for label selection. We use semi-clustering method, by considering graph representation, where documents are represented by vertices and edge weights are calculated according to their mutual similarity. Assigning documents to semi-clusters helps in reducing number of labels, further used in multi-label classification process. The performance of the method is examined by experiments conducted on real medical datasets. (original abstract)

11

Analiza skupień jako narzędzie wspomagające budowę Person w projektowaniu stron internetowych, na przykładzie badania wykorzystania urządzeń mobilnych

80%

Zarańska K.

Studia i Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą

|

2015

|

tom 74

111-125

XX

Zasadniczym celem artykułu jest analiza użytkowników urządzeń mobilnych oraz próba wyznaczenia głównych profili ich zachowań. W obszarze profilowania uwzględniono następujące kryteria: kontekst, częstotliwość i sposób użytkowania urządzenia mobilnego. Wskazane cechy mogą stanowić podstawę do konstrukcji person reprezentujących różne typy użytkowników. W artykule opisane zostały podstawowe zasady projektowania witryn internetowych przeznaczonych na urządzenia mobilne. Do realizacji badań wykorzystano analizę skupień metodą k-średnich. (abstrakt oryginalny)

EN

The main goal of this article is to analyze the group of users of mobile devices and to define major elements of their profiles. The author, in the area ofprofiling, took into account the following criteria: the context, frequency and manner of use of the mobile device. It may allow to forming the basis of personas that represents different types of users. During analyzing the results of the survey k-mean clustering method was used. (original abstract)

12

Clustering as a Model and an Approach in Flexible Manufacturing

80%

Owsiński J. W.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2001

|

tom 8

|

nr nr 906 Klasyfikacja i analiza danych : teoria i zastosowania

168-179

XX

Artykuł dotyczy powstałej na początku lat siedemdziesiątych idei zastosowania analizy skupień do grupowania maszyn i operacji w elastycznym planowaniu produkcji. Pokazano dalszy rozwój tej idei, polegający na formułowaniu bardziej skomplikowanych modeli (definicje podobieństwa, funkcje jakości, ograniczenia organizacyjne) i stosowaniu bardziej wyrafinowanych metod. Ponieważ literatura przedmiotu jest bardzo obszerna, powołano się tylko na wybrane pozycje. Zasadniczy rozwój polegał na opracowywaniu nowych, zwykle coraz bardziej skomplikowanych modeli i odpowiadających im metod, których efektywność była w ogólności trudna do ocenienia. W końcu zaczęto odwoływać się do metaheurystyk, jakkolwiek również bez gwarancji sukcesu. Można tylko stwierdzić, że większość metod jest efektywna dla "porządnych" danych, implikujących separowalne grupy maszyn i/lub operacji, natomiast w większej lub mniejszej mierze zawodzi dla danych "trudnych". Pokazano również konkretny przykład zadania i zastosowania metody analizy skupień, podkreślając zalety takiego podejścia: (i) prostotę, (ii) szybkość, (iii) łatwość i naturalność interpretacji, (iv) możliwość kontrolowania przebiegu procedury, (v) możliwość otrzymywania rozwiązań alternatywnych. W zakończeniu postuluje się (ponowne) rozważenie szerszych korzyści z zastosowania prostych paradygmatów typu analizy skupień nie tylko w problemach elastycznego planowania produkcji, ale w innych istotnych dziedzinach nauki, takich jak statystyka czy sztuczna inteligencja. (abstrakt oryginalny)

EN

The paper first presents the concept of application of the clustering-based approaches to the cell formation problem of flexible manufacturing. Then, it takes up further developments, involving more complicated models and more sophisticated methods. In view of the multiplicity and diversity of studies devoted to this problem only selected instances are shown, illustrating the path of development. The mainstream path leads through the efforts to solve the more intricate cell formation models by application of different algorithms, with a varying degree of success. Ultimately, the metaheuristies started to be applied, with, however, not much more success altogether than with the classical techniques. Generally, most methods work well for problems in which the data are "well-behaved" (clear-cut cells), while problems appear for data sets yielding solutions far from the "ideal" one(s). So, a case is presented of application of a clustering technique to a cell formation problem, showing the advantages of application of such methods. It is finally argued that, in a more general perspective, the return to such relatively simple clustering approaches may have deeper sense not just for the cell formation problem, but also in other instances. (fragment of text)

13

Metody ustalania liczby skupień w zbiorach danych binarnych

80%

Najman K.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2007

|

tom 14

|

nr nr 1169 Klasyfikacja i analiza danych - teoria i zastosowania

321-329

XX

Celami przedstawionych badań są prezentacja i krytyczna ocena wskaźników jakości grupowania (liczby skupień) obiektów opisanych cechami binarnymi. Ocena będzie oparta na analizie teoretycznych własności metod grupowania i opisanych wskaźników, a także na badaniach symulacyjnych. Ponieważ w szybkim tempie rośnie liczba badań, w których wymaga się grupowania danych binarnych, rozwój metod ich analizy i ustalenie liczby grup wydaje się zadaniem ważnym i aktualnym. (fragment tekstu)

EN

In this paper the performance of fourteen indexes for determining the number of clusters in a binary data set is analyzed. To ensure that the right number of clusters is known, only artificial sets, designed to simulate data, are used. The resultant optimal clusters have been found to be stable for the different validity indices used, e.g.: Global Silhouette Index, Hubert-Lewin Index, Calinski-Harabasz Index, Ball-Hall Index, Hartigan Index and others. For the evaluation of the performance of the indexes, к-means and hierarchical algorithms are applied. The selection of the number of clusters based on the indexes values for the different number of clusters is done in an automatic way. It was shown that these indexes mightn't support the prediction of the optimal cluster partitioning for those binary data sets. (original abstract)

14

Sejm VI kadencji - maszynka do głosowania

80%

Denkowska S. , Fijorek K. , Salamaga M. , Sokołowski A.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2013

|

tom 21

|

nr nr 279 Klasyfikacja i analiza danych - teoria i zastosowania

11-18

XX

W pracy analizowano wyniki głosowań przeprowadzonych w Sejmie VI kadencji. Kadencję podzielono na trzy okresy, których punktami granicznymi były wybory do Parlamentu Europejskiego oraz katastrofa smoleńska. Z badań wyeliminowano głosowania, w których udział głosów "za" lub "przeciw" nie przekraczał 10%. Na podstawie tych głosowań nieoczywistych wyodrębniano grupy posłów głosujących jednorodnie w analizowanych okresach. Stwierdzono dużą stabilność głosowań, co było spowodowane dominacją trzech sił politycznych: koalicji, PiS-u i lewicy. Ze względu na narzucaną dyscyplinę partyjną wydaje się, że w Sejmie tym wystarczyłoby 7 posłów (z nierówną liczbą "głosów"), bo tyle zasadniczych grup wskazała analiza skupień.(abstrakt oryginalny)

EN

Voting taken during the VIth term of the lower chamber of Polish Parliament has been analyzed in the paper. The term was divided into three parts delimited by European Parliament elections and Smolensk plane crash. Voting with smaller than 10% "yes" or "no" votes has been eliminated from the analysis. Homogeneous groups of parliament members were found. Political scene was dominated by three main powers: ruling coalition, PiS party and left wing parties. Due to voting discipline imposed by the leaders it seems that it would be enough to have just seven MPs (with non-equal number of votes), the number suggested by the results of cluster analysis.(original abstract)

15

Identyfikacja obserwacji odstających w analizie skupień

80%

Batóg J.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

|

2016

|

tom 26

|

nr nr 426 Klasyfikacja i analiza danych - teoria i zastosowania

13-21

XX

W ramach przeprowadzonego badania dokonano analizy porównawczej me-tod identyfikujących obserwacje odstające w zbiorze danych przestrzennych. Wykorzystano w tym celu metodę k-średnich oraz dane charakteryzujące gminy województwa zachodnio-pomorskiego pod względem poziomu dochodów i zadłużenia. Ocenie poddano wyniki uzy-skane za pomocą wybranych metod wykrywania obserwacji odstających typu false positive: metody zaproponowanej przez Wanga, Zhanga, Li i Songa, jej autorskiej modyfikacji, me-tody Kandogana oraz metody Outlier Removal Clustering. Jako miarę homogeniczności po-działu zastosowano miarę stopnia zróżnicowania obiektów wewnątrz skupiska. Uzyskane rezultaty pozwalają stwierdzić, że wszystkie zastosowane metody generują praktycznie identyczne wyniki. Występujące różnice polegają wyłącznie na odmiennej kolejności wska-zywania obserwacji odstających(abstrakt oryginalny)

EN

The research concerns comparison of methods that enable identifying spatial outliers. The analysis was based on the statistical data describing income and public debt of gminas of Zachodniopomorskie voivodship. All considerations were applied to partitions made by k-means method. Identification of false positive outliers was provided by means of Wang, Zhang, Li and Song method, author's modification of this method and additionally methods proposed by Kandogan and Hautamäki. The level of objects' differentiation within group was used as a measure of homogeneity of partitions. The received results were very similar for all considered methods. Some differences occur only in order of indicated outliers(original abstract)

16

Analiza podobieństwa wybranych państw Unii Europejskiej z punktu widzenia rozwoju zrównoważonego przy wykorzystaniu metody Warda

80%

Janulewicz P. , Kamińska A. , Białoskurski S.

Roczniki Naukowe Stowarzyszenia Ekonomistów Rolnictwa i Agrobiznesu

|

2016

|

tom 18

|

nr z. 1

78-83

XX

Zaprezentowano teorię z zakresu rozwoju zrównoważonego oraz możliwości wykorzystania analizy skupień Warda do oceny podobieństwa i zróżnicowania państw wchodzących w skład UE. Stwierdzono, że wykorzystanie metody Warda wpłynie na poprawę poziomu rozwoju zrównoważonego. Metoda pozwoliła na podzielenie badanych jednostek na cztery grupy. Każdą z grup scharakteryzowano na podstawie ich wad i zalet. Najwięcej zalet miała grupa B, najwięcej wad grupa C. W skład grupy A weszły następujące państwa: Estonia, Irlandia, Cypr, Łotwa, Litwa, Luksemburg, Malta, Słowenia, Słowacja. W grupie B znalazło się 10 państw: Austria, Belgia, Bułgaria, Czechy, Dania, Finlandia, Grecja, Węgry, Holandia i Portugalia. Najmniej liczne okazały się grupy C i D, skupiające jedynie po 3 państwa. W skład grupy C weszły Niemcy, Hiszpania i Wielka Brytania, a do grupy D należały Francja, Polska i Włochy.(abstrakt oryginalny)

EN

This paper analyses knowledge about sustainable development and the possibility of using the cluster analysis for the Ward's method to assess the similarity and diversity between EU member states. The authors present Ward's methods which should be used by state authorities to improve the level of sustainable development. The methodology used allowed to share test units in four groups. Each of the groups has been characterized on basis of the available advantages and disadvantages. Most benefits had a group B and the biggest defects group C. The group A included the following countries: Estonia, Ireland, Cyprus, Latvia, Lithuania, Luxembourg, Malta, Slovenia, Slovakia. In Group B, there were 10 countries: Austria, Belgium, Bulgaria, Czech Republic, Denmark, Finland, Greece, Hungary, Netherlands, Portugal. Minimum required proved Groups C and D, focusing only on the 3 Member States. The group C consisted of: Germany, Spain, United Kingdom, and Group D of: France, Poland and Italy.(original abstract)

17

Wykorzystanie analizy skupień w prognozowaniu analogowym

80%

Kołaszewska U.

Prace Naukowe Akademii Ekonomicznej we Wrocławiu. Taksonomia

|

2005

|

tom 12

|

nr nr 1076 Klasyfikacja i analiza danych - teoria i zastosowania

248-256

XX

Użytecznymi metodami prognozowania w krótkich szeregach czasowych są metody analogowe. Metody te mogą być zastosowane pod warunkiem identyfikacji odpowiednich zmiennych lub obiektów, według których można obliczyć prognozę.W pracy, wykorzystując metodę analogii przestrzenno-czasowych, obliczono prognozę czynników wpływających na możliwość rozwoju handlu elektronicznego w Polsce. Przy doborze obiektów obiektów-wzorców dla obiektu prognozowanego posłużono się analizą skupień i metodą porządkowania liniowego. (fragment tekstu)

EN

In work a spacial-time analogy method was applied for issuing a forecast factors influencing e-commerce development in Poland. In order to choose pattern objects for forecasted object, a cluster analysis and ranking were carried out. Out of the group of countries classified as the best prepared there were chosen countries similar to Poland. The similarity of objects was estimated on the basis of the shape criterion. (original abstract)

18

Selekcja zmiennych w analizie skupień marketingowych zbiorów danych binarnych

80%

Korzeniowski J.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2018

|

tom 21

|

nr nr 508 Klasyfikacja i analiza danych - teoria i zastosowania

89-95

XX

W roku 2001 Desai zaproponował ciekawą miarę podobieństwa dwóch różnych wartości/wariantów tej samej cechy. Miarę tę można w dość prosty sposób wykorzystać do wyznaczenia siły dyskryminacyjnej cechy binarnej lub nominalnej wielostanowej w problemie analizy skupień. Idea oparta jest na tym, że im mniejsze podobieństwo, na przykład 1 do 0 (jako wartości zmiennej binarnej), tym większa zdolność dyskryminacyjna cechy. Ten pomysł zastosowano do skonstruowania nowej metody selekcji zmiennych binarnych w zagadnieniu analizy skupień i w zastosowaniu do dość obszernej klasy zbiorów danych binarnych, jaką są dane marketingowe. Podstawową zaletą nowej metody jest jej niezależność od konieczności grupowania danych, co wiąże się zawsze z przyjęciem jakiejś konkretnej metody grupowania oraz konkretnej wartości liczby skupień. Eksperyment przeprowadzony na 162 zbiorach danych pokazuje wysoką efektywność metody.(abstrakt oryginalny)

EN

In 2011 Desai proposed an interesting measure of similarity of two different values/ variants of the same variable. This measure can be easily used to assess the discrimination power of binary or multi-level nominal variable in cluster analysis. The idea is based on the fact that the smaller the similarity between e.g. 1 and 0 (treated as the binary variable values) the bigger the discrimination power of the variable. This idea was used to construct a new variable selection method for binary variables in the context of cluster analysis and for quite a broad range of binary data sets such as marketing data sets. The main advantage of the new proposal is its independence of the necessity of data grouping which is always connected with applying some grouping method and, in turn, some established number of clusters. The experiment carried out on 162 data sets shows high efficiency of the new proposal.(original abstract)

19

The Assessment of Investment Fund Classification Using Cluster Analysis

80%

Adamczyk A. , Dawidowicz D.

Zeszyty Naukowe Wyższej Szkoły Bankowej w Poznaniu

|

2017

|

tom 77 nr 6 Fiscal and Financial Stability and Current Challenges to Economic Development

149-157

XX

Celem artykułu była weryfikacja pytania badawczego, czy bazująca na polityce inwestycyjnej funduszy klasyfikacja funduszy może stanowić dla inwestorów wiarygodną wskazówkę pozwalającą antycypować oczekiwaną stopę zwrotu oraz ryzyko inwestycyjne. W badaniu wykorzystano metodę analizy skupień. Na podstawie uzyskanych wyników badania można stwierdzić, że przyjęte przez Izbę Zarządzających Funduszami i Aktywami (IZFA) kryteria grupowania funduszy (bazujące na polityce inwestycyjnej, tj. strukturze aktywów portfeli funduszy) nie w pełni pozwalają na identyfikację podstawowych charakterystyk funduszy jakimi są stopa zwrotu oraz ryzyko. Wniosek ten odnosi się w szczególności do funduszy mieszanych oraz akcyjnych. Wynika to najprawdopodobniej z tego, że kryteria polityki inwestycyjnej funduszy zapisane w klasyfikacji funduszy, definiują strukturę aktywów w zbyt elastyczny sposób. Należy jednak podkreślić, iż niezgodność funduszy z klasyfikacji IZFA z klasyfikacją opartą na stopach zwrotu i ryzyka, charakteryzowała się tym, iż wybór funduszu o teoretycznie wyższym poziomie ryzyka i oczekiwanej stopie zwrotu w rzeczywistości okazał się wyborem funduszu o niższej stopie zwrotu i niższym ryzyku.(abstrakt oryginalny)

EN

The aim of the article was to verify the research question, whether the fund classification which is based on fund policy, can provide investors with a reliable tool to anticipate return and investment risk of funds. In the research, it was used the cluster analysis. Results of the study show that criteria for grouping funds adopted by the Chamber of Fund and Asset Management (IZFA) (based on the investment policy, ie the structure of assets of fund portfolios) do not fully identify the basic characteristics of funds such as the rate of return and investment risk. This conclusion applies in particular to mixed and equity funds. This is most likely due to the fact that the funds' investment policy criteria defined by the IZFA in their classification of funds were defined in a too flexible way. However, it should be emphasized that the non-compliance of funds from the IZFA classification with the classification based on rates of return and investment risk was characterized by the fact that the selection of a fund with a theoretically higher level of risk and the expected rate of return has in reality, proved to be the choice of a fund with a lower rate of return and lower investment risk.(original abstract)

20

Typology of Low Developed Non-Metropolitan Sub-Regions in the European Union

80%

Sołtys J.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2015

|

nr nr 394 Local and Regional Economy in Theory and Practice

153-165

XX

Artykuł prezentuje typologię 319 niemetropolitalnych podregionów Unii Europejskiej, w których produkt krajowy brutto na mieszkańca w 2011 r. był poniżej 75% średniej unijnej. Celem typologii było poznanie zróżnicowania badanych podregionów jako punkt wyjścia do wyboru obszarów przyszłych badań porównawczych. Typologia uwzględnia 24 zmienne dotyczące stanu i dynamiki rozwoju społeczno-gospodarczego, demografii, struktury funkcjonalnej gospodarki i gęstości zaludnienia. Zastosowano metody: składowych głównych (PCA) i analizy skupień z algorytmem k-średnich do grupowania podregionów w typy. Ostatnia część artykułu zawiera charakterystykę poszczególnych typów i ogólnego wyniku według państw oraz listy podregionów w każdym typie. W podobnej typologii uprzednio sporządzonej przez autora, z sześcioma typami, w ich składzie przejawiała się narodowa specyfika, co skutkowalo trudnością wyboru podregionów do porównań międzynarodowych. Nowa typologia opisana w artykule zawiera cztery typy, w każdym z nich więcej podregionów z większej liczby państw(abstrakt oryginalny)

EN

This paper shows a typology of 319 NUTS-3 sub-regions in the European Union. The selected sub-regions are non-metropolitan sub-regions, whose gross domestic product per capita in 2011 was below 75% of the EU average. The objective of this typology was to recognize diversity in the examined sub-regions as a starting point for the selection of areas for future comparative research. The typology takes into account 24 variables related to the state and dynamics of socioeconomic development, demography, the functional structure of a sub-regions' economies and population density. Two methods applied to carry out the research were: Principal Component Analysis (PCA) and cluster analysis, which works using the k-means algorithm for grouping sub-regions into types. The last part of the paper presents characteristics of each type, characteristics of overall result by states and listing of type membership. In a similar typology previously prepared by the author, six types of sub-regions revealed national specifics that caused the difficulty of selecting sub-regions for international comparison. In contrast, the new typology described in this paper is based on four types and includes more sub-regions from more countries in each type(original abstract)