Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl
Ograniczanie wyników
Czasopisma help
Lata help
Autorzy help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 79

Liczba wyników na stronie
first rewind previous Strona / 4 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  text mining
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 4 next fast forward last
1
Content available Text mining w analizie zbiorów publikacji naukowych
100%
PL
Często stosowaną form przechowywania informacji w organizacjach i społeczeństwie jest tekst. Tekst może zostać poddany eksploracji w celu pozyskania wcześniej nieznanej i użytecznej wiedzy. Celem niniejszego artykułu jest prezentacja wyników analizy wybranych publikacji naukowych. Analiza została przeprowadzona z wykorzystaniem text mining’u, a jej celem było ustalenie jakich słów najczęściej używali autorzy publikacji, oraz obliczenie korelacji tych słów z innymi.
EN
Text is often used to store information in organizations and society. Text can be explored to gain previously unknown and useful knowledge. The aim of this article is to present the results of the analysis of selected scientific publications. The analysis was done using text mining. Its purpose was to determine what words were most used by the authors, and to calculate the correlation of those words with others words.
EN
The development of both control systems for machine fleets and computer-controlled production systems have provided companies with a wide spectrum of tools for collecting data about the operation of their machinery stocks. A vast number of companies only store historic data; however, they do not use these data to extract information with respect to improving the efficiency of their technical infrastructure. The paper discusses the application of data mining to control machine fleet failure frequency resulting from non-technical causes, i.e., due to human factors.
PL
Rozwój systemów monitorowania stanu parku maszynowego, a także powszechna komputeryzacja obszaru produkcji, dały przedsiębiorstwom szeroki wachlarz narzędzi pozwalających rejestrować dane dotyczące funkcjonowania posiadanych maszyn. Znaczna część przedsiębiorstw jedynie gromadzi obszerne zbiory danych historycznych, nie podejmując działań zmierzających ku pozyskaniu z nich informacji mogących wpłynąć na poprawę efektywności posiadanej infrastruktury technicznej. W artykule przedstawiono możliwość zastosowania eksploracji danych tekstowych do prowadzenia nadzoru nad awaryjnością parku maszynowego powodowaną przyczynami nietechnicznymi w postaci czynnika ludzkiego.
PL
Artykuł opisuje zastosowanie sieci językowych w reprezentacji dokumentów tekstowych. Przedstawia dwa modele reprezentacji: statystyczny oraz z wykorzystaniem sieci językowych. Opiera się na przeprowadzonej analizie literaturowej, której celem było poszukiwanie wydajnej metody reprezentacji dokumentów, mającej służyć do dalszych badań w dziedzinie wyszukiwania dokumentów tekstowych na podstawie rzeczywistych treści.
EN
The article propels the problem of building the model of continuous texts representation. It presents mechanisms of weights assignment to the individual document features based on statistical analysis and text networks. The review on document representation is the first step to investigation into searching documents.
PL
W psychologii analizy danych zapisanych w postaci tekstów stanowią ważny element prac badawczych. Niemniej nadal poszukuje się narzędzi, metod, które mogą umożliwić szybką analizę danych zarejestrowanych w postaci tekstów, gdyż analizy te są najczęściej bardzo czasochłonne. W prezentowanym artykule przybliżono metodę text mining, która ma szczególne zastosowanie w analizie informacji zapisanych w postaci danych tekstowych. Wykorzystanie metody text mining jest omawiane na przykładzie analizy obieranych przez rodziców celów wychowawczych.. W artykule przedstawiono sposób, w jaki algorytmy text mining: a) dokonują analizy tekstu przez zliczenie słów i nadanie im wag, b) przeprowadzają analizę relacji między słowami za pomocą składowych głównych (Principal Component Analysis), c) przekształcają dane słownew liczbowe, przygotowując zbiór danych do kolejnych obliczeń.
EN
In the psychology the analysis of data written in the form of texts are an important element of research work. Nevertheless, tools are still sought, methods that can enable rapid analysis of data recorded in the form of texts, because these analyzes are usually very time consuming. This article approximates the text mining method, which is particularly applicable in the analysis of information recorded in the form of text data. Analysing textual data using text mining algorithms is shown on the example of parents’ choice of educational goals. The paper presents the way in which text mining algorithms: a) perform text analysis by counting words and weighting them, b) analyze relationships between words by means of Principal Component Analysis, c) convert verbal data into numerals by preparing a set data for subsequent calculations.
EN
The paper aims to contribute to the research of the film market, starting a discussion and seeking answers to the following problem: What spectrum of film-viewer experiences can be identified and better understood due to the implementation of text mining in the analysis of online film reviews? The presented study was based on the analysis of online audience reviews of five films targeted at a young audience, with their premières in 2016 and 2017. The findings suggest that implementing text mining as a method of analysis of online reviews can provide valuable insight into the film market, which may be helpful for producers in developing future productions, or altering the communication strategy.
PL
Przedstawione w artykule rozważania mają na celu wzbogacenie obszaru badań dotyczących filmu oraz stanowią próbę znalezienia odpowiedzi na pytanie, czy spektrum doświadczeń widza może być zidentyfikowane oraz lepiej rozumiane poprzez zastosowanie text mining w analizie internetowych recenzji filmowych. Niniejsze badanie zostało oparte na analizie internetowych recenzji pięciu filmów kierowanych do młodej widowni, których premiery odbyły się w 2016 oraz w 2017 roku. Prezentowane wyniki badania pozwalają na wysnucie wniosku, iż zastosowanie text mining w analizie recenzji online pozwala na uzyskanie informacji przydatnych w zrozumieniu rynku filmowego, a także użytecznych dla producentów filmowych w przygotowywaniu przyszłych produkcji, lub też w korekcie obranych strategii komunikacji marketingowej.
EN
The similarity based decision rule computes the similarity between a new test document and the existing documents of the training set that belong to various categories. The new document is grouped to a particular category in which it has maximum number of similar documents. A document similarity based supervised decision rule for text categorization is proposed in this article. The similarity measure determine the similarity between two documents by finding their distances with all the documents of training set and it can explicitly identify two dissimilar documents. The decision rule assigns a test document to the best one among the competing categories, if the best category beats the next competing category by a previously fixed margin. Thus the proposed rule enhances the certainty of the decision. The salient feature of the decision rule is that, it never assigns a document arbitrarily to a category when the decision is not so certain. The performance of the proposed decision rule for text categorization is compared with some well known classification techniques e.g., k-nearest neighbor decision rule, support vector machine, naive bayes etc. using various TREC and Reuter corpora. The empirical results have shown that the proposed method performs significantly better than the other classifiers for text categorization.
7
Content available remote The Concept Of Topological Information In Text Representation
94%
EN
This paper studies the possibility of processing text documents using topological information on keywords, by which we mean internal positions of the keywords in the text. While the word counts are pieces of information that is independent of the sequence of words in the text, the topological, i.e. position-related, information manifests obvious dependency on the sequence of words. In result, the presented method stops treating the texts as amorphous collections of words and starts treating them as linearly-ordered sequences of words. Thus, the introduced, topological approach is of higher level than the popular bag-of-words approaches, and its advantage should unveil in applications to texts of similar themes; due to their similar counts of keywords the topological information may prove to be indispensable. It should also require significantly smaller sets of keywords as compared to the bag-of-words approaches.
EN
In this paper the method of research publications elements analysis that is determining common qualities of research publications and their clustering as an instrument of selecting and sorting out the information about research schools has been introduced. In module structuring documents transmitted there are tape that indicates the address of the file. Depending on where the file is, it can be a path to a file on the local disk or URL on the Internet.
PL
Celem artykułu jest zidentyfikowanie cech gospodarstw agroturystycznych, które mają wpływ na ocenę nadawaną gospodarstwom przez użytkowników TripAdvisora. Materiał badawczy stanowiło 896 opinii dotyczących 57 obiektów agroturystycznych z obszaru całej Polski. W badaniach zastosowano metodę jakościowej analizy treści oraz metodę ilościową (text mining). Zidentyfikowano słowa najczęściej pojawiające się w opiniach użytkowników. Są to: miejsce, polecam, pokoje, właściciel, śniadania, atmosfera. Zauważono, że liczba słów i ich częstotliwość różnią się w zależności od przyznanej przez użytkowników oceny. Zdecydowanie najwięcej wyrazów liczą opinie cztero- i pięciogwiazdkowe. W trakcie badań stwierdzono, że turyści podróżujący z dziećmi wysoko oceniają gospodarstwa agroturystyczne oferujące szereg usług dodatkowych, a także że ważną cechą mającą wpływ na ocenę gospodarstw agroturystycznych jest czystość. Lokalizacja gospodarstwa agroturystycznego i poziom obsługi w obiekcie również mają wpływ na ocenę w TripAdvisorze. Na podstawie badań można stwierdzić, że do cech determinujących ocenę obiektów należą: czystość i porządek na terenie całego gospodarstwa agroturystycznego, atmosfera panująca w gospodarstwie, ale także uprzejmość i gościnność właścicieli. Istotnym czynnikiem jest także stosunek jakości oferowanych usług do ceny, jaką muszą turyści za te usługi zapłacić.
EN
This work proposes a software environment implementing a methodology for acquiring and exploiting the collective perception (CP) of Points of Interests (POIs) in a Smart City, which is meant to support decision makers in urban planning and management. This environment relies upon semantic knowledge discovery techniques and fuzzy computational approaches, including natural language processing, sentiment analysis, POI signatures and Fuzzy Cognitive Maps, turning them into a cohesive architectural blend in order to effectively gather the realistic perception of a user community towards given areas and attractions of a Smart City. The environment has been put to the test via a thorough experimentation against a massive user base of an online community with respect to a large metropolitan city (the City of Naples). Such an experimentation yielded consistent results, useful for providing decision makers with a clear awareness of the positive as well as critical aspects of urban areas, and thus helping them shape the measures to be taken for an improved city management and development.
11
Content available remote Performance of k-nearest neighbors algorithm in opinion classification
94%
EN
This paper presents another approach for determining document’s semantic orientation process. It includes a brief introduction describing the area of application of opinion mining, and some definitions useful in the field. The most commonly used methods are mentioned and some alternative ones are described. Experiment results are presented which show that kNN algorithm gives similar results to proportional algorithm.
PL
Niniejsza praca traktuje o metodach grupowania pojęciowego dokumentów. Przedstawiono sposoby reprezentacji dokumentów, tak aby mogły być one grupowane z wykorzystaniem klasycznych algorytmów DM, przegląd algorytmów grupujących oraz specjalizowane algorytmy grupowania tekstu. Artykuł zawiera także propozycje nowych reprezentacji dokumentów, jak i nowych specjalizowanych algorytmów klasteryzujących dokumenty tekstowe.
EN
The development of Internet resulted in an increasing number of online text repositories. In many cases, documents are assigned to more than one class and automatic multi-label classification needs to be used. When the number of labels exceeds the number of the documents, effective label space dimension reduction may significantly improve classification accuracy, what is a major priority in the medical field. In the paper, we propose document clustering for label selection. We use semiclustering method, by considering graph representation, where documents are represented by vertices and edge weights are calculated according to their mutual similarity. Assigning documents to semi-clusters helps in reducing number of labels, further used in multi-label classification process. The performance of the method is examined by experiments conducted on real medical datasets.
EN
Constantly increasing maintenance costs impose optimal maintenance policy planning. One possible way which helps to minimize maintenance costs and prevent bus fleet availability is analysis of historical maintenance records, which contain information about failures and performed repairs. In many cases this data have free text form and their analysis require individual log-by-log examination of their content. In order to automate this process, text mining methods can be applied. But, accuracy of the analysis depends on data quality and employed methods and should be tested before using this approach. This is especially important when the service decisions, which influence safety and maintenance costs, are made on this basis. The aim of this paper is to determine whether existing and currently used text-mining methods are sufficiently accurate to be used in classification of unstructured urban bus maintenance and repair data. For that purpose the case study and literature review has been conducted. The study shows great capabilities of proposed classification model. The model has 99% of accuracy and can be applied to support maintenance decisions.
PL
Stale rosnące koszty utrzymania taboru autobusowego wymuszają potrzebę kształtowania odpowiedniej polityki serwisowej. Niezbędna w tym zakresie jest analiza danych historycznych, które zawierają informację o zaistniałych awariach i wykonanych naprawach. W wielu przypadkach dane te posiadają formę tekstową, co wymaga ich indywidualnej oceny rekord po rekordzie. W celu zautomatyzowania tego procesu istnieje możliwość zastosowania metod klasy text mining. Aby jednak wyniki analizy text mining mogły zostać wdrożone muszą wykazywać się one odpowiednią dokładnością. Jest to szczególnie istotne w przypadku, gdy na podstawie tych wyników podejmowane są decyzje serwisowe wpływające na bezpieczeństwo i koszty eksploatacyjne. Celem niniejszego artykułu jest weryfikacja, czy powszechnie stosowane metody text mining są wystarczająco dokładne, aby analizować historyczne dane serwisowe autobusów. W tym celu dokonano przeglądu literaturowego oraz analizy text mining tego konkretnego typu danych. Przeprowadzone badania wykazały, że dokładność klasyfikatora wynosi 99%. Na tej podstawie można stwierdzić, że są to metody wystarczająco dokładne, aby za ich pośrednictwem podejmować decyzję serwisowe.
15
84%
EN
This article presents a proposal of identification of project managers’ competences in order to employers’ requirements. For this purpose the article presents the analysis of job advertisements with use of text analysis. According to that point of view the structure of the paper was created. The second part containing description of competences of project managers’. It shows the definition of competence, how it could be divided and which are the most important according to the authors. The third part of the article is divided into three pieces. First shows how to collect data to analysis. Second part shows procedure of text mining analysis, and the last part shows the results of such kind of analysis. It contains the words which appeared most frequently in the job offers and the correlation of those words with other words in text.
PL
W artykule podjęto próbę identyfikacji oczekiwanych przez pracodawców kompetencji kierowników projektów. W tym celu przeanalizowano treść ofert pracy z wykorzystaniem analizy text mining. Stosownie do przyjętego celu ustalono strukturę pracy. W punkcie drugim przedstawiono najważniejsze informacje dotyczące kompetencji kierowników projektów. Wymieniono cztery modele kompetencji, przedstawiono czym one są, na jakie grupy można je podzielić oraz, które z nich według wybranych autorów są najistotniejsze. Punkt trzeci podzielono na trzy części. W pierwszej z nich przedstawiono sposób zebrania danych do analizy. Kolejna część opisuje procedurę przeprowadzonej analizy text mining. Ostatnia część prezentuje wyniki przeprowadzonej analizy. Ustalono jakie słowa w analizowanych ofertach pojawiały się najczęściej, oraz jak była korelacji tych słów z innymi słowami.
16
Content available remote Analysis of knowledge sources and processing in the construction area
84%
EN
A presentation of knowledge sources in the construction industry studied amounting to several years of experience. Knowledge is an indispensable element of engineering activity. Its characteristics, like the characteristics of the construction industry, require frequent updating of knowledge, and the knowledge itself is often hidden and not accessible directly. In a certain way, this justifies building knowledge-based support systems as tools for faster, more efficient and prompt functioning in the engineering business. Apart from characteristics of knowledge sources, the article presents the sometimes critical overview of methods for acquiring and further processing such knowledge. The usefulness of knowledge acquisition methods tested by the author largely depend on the source itself, as well as the form and content of this knowledge.
PL
Zaprezentowano przeanalizowane na przestrzeni kilkuletnich doświadczeń źródła wiedzy w budownictwie. Wiedza jest niezbędnym elementem działalności inżynierskiej. Zarówno jej specyfika, jak i specyfika budownictwa wymaga częstych aktualizacji wiedzy, a ona sama jest częstokroć ukryta i niedostępna w formie bezpośredniej. Uzasadnia to budowę systemów wspomagających opartych na wiedzy, pozwalających na szybsze, efektywniejsze i sprawniejsze funkcjonowanie w działalności inżynierskiej. Oprócz charakterystyki źródeł wiedzy artykuł przedstawia krytyczne spojrzenie na metody pozyskiwania wiedzy oraz jej dalszego przetwarzania. Użyteczność przetestowanych przez autora metod pozyskiwania wiedzy w dużym stopniu zależy od samego jej źródła, a także od jej formy oraz zawartości.
PL
Artykuł stanowi kontynuację cyklu badań związanych z wykorzystaniem algebraicznych metod identyfikacji słów kluczowych w dokumentach tekstowych. Jego celem jest teoretyczna analiza i empiryczna weryfikacja przydatności użycia metod identyfikacji słów kluczowych opartej na dekompozycji SVD w naukowych tekstach polskojęzycznych.
EN
The article is a continuation of the cycle of studies related to the use of algebraic methods for keywords identification in text documents. Its purpose is to theoretical analysis and empirical verification of the suitability of the use of methods for keywords identification based on SVD decomposition of scientific in Polish texts.
PL
Artykuł przedstawia implementację mechanizmu typu text mining, bazującego na algorytmie odległości transformacyjnej autorstwa Vladimira Levenshteina , skutecznie wykrywającego podobieństwo wyrazów o różnej długości. Algorytm zastosowano do analizy podobieństwa jednozdaniowych fragmentów tekstów. Opracowany mechanizm cechuje szybkość analizy zdań i łatwość implementacji.
EN
This paper presents the proposal of text mining mechanism based on Levenshtein Distance Algorithm (LDA)[4], which effectively detect the similarity of different length words. This algorithm for similarity analysis of sentences is used and successfully detects similarities between single sentences. Mechanism is characterized by speed of data analysis and simplify of implementation.
PL
Artykuł przedstawia implementację algorytmów tekstowych w wybranych platformach przetwarzania równoległego. Dostępność procesorów wielordzeniowych oraz kart graficznych ogólnego przeznaczenia sprawia, iż badania nad równoległą implementacją algorytmów w celu ich akceleracji nabierają coraz większego znaczenia. Algorytmy tekstowe są niezwykle istotnym i często niezbędnym elementem zaawansowanych algorytmów analizy tekstu oraz są także składowymi funkcji wyszukiwania wzorców w tekście wielu języków programowania. W pracy dokonano analizy najpopularniejszych algorytmów tekstowych oraz dokonano ich analizy pod kątem ich zrównoleglenia w celu ich implementacji w procesorze wielordzeniowym oraz karcie graficznej ogólnego przeznaczenia. Analizowanymi algorytmami są: boyer-moore, algorytm naiwny oraz algorytm knuth-morris-pratt. Następnie dokonano porównania efektywności ich realizacji na wymienionych platformach sprzętowych.
EN
This paper presents implementation of text algorithms in multicore CPU and GPGPU. The text algorithms are very common algorithms used in text analysis process and they are a part of functions used for text patterns recognition. The library functions for text searching implemented in many languages very often use most popular text-algorithms. The paper describes the analysis of these algorithms for parallel implementations in multicore processors and general purpose graphic cards. The research work presented in this paper shows that text algorithms can be partially parallelized. The process of acceleration can be done by appropriate dividing the input text between parallel threads (data parallelism). The comparative studies were performed for the following algorithms: boyer-moore (horspool) , naive and knuth-morris-pratt algorithm. The presented results show the efficiency of these algorithms in the case of different type and size of patterns. In the case of GPU the implementation was made in the CUDA framework. The OpenMP library was used for a multicore version.
20
Content available remote Analiza rozmieszenia wyrazów w zdaniach w celu detekcji czasowników
84%
PL
Artykułprzedstawia analizęwyników próby detekcji czasowników wyprowadzonych przez mechanizm typu text mining, oparty o model cech wyrazów w zdaniach, bazujący na strukturze relacyjnej bazy danych. Podjęta została próba stworzenia mechanizmu wykrywającego czasowniki w oparciu o ich rozmieszczenie statystyczne w zdaniach. W artykule przeanalizowane zostały dokumenty tekstowe polskie i niemieckie, będące felietonami o tematyce z różnych dziedzin życia, w reprezentatywnej liczbie 50 artykułów polskich i 50 artykułów niemieckich.
EN
This paper presents analysis of the results of detection of verbs deduced by a text-mining mechanism based on the model of the characteristics of words in sentences, based on a relational database structure. Attempt is made to build a mechanism to detect the words based on their statistical distribution in sentences. In article where analyzed Polish and German feuilletons of the various fields of life, in a representative number of 50 Polish articles and 50 German articles.
first rewind previous Strona / 4 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.