Przedstawiono model semantyczny języka polskiego pochodzący z obróbki materiału językowego z polskiej Wikipedii. Model służy weryfikacji hipotez zdaniowych w systemie automatycznego rozpoznawania mowy. Przedstawiono metody filtracji i klasteryzacji dokumentów w celu przyśpieszenia obliczeń. Autorzy kładą nacisk na oddelegowaniu zadań do silnika bazy danych tam, gdzie jest to pożądane ze względu na szybkość.
EN
The article presents a semantic model of the polish language based on the polish Wikipedia texts. The model is a part of an automatic speech recognition system and verifies sentences hypotheses. Methods of filtering and clustering of the documents, which aim to accelerate the computations, are presented. The authors emphasize the delegation of the processing tasks to the database engine, where it is possible to gain the performance.
When dealing with large datasets, computer memory constraints are a common problem. With the volumes of data exceeding 1 GiB of size, storage of the whole datasets in RAM becomes infeasible. Since in most applications one deals with only a portion of dataset at a time, the rest may be kept offline on nonvolatile memory that provides larger capacities. The access to nonvolatile memory is typically a few orders of magnitude slower than of RAM, so an efficient method of storage should be proposed to keep the number of disc accesses count as small as possible. In the paper I describe the offline storage of sparse matrices that is built on top of Hierarchical Data Format (precisely, on the latest revision - HDF5) addressing the problem of matrix-vector multiplication.
PL
Ograniczenia pamięci komputera są powszechnym problemem przy obliczeniach przeprowadzanych na wielkich zbiorach danych. Przy danych roboczych przekraczających 1 GiB, składowanie całości w pamięci operacyjnej staje się utrudnione, a często nawet nieosiągalne. Ponieważ w większości aplikacji wykonuje się działania jedynie na fragmencie zbioru danych, reszta może być przechowywana w pamięci stałej, która zapewnia dużo większe pojemności. Dostęp do pamięci stałej jest zazwyczaj kilka rzędów wielkości wolniejszy niż do RAMu, zatem należy przedstawić metodę składowania ograniczającą do minimum ilość dostępów do dysku. W artykule opisuję format przechowywania macierzy rzadkich na dysku, zbudowanym na bazie formatu HDF5 (Hierarchical Data Format) pod kątem minimalizacji czasu mnożenia tej macierzy przez wektor.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.