With the help of simple fine-tuning, one can artificially embed hidden text into large language models (LLMs). This text is revealed only when triggered by a specific query to the LLM. Two primary applications are LLM fingerprinting and steganography. In the context of LLM fingerprinting, a unique text identifier (fingerprint) is embedded within the model to verify licensing compliance. In the context of steganography, the LLM serves as a carrier for hidden messages that can be disclosed through a designated trigger. Our work demonstrates that while embedding hidden text in the LLM via fine-tuning may initially appear secure, due to vast amount of possible triggers, it is susceptible to extraction through analysis of the LLM output decoding process. We propose a novel approach to extraction called Unconditional Token Forcing. It is premised on the hypothesis that iteratively feeding each token from the LLM’s vocabulary into the model should reveal sequences with abnormally high token probabilities, indicating potential embedded text candidates. Additionally, our experiments show that when the first token of a hidden fingerprint is used as an input, the LLM not only produces an output sequence with high token probabilities, but also repetitively generates the fingerprint itself. Code is available at github.com/jhoscilowic/zurek-stegano.
2
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
We present the results of experiments on minimizing the model size for the text-based Open Vocabulary Keyword Spotting task. The main goal is to perform inference on devices with limited computing power, such as mobile phones. Our solution is based on the acoustic model architecture adopted from the automatic speech recognition task. We extend the acoustic model with a simple yet powerful language model, which improves recognition results without impacting latency and memory footprint. We also present a method to improve the recognition rate of rare keywords based on the recordings generated by a text-to-speech system. Evaluations using a public testset prove that our solution can achieve a true positive rate in the range of 73%-86%, with a false positive rate below 24%. The model size is only 3.2 MB, and the real-time factor measured on contemporary mobile phones is 0.05.
Standaryzacja procesów informacyjnych BIM jest istotnym elementem sukcesu wdrażania metodyki BIM poziomu dojrzałości 2 w projektach inwestycyjnych na całym świecie. W roku 2018 międzynarodowa organizacja standaryzacji ISO opublikowała długo oczekiwany międzynarodowy standard procesów informacyjnych BIM znany jako norma ISO 19650, a dokładniej dwie pierwsze normy z tej serii, czyli ISO 19650-1 i ISO 19650-2. Polski Komitet Normalizacji wydał je w styczniu oraz lutym 2019 roku jako PN-EN ISO 19650-1 i PN-EN ISO 19650-2, jednak bez tłumaczenia na język polski treści normy. Ponieważ aplikacja procesów BIM w krajowych projektach inwestycyjnych na podstawie anglojęzycznej wersji normy jest utrudniona przez jej hermetyczne słownictwo, łączące terminologię z obszaru prawa, techniki budowlanej, technologii informatycznych oraz metod zarządzania pochodzących z obcych systemów prawnych, uregulowań branżowych, a nawet zasad zwyczajowych dla środowisk zawodowych z obszaru budownictwa, głównie z Wielkiej Brytanii, niniejszy artykuł jest propozycją polskiego tłumaczenia terminologii normy ISO 19650 dostosowanego do realiów krajowych procesów inwestycyjnych. Celem tej propozycji jest z jednej strony wsparcie osób czynnie zaangażowanych w przygotowanie i realizację projektów BIM na krajowym rynku budowlanym, a z drugiej animowanie dyskusji nad wypracowaniem oraz ustabilizowaniem polskiej terminologii norm BIM z serii ISO 19650 i w konsekwencji przygotowanie wysokiej jakości tłumaczenia polskich wersji norm ISO 19650.
EN
Standardisation of BIM information processes is a significant element of successful implementation of BIM level 2 information management procedures all over the world. Back in 2018, the International Standardisation Organisation (ISO) has published a long awaited ISO 19650 BIM information standard, to be precise the two first standards of the ISO 19650 family, namely the ISO 19650-1 and ISO 19650-2. Polish Standardisation Committee (PKN) has published those two standards in January and February of 2019 as PN-EN ISO 19650-1 and PN-EN ISO 19650-2, but without translation to Polish of the standards’ content. Because implementation of the BIM information standards into the Polish domestic projects based on the English version of the standards faces severe obstacles due to hermetic terminology that includes terms from the area of foreign law, construction technic, information technology, project management and even professionally settled/agrees terminology, this paper focuses on bringing a proposal of establishing official Polish terms of the ISO 19650 standards by either translating or localising original English terms into the Polish language and/or construction market culture. The objectives of this paper are twofold: firstly, empower the Polish professionals active both in implementing BIM information management processes into the construction projects or delivering the actual solutions with a precise and profound understanding of the ISO norms principles and rules to leverage the BIM success ratio, secondly to animate an industry-wide discussion on the official Polish ISO 19650 terminology that will help to provide high quality translation of the ISO 19650 standards into Polish.
4
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Denote by ш the operation of interleaving, or shuffling, of words. We prove that, given a regular language R and a letter-to-letter morphism φ , it is undecidable whether or not there exists a word ω such that ω ш φ (ω ) ∩ R ≠ Ø.
5
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
A double occurrence word (DOW) is a word in which every symbol appears exactly twice; two DOWs are equivalent if one is a symbol-to-symbol image of the other. We consider the so called repeat pattern (αα) and the return pattern (ααR), with gaps allowed between the α’s. These patterns generalize square and palindromic factors of DOWs, respectively. We introduce a notion of inserting repeat/return words into DOWs and study how two distinct insertions into the same word can produce equivalent DOWs. Given a DOW w, we characterize the structure of w which allows two distinct insertions to yield equivalent DOWs. This characterization depends on the locations of the insertions and on the length of the inserted repeat/return words and implies that when one inserted word is a repeat word and the other is a return word, then both words must be trivial (i.e., have only one symbol). The characterization also introduces a method to generate families of words recursively.
Prężnie rozwijające się górnictwo odkrywkowe, eksploatujące przy użyciu specjalistycznych maszyn i urządzeń, wymaga ciągłej wymiany myśli technicznej do właściwego określania ich nazewnictwa i charakteru pracy. Bardzo duża różnorodność stosowanych maszyn powoduje błędy nazewnictwa, które nie odpowiada ich przeznaczeniu i sposobowi pracy, co uwidacznia się nie tylko we współczesnych opracowaniach technicznych z tego zakresu, ale także w słowach głoszonych na konferencjach i sympozjach branżowych.
7
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
An infinite square-free word w over the alphabet Σ3 = {0, 1, 2} is said to have a k-stem σ if |σ| = k and w = σw1w2· · · where for each i, there exists a permutation πi of Σ3 which extended to a morphism gives wi= πi (σ). Harju proved that there exists an infinite k-stem word for k = 1, 2, 3, 9 and 13 ≤ k ≤ 19, but not for 4 ≤ k ≤ 8 and 10 ≤ k ≤ 12. He asked whether k-stem words exist for each k ≥ 20. We give a positive answer to this question. Currie has found another construction that answers Harju’s question.
8
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
One of the main problems with speech recognition for robots is noise. In this paper we propose two methods to enhance the robustness of continuous speech recognition in noisy environment. We show that the accuracy of recognition can be improved by better weighting the language model in the decision process. The second proposed method is based on language model adaptation. The experiments showed that both proposed techniques improve speech recognition accuracy by approximately 2%.
PL
W artykule przedstawiono dwie metody zwiększenia odporności na zakłócenia i skuteczności rozpoznawania mowy w zaszumionym otoczeniu. Wykazano, że odpowiednie dobranie współczynników wagowych w procesie decyzyjnym dla modelu języka zwiększa precyzję rozpoznawania dźwięków. Druga metoda opiera się na adaptacji modelu języka. Badania eksperymentalne wykazały, że obydwie metody zwiększają skuteczność rozpoznania mowy o około 2%.
Unambiguous and consistent concepts and terms such as measurand, metrological traceability, measurement uncertainty, comparability of measurement results, target measurement uncertainty, etc, must govern the description of results of chemical measurements in order to enable a valid comparison of measurement results. For international trade in food and feed to be fair, for border-crossing implementation of environmental regulations to be the same for all parties concerned, for interchangeability of resulfs of clinical measure-ments to become a reality, for any border-crossing interpretation of measurement results in chemistry to became possibile, well understood and mutually accepted concepts and terms are essential. Similarly, their translations from one language - English - into 30-40 other languages, must be rearlized and fixed unambiguously. The countries of these lan-guages are therefore at a considerable disadvantage. A number of ambiguities in the definitions and terms used in measurement, are described. They illustrate the importance of the ongoing revision of the International Vocabulary of Basic and General Terms in Metrology (VIM): 1) 'measurand', 2) 'measurement result', 3) 'metrological traceability' (incl. 'to the SI'), 4) 'measurement uncertainty', 5) 'measurement unit' and 'measurement scale', 6) 'metrological comparabilty' (of measurement results), 7) 'target measurement uncertainty'. It is concluded that the ongoing revision of the VIM is of primordial importance for good understanding within and between measurement communities world-wide.
PL
Niedwuznaczne oraz spójne pojęcia i terminy, takie jak: wielkość mierzona, identyfikowalność metrologiczna, niepewność pomiaru, porównywalność wyników pomiaru, założona niepewność pomiaru itd., muszą określać sposób opisu pomiaru chemicznego, by umożliwić przekonywające porównanie jego wyników. Dla międzynarodowego handlu środkami spożywczymi niezbędne jest wprowadzanie w życie czytelnych regulacji tak samo rozumianych przez wszystkie zainteresowane strony. Aby wynik pomiaru chemicznego stał się wzajemnie uznawanym, opisujące go pojęcia i terminy muszą być dobrze zrozumiane. Także ich jednoznaczne tłumaczenie z języka angielskicgo na 30-40 innych języków musi zostać zrealizowane. Opisano niektóre dwuznaczności w definicjach i terminach, co wykazuje potrzeb" dalszego przeglądu i wprowadzania poprawek w Międzynarodowym Słownictwie Podstawowych i Ogólnych Terminów Metrologicznych (VIM). Niezbędne jest dokładne zdefiniowanie pojęć: 1) wielkość mierzona, 2) wynik pomiaru, 3) identyfikowalność metrologiczna, (włączając do SI), 4) niepewność pomiaru, 5) jednostki pomiaru i skala pomiaru, 6) porównywalność metrologiczna (wyników pomiaru), 7) założona niepewność pomiaru. Stwierdzono, ze obecny przegląd VIM ma zasadnicze znaczenie dla dobrego zrozumienia zarówno wewnątrz grup badawczych, jaki w skali całego świata, pomiędzy nimi.
10
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Wraz z rozwojem nauki i przemysłu rozwija się także słownictwo danej dziedziny wiedzy i wytwórczości, powstają języki specjalistyczne i środowiskowe. Wśród wyrazów tworzących leksykę branży gumy jest wiele przyswojonych zapożyczeń z języków obcych, jak np. guma, kauczuk, wulkanizacja. Są także nowotwory własne i zapożyczenia, które nie zasymilowały się w polskim języku, mające tylko historyczne znaczenie. Autor dokonuje przeglądu zasobu używanych wyrazów pod kątem dostosowania do polskiej gramatyki i dzisiejszego znaczenia.
EN
In polish papers and written works about rubber we have a lot of words which we borrowed from foreign language. Some of them have been assimilated to polish language, some not. The present writter proof the words from the point of view of degree of assimilation and usage, compliance with polish grammar and present day meaning.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.