Tytuł artykułu
Treść / Zawartość
Pełne teksty:
Identyfikatory
Warianty tytułu
Wykrywanie informacji poufnychza pomocą dużych modeli językowych
Języki publikacji
Abstrakty
In today's digital age, the protection of personal and confidential customer data is paramount. With the increasing volume of data being generated and processed, organizations face significant challenges in ensuring that sensitive information is adequately protected. One of the critical steps in safeguarding this data is the detection and classification of personal and confidential information within text documents. This process involves identifying sensitive data, classifying it appropriately, and storing the results in a semi-structured format such for further analysis and action. The need for detecting and classifying sensitive data is driven by regulatory compliance, data security, risk management, and operational efficiency. Various methodologies, including rule-based systems, machine learning models, natural language processing (NLP), and hybrid approaches, are employed to detect and classify sensitive data. Large Language Models (LLMs) like GPT-3 and BERT, trained on extensive text data, are transforming data management and governance, areas crucial for SOC 2 Type 2 compliance. LLMs respond to prompts, guiding their output generation, and can automate tasks like data cataloging, enhancing data quality, ensuring data privacy, and assisting in data integration. These capabilities can support a robust data classification policy, a key requirement for SOC 2 Type 2.
W dzisiejszej erze cyfrowej ochrona danych osobowych i poufnych informacji klientów jest niezwykle ważna. Wraz ze wzrostem ilości generowanych i przetwarzanych danych, organizacje stają przed znacznymi wyzwaniami w zapewnieniu odpowiedniej ochrony wrażliwych informacji. Jednym z kluczowych kroków w zabezpieczaniu tych danych jest wykrywanie i klasyfikacja danych osobowych i poufnych w dokumentach tekstowych. Proces ten obejmuje identyfikację wrażliwych danych, odpowiednią ich klasyfikację oraz przechowywanie wyników w ustrukturyzowanym formacie, takim jak JSON, w celu dalszej analizy i działań. Potrzeba wykrywania i klasyfikacji wrażliwych danych wynika z wymogów regulacyjnych, bezpieczeństwa danych, zarządzania ryzykiem i efektywności operacyjnej. Do wykrywania i klasyfikacji wrażliwych danych stosuje się różne metody, w tym systemy oparte na regułach, modele uczenia maszynowego, przetwarzanie języka naturalnego (NLP) oraz podejścia hybrydowe. Duże modele językowe (LLM), takie jak GPT-3 i BERT, szkolone na dużych zbiorach danych tekstowych, przekształcają zarządzanie danymi i ich nadzór, co jest kluczowe dla zgodności z SOC 2 Type 2. LLM odpowiadają na zapytania, kierując generowaniem ich wyników, i mogą automatyzować zadania, takie jak katalogowanie danych, poprawa jakości danych, zapewnienie prywatności danych i wspieranie integracji danych. Te możliwości mogą wspierać solidną politykę klasyfikacji danych, która jest kluczowym wymogiem dla SOC 2 Type 2.
Rocznik
Tom
Strony
91--99
Opis fizyczny
Bibliogr. 34 poz., tab., wykr.
Twórcy
autor
- Lviv Polytechnic National University, Lviv, Ukraine
autor
- Lviv Polytechnic National University, Lviv, Ukraine
autor
- Lviv Polytechnic National University, Lviv, Ukraine
autor
- Mariupol State University, Kyiv, Ukraine
autor
- State University of Trade and Economics, Kyiv, Ukraine
autor
- State University ofInformation and Communication Technologies,Kyiv, Ukraine
Bibliografia
- [1] Amaratunga T.: Understanding Large Language Models. Apress, 2023.
- [2] Berryman J., Ziegler A.: Prompt Engineering for LLMs. O’Reilly, 2024.
- [3] Bezzi M.: Large Language Models and Security. IEEE Security & Privacy 22(2), 2024, 60–68 [https://doi.org/10.1109/MSEC.2023.3345568].
- [4] Calder A., Watkins S.: IT Governance: An International Guide to Data Security and ISO27001/ISO27002 (6 edition). CoganPage, 2015.
- [5] Jurafsky D., Martin J. H.: Speech and Language Processing (3 edition). Prentice Hall, Inc., 2024.
- [6] Deineka O., et. al.: Designing Data Classification and Secure Store Policy According to SOC 2 Type II. CEUR Workshop Proceedings 3654, 2024, 398–409 [https://ceur-ws.org/Vol-3654/short7.pdf].
- [7] Dreis Y., et al.: Model to Formation Data Base of Internal Parameters for Assessing the Status of the State Secret Protection. Cybersecurity Providing in Information and Telecommunication Systems 3654, 2024, 277–289 [https://ceur-ws.org/Vol-3654/paper23.pdf].
- [8] Falchenko S., et al.: Method of Fuzzy Classification of Information with Limited Access. IEEE 2nd International Conference on Advanced Trends in Information Theory (IEEE ATIT 2020) 2020, Kyiv, Ukraine, 255–259 [https://doi.org/10.1109/ATIT50783.2020.9349358].
- [9] Giulio C. D., et. al.: IT Security and Privacy Standards in Comparison: Improving FedRAMP Authorization for Cloud Service Providers. 17th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID) 2017, Madrid, Spain, 1090–1099 [https://doi.org/10.1109/CCGRID.2017.137].
- [10] Gupta B. B., Sheng Q. Z.: Machine Learning for Computer and Cyber Security. Boca Raton, 2019.
- [11] Goldberg Y.: Neural Network Methods for Natural Language Processing. Springer, 2017.
- [12] Manning C. D., Raghavan P., Schütze H.: Introduction to Information Retrieval. Cambridge University Press, 2008.
- [13] Martseniuk Y., et. al.: Research of the Centralized Configuration Repository Efficiency for Secure Cloud Service Infrastructure Management. CEUR Workshop Proceedings 3991, 2025, 260–274 [https://ceur-ws.org/Vol 3991/paper19.pdf].
- [14] Mitchell M.: Artificial Intelligence: A Guide for Thinking Humans. Penguin, 2019.
- [15] Radford A., et. al.: Improving Language Understanding by Generative Pre-Training. 2018 [https://doi.org/10.48550/arXiv.1801.06146].
- [16] Raiaan M. A. K.: A Review on Large Language Models: Architectures, Applications, Taxonomies, Open Issues and Challenges. IEEE Access 12, 2024, 26839–26874 [https://doi.org/10.1109/ACCESS.2024.3365742].
- [17] Rothman D.: Transformers for Natural Language Processing: Build and Train State-of-the-Art NLP Models Using Transformers Architecture. Packt Publishing, 2021.
- [18] Routray S. K., et. al.: Large Language Models (LLMs): Hypes and Realities. International Conference on Computer Science and Emerging Technologies (CSET) 2023, Bangalore, India, 1–6 [https://doi.org/10.1109/CSET58993.2023.10346621].
- [19] Rzaieva S., et al.: Methods of Personal Data Protection in Retail: Practical Solutions. Cybersecurity Providing in Information and Telecommunication Systems 3991, 2025, 492–506 [https://ceur-ws.org/Vol-3991/paper35.pdf].
- [20] Sabbatella A., et al.: Prompt Optimization in Large Language Models. Mathematics 12(6), 2024, 929 [https://doi.org/10.3390/math12060929].
- [21] Shevchenko S., et al.: Protection of Information in Telecommunication Medical Systems based on a Risk-Oriented Approach. Cybersecurity Providing in Information and Telecommunication Systems 3421, 2023, 158–167 [https://ceur-ws.org/Vol-3421/paper16.pdf].
- [22] Shevchuk D., et. al.: Designing Secured Services for Authentication, Authorization, and Accounting of Users. Cybersecurity Providing in Information and Telecommunication Systems 3550, 2023, 259–274 [https://ceur-ws.org/Vol-3550/short4.pdf].
- [23] Vaswani A., et. al.: Attention is All You Need. 2017 [https://doi.org/10.48550/arXiv.1706.03762].
- [24] Wolf T., et. al.: Transformers: State-of-the-Art Natural Language Processing. Association for Computational Linguistics, 2020, 38–45 [https://doi.org/10.18653/v1/2020.emnlp-demos.6].
- [25] Yang X., et. al.: Exploring the Application of Large Language Models in Detecting and Protecting Personally Identifiable Information in Archival Data: A Comprehensive Study. IEEE International Conference on Big Data (BigData) 2023, Sorrento, Italy, 2116–2123 [https://doi.org/10.1109/BigData59044.2023.10386949].
- [26] Advancing AI Through Fundamental and Applied Research [https://ai.meta.com/research].
- [27] AICPA "SOC 2 – SOC for Service Organizations: Trust Services Criteria". [https://us.aicpa.org/interestareas/frc/assuranceadvisoryservices/soc-for-service organizations].
- [28] Amazon Bedrock – Automating Large-Scale, Fault-Tolerant Distributed Training in the Deep Learning Compiler Stack [https://aws.amazon.com/blogs/aws/amazon-bedrock-automating-large-scale fault-tolerant-distributed-training-in-the-deep-learning-compiler-stack].
- [29] Anthropic. Researching at the Frontier [https://www.anthropic.com/research].
- [30] BERT by Google [https://ai.googleblog.com/2018/11/open-sourcing-bert-state of-art-pre.html].
- [31] Gelbstein E.: Is Audit Basics: The Domains of Data and Information Audits, 2016 [https://www.isaca.org/resources/isaca-journal/issues/2016/volume-6/is audit-basics-the-domains-of-data-and-information-audits].
- [32] GPT- by OpenAI [https://platform.openai.com/docs/models/gpt-3.5 turbo?utm_source=chatgpt.com].
- [33] Mattsson U.: Practical Data Security and Privacy for GDPR and CCPA, 2020. [https://www.isaca.org/resources/isaca-journal/issues/2020/volume-3/practical data-security-and-privacy-for-gdpr-and-ccpa].
- [34] Open AI [https://openai.com/index/teaching-with-ai].
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-af6cbf9d-0071-4ac8-9491-d939bffcd864
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.