Introducing a phonotactic probability calculator for Czech

Čechová, Petra; Cilibrasi, Luca; Henyš, Jan; Čecho, Jaroslav

Ten serwis zostanie wyłączony 2025-02-11.

Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl

Artykuł - szczegóły

Czasopismo

Naše řeč (Our Speech)

2023 | 106 | 1 | 72-83

Tytuł artykułu

Introducing a phonotactic probability calculator for Czech

Autorzy

Petra Čechová , Luca Cilibrasi , Jan Henyš , Jaroslav Čecho

Treść / Zawartość

Pełne teksty:

http://kramerius.lib.cas.cz/search/handle/uuid:35b99c0d-ef22-4a45-9e31-013a0731a48a [zdalny]

Warianty tytułu

Nový nástroj pro výpočet fonotaktické probability v češtině

Języki publikacji

Abstrakty

Phonotactic probability refers to the frequency with which phonological segments and sequences of phonological segments occur in words in a given language (Vitevitch – Luce, 2004). It has been shown that phonotactic probabilities of words are important in language processing and language acquisition (Jusczyk et al., 1994; Mattys – Jusczyk, 2001; Pitt – McQueen, 1998). For example, words with high phonotactic probability are processed faster by native speakers in same-different tasks (Luce – Large, 2001), and pseudowords with high phonotactic probability are judged as more word-like by adults (Vitevitch et al., 1997). In this paper we present a phonotactic calculator for Czech implemented as a Python script. The script relies on frequency data from three freely available corpora of Czech: SYN2015 and SYN2020, corpora of written Czech (Křen et al., 2015; 2020), and ORAL v1, a corpus of spoken Czech (Kopřivová et al., 2017). The steps of the calculation mirror those developed by Vitevitch and Luce (2004) for English, and the script can provide phonotactic (and additionally orthotactic) probability for any Czech word or pseudoword. The script can be downloaded at <https://phonocalc.github.io>.

Pojem fonotaktická probabilita odkazuje k frekvenci, s níž se fonologické segmenty a sekvence těchto segmentů objevují ve slovech v určitém jazyce (Vitevitch – Luce, 2004). Předchozí výzkumy ukázaly, že fonotaktická probabilita slov hraje důležitou roli při zpracování a akvizici jazyka (Jusczyk et al., 1994; Mattys – Jusczyk, 2001; Pitt – McQueen, 1998). Slova s vysokou fonotaktickou probabilitou jsou například rychleji zpracována rodilými mluvčími v úloze „same-different“ (Luce – Large, 2001) a pseudoslova s vysokou fonotaktickou probabilitou jsou dospělými hodnocena jako pravděpodobnější slova daného jazyka (Vitevitch et al., 1997). V tomto článku představujeme nástroj pro výpočet fonotaktické probability pro češtinu, který je volně dostupný jako skript v programovacím jazyce Python. Nástroj vychází z údajů o frekvenci slov ze tří volně dostupných korpusů českého jazyka: korpus psaného jazyka SYN2015 (Křen et al., 2015), korpus psaného jazyka SYN2020 (Křen et al., 2020) a korpus mluveného jazyka ORAL v1 (Kopřivová et al., 2017). Výpočet replikuje postup původního kalkulátoru pro anglický jazyk (Vitevitch – Luce, 2004) a výstupem je odhad fonotaktické (a navíc také ortotaktické) probability pro jakékoliv české slovo či pseudoslovo. Skript je dostupný z internetové stránky <https://phonocalc.github.io>.

Słowa kluczowe

Czech language processing phonotactic probability phonotactics pseudoword

čeština fonotaktická probabilita fonotaktika pseudoslovo zpracování jazyka

Wydawca

Institute of the Czech Language, Czech Academy of Sciences

Czasopismo

Naše řeč (Our Speech)

Rocznik

2023

Tom

106

Numer

Strony

72-83

Opis fizyczny

Rodzaj publikacji

ARTICLE

Twórcy

autor

Petra Čechová

Ústav pro jazyk český AV ČR, v. v. i., Letenská 123/4, 118 51 Praha 1, Czech Republic

autor

Luca Cilibrasi

Ústav pro jazyk český AV ČR, v. v. i., Letenská 123/4, 118 51 Praha 1, Czech Republic

autor

Jan Henyš

Ústav pro jazyk český AV ČR, v. v. i., Letenská 123/4, 118 51 Praha 1, Czech Republic

autor

Jaroslav Čecho

Ústav pro jazyk český AV ČR, v. v. i., Letenská 123/4, 118 51 Praha 1, Czech Republic

Bibliografia

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.35b99c0d-ef22-4a45-9e31-013a0731a48a