Лингвистика / Acoustic-phonetic properties of Siri- and human-directed speech

Acoustic-phonetic properties of Siri- and human-directed speech просмотров: 423

Millions of people engage in spoken interactions with voice activated artificially intelligent (voice-AI) systems in their everyday lives. This study explores whether speakers have a voice-AI-specific register, relative to their speech toward an adult human. Furthermore, this study tests if speakers have targeted error correction strategies for voice-AI and human interlocutors. In a pseudo-interactive task with pre-recorded Siri and human voices, participants produced target words in sentences. In each turn, following an initial production and feedback from the interlocutor, participants repeated the sentence in one of three response types: after correct word identification, a coda error, or a vowel error made by the interlocutor. Across two studies, the rate of comprehension errors made by both interlocutors was varied (lower vs. higher error rate). Register differences are found: participants speak louder, with a lower mean f0, and with a smaller f0 range in Siri-DS. Many differences in Siri-DS emerged as dynamic adjustments over the course of the interaction. Additionally, error rate shapes how register differences are realized. One targeted error correction was observed: speakers produce more vowel hyperarticulation in coda repairs in Siri-DS. Taken together, these findings contribute to our understanding of speech register and the dynamic nature of talker-interlocutor interactions.

Каждый день миллионы людей коммуницируют с так называемыми голосовыми помощниками, системами искусственного интеллекта. Это исследование посвящено изучению того, используют ли люди при общении с ИИ другой регистр голоса, отличный от того, который они используют при разговоре со взрослыми людьми. Более того, в данной работе проводится тестирование, исправляют ли говорящие ошибки ради ИИ или людей-собеседников целенаправленно. В задании, где взаимодействие было ложным, так как человеческий голос и голос Сири были записаны заранее, участники должны были произносить определенные слова в предложениях. В каждом раунде, учитывая произнесенные в самом начале предложения и ответ собеседника, участники выбирали один из трех типов ответа: после правильной идентификации определенного слова, после ошибки в финали или после ошибки в употреблении гласных. В ходе двух исследований был произведен подсчет количества ошибок в понимании, совершенных обоими собеседниками (низкий vs высокий коэффициент ошибок). Была выявлена разница в используемом регистре: при разговоре с Сири участники говорили громче, с более низким значением f0, а также с меньшим диапазоном f0. Множество отличий от обычной речи при разговоре с Сири представляют собой динамичные изменения в процессе взаимодействия. Коэффициент ошибок определял, как проявлялась разница в регистре. Была обнаружена одна целенаправленная коррекция: спикеры чрезмерно артикулировали гласные в исправленных во время разговора финалях при разговоре с Сири. Суммируя все вышесказанное, все полученные данные приводят нас к пониманию понятия речевого регистра и динамичной природы взаимодействия адресанта и адресата в процессе коммуникации.

- 0 +    дата: 21 июня 2023

   Загружено переводчиком: Пономарева Мария Евгеньевна Биржа переводов 01
   Язык оригинала: английский    Источник: https://www.sciencedirect.com/science/article/pii/S009544702100098X?ref=pdf_download&fr=RR-2&rr=7d2666d14c9716ec

MirZnaet.ru

Acoustic-phonetic properties of Siri- and human-directed speech просмотров: 423