Phonetically Boring Languages

11 ספטמבר, 2018 ב- 03:08 | פורסם בEnglish, ג'ון נאש, יצירתי, ספרדית, עברית, פונטיקה, רשימות | כתיבת תגובה

[This may be my longest-sitting draft that I finally made into a post. I started it in June 2017, shortly after this graphic made the rounds.]

After studying phonetics in my first year at Tel-Aviv University, I developed a pet theory. See, every phenomenon we came across that was "unique" (or rare, or marked) seemed to have somehow skipped over the Hebrew language. No crazy nasals, no retroflexes, no gutturals (in the standard Israeli dialect), no clicks, no ingressives, no voiced alveolar lateral fricative, just the five canonical vowels, et cetera. My thoughts were, since Modern Hebrew is a revived language co-learned by people from very distinct linguistic backgrounds in a relatively messy (high-entropy) distribution, the phonetic portion of it evolved to a low-common-denominator, most phonetically boring language out there.

But where there's data, there's a chance to test out pet theories. So as soon as I got word of the phoible dataset I immediately jumped and put my theory to the test (then waited 15 months for absolutely no reason to actually publish my findings).

Phoible is an open, simple-format data source for phonetic inventories of language. A few clicks, and you have a table of all phonemes across all languages. Thus my definition for boringness of language converged to:

A language is boring if it chooses boring sounds for its inventory.

Now I need to figure out which sounds (phonemes) are boring, but that I just define based on their frequency across languages, which gives me a clear algorithm:

  1. Calculate each phoneme's frequency in the database
  2. For each language, calculate average phoneme frequency from its inventory
  3. Rank languages from high to low average (high = boring)

That's it! For my first finding, Modern Hebrew got a score of 0.415, which ranked it 1,426th most boring in a field of 2,155 languages, an utter refutation of my hypothesis. The most boring language according to this metric is Southern Nuautl with a score of 0.764; the most interesting is !xóõ (yes, that's a click sound it's starting with) with an astounding 0.103. The average score was 0.464 and the score progression is a normal-distributed thing of this:

Phonetic Score CDF

(CDF = cumulative distribution function, meaning: y many languages have score up to x)

Here's a taste of some languages I thought could be of interest. Check out that lovely long tail of Igbo, which has may phonemes but a lot of the frequent ones; or how fast Quechua plummets from frequent to semi-frequent to rare phonemes; or how boring Swahili, a high-contact language dominating the 20's of the x-axis, is (it's what I expected the Hebrew situation to be, and even so its score is a very unboring 0.292); or how English falls so quickly in the beginning, with all its weird vowels and labiodentals and taps and flaps.


This could mean a few things about why I didn't get what I expected, as well as some other unrelated reasons:

  1. Like always, data is dirty (or at least, this data, for my analysis needs). In this case, more well-documented languages may have more phonemes in their dataset, probably leading to some that are rare, than languages with less extensive research done upon.
  2. My metric must suck. See how Hebrew has the fewest phonemes in the selected sample? That's gotta account for boringness and yet, with my mean it doesn't. Look how many frequent phonemes Swahili has, and yet its average is very low. Let's consider some other metrics ("Future work". Remind me to upload the data if I don't do so soon):
    1. Number of phonemes (a boring metric for a boringness question)
    2. % of phonemes above a boringness threshold p.
    3. Area under the boringness curve (this is just the sum of boringnesses again – but maybe cut it off at some point?)
    4. Deep neural net trained on all these features with the single data point <Hebrew, TRUE>.
  3. bug in my code. As soon as I find it I see if I can look deeper. I mean it's kind of a miracle that I have the post-processed TSVs around, to be honest.


סאני, בוא הביתה

26 אוקטובר, 2012 ב- 05:33 | פורסם ברשימות, תרבות | 2 תגובות

זוכרים את דמיון שירים? אז הנה אחד טרי:

פחי פפר הולך ביחד

18 מאי, 2012 ב- 05:53 | פורסם ברשימות, תרבות | תגובה אחת

כן! עוד שירים דומים! וכן! ביטלס!

הגענו לסופ"ש, אז נפנק בשני מקרים, והפעם אני די בטוח שהראשון הוא רמיזה מכוונת והשני הוא אנלוגיה מכוונת (ובוטה. גם הוא פותח את האלבום). 1:


מה אתה עושה כשהחברים עוזרים לך

17 מאי, 2012 ב- 05:46 | פורסם ברשימות, תרבות | תגובה אחת

שירים דומים. חזרנו לביטלס, ואפילו לאריק ושלום:

יותר מפתאום היום

16 מאי, 2012 ב- 05:50 | פורסם ברשימות, תרבות | תגובה אחת

עוד דמיון שירים היום, ולפחות כרונולוגית ההשראה עוד עלולה להיות הפוכה:

למה לי לקחת את הכסף שלך

15 מאי, 2012 ב- 05:41 | פורסם ברשימות, תרבות | כתיבת תגובה

ממשיכים עם השירים הדומים.

גם היום שיר שבהשראת (?) הביטלס באופן לא כזה בוטה, בעיקר במבנה השיר.

כן, גם אתמול זה היה ביטלס. ספוילר: יהיו עוד.

משבר בירד

14 מאי, 2012 ב- 05:36 | פורסם ברשימות, תרבות | כתיבת תגובה

הפריסטייל של דמיון שירים נמשך.

אודיע עכשיו שלא ביצעתי מחקר היסטורי של השירים. יש מצב שבחלק מהמקרים הדמיון הוא מכוון והתבצע כמחווה. על"ח (עצלנות לעולם חוזר).

המקרה של היום נוגע בעיקר לשניות הראשונות:

הארון האוטומטי

13 מאי, 2012 ב- 05:33 | פורסם ברשימות, תרבות | תגובה אחת

טוב, הפוסט האחרון עשה לי תיאבון, הנה ארוקן לי לאורך השבוע הקרוב מהגוגל-נוטבוק (ז"ל) את רשימת השירים הדומים שאספתי.*

נתחיל מהברור ביותר (בעמוד של השני אפילו יש תגובה שמצביעה על הדמיון):

*ועזבו אותי ממשינה-מדנס/פיקסיז. אני מנסה לאתגר. ממחר.

חייך שבאלבום

10 מאי, 2012 ב- 23:07 | פורסם ברשימות, תרבות | כתיבת תגובה

זה רק אני, או ששני השירים האלה ממש דומים ברוב תכונותיהם (רק שהראשון הרבה יותר טוב)?

יריבויות כדורגל – ישראל

7 דצמבר, 2011 ב- 05:52 | פורסם בג'ון נאש, כדורגל, רשימות | 3 תגובות

אז חיפשתי דרך לויזואליזציה טובה של גרפים (האלה של צמתים וקשתות, לא האלה האחרים), ואחרי השוק הראשוני מזה שבאקסל אי אפשר, וההבנה שמאטלאב או משהו כזה בוודאי לא יכולה להיות הדרך הכי פשוטה, הפנה אותי בר (תודה בר!) למשהו בשם GraphViz. זה כלי עם תחביר לא כל-כך נוח שלא ממש הבנתי עד סופו (טרם חפרתי בו מספיק), ודווקא באמצעות ההסברים לממשק שלו בגוגלתרשימים הצלחתי להבין יותר. לחגוג את יכולתי החדשה לצייר גרפים מכוונים, הרי הגרף החשוב ביותר: יריבויות כדורגל בליגות הישראליות. חץ מקבוצה א' לקבוצה ב' פירושו "קבוצה א' רואה בקבוצה ב' את היריבה המרה ביותר שלה". רוב היריבויות, כצפוי, הן נכזבות, וכמעט כל המסלולים, כצפוי עוד יותר, מתנקזים לשתי התל-אביביות הגדולות. המידע מ"מחקר עצמאי" ברובו; לצרכי אישוש והשלמה השתמשתי בכתבה הזו ובערך הויקי הזה. הגרף המקביל לנבחרות לאומיות בוא יבוא. אל דאגה.

אם אתם מכירים דרך פחות מזעזעת לצייר גרף מכוון השמיעו קול. אם אתם מכירים עוד יריבויות (בני יהודה! מה עם בני יהודה!) או רוצים לתקן אחת מהקיימות, השמיעו שני קולות.

זה הגרף בסידור נחמד שמציעים בגראפוויז:

יריבות (לא לבלבל עם ירוואן)

מרטיט, הלא-כן?

וזה קישור (כן כן!) לפקודת גוגלתרשימים שתרכיב עבורכם בזמן אמת את אותו גרף ממש, בסידור ברירת המחדל, על-גבי אתרם.

העמוד הבא »

בלוג בוורדפרס.קום.
Entries וכן תגובות feeds.