Phonetically Boring Languages

11 ספטמבר, 2018 ב- 03:08 | פורסם בEnglish, ג'ון נאש, יצירתי, ספרדית, עברית, פונטיקה, רשימות | כתיבת תגובה

[This may be my longest-sitting draft that I finally made into a post. I started it in June 2017, shortly after this graphic made the rounds.]

After studying phonetics in my first year at Tel-Aviv University, I developed a pet theory. See, every phenomenon we came across that was "unique" (or rare, or marked) seemed to have somehow skipped over the Hebrew language. No crazy nasals, no retroflexes, no gutturals (in the standard Israeli dialect), no clicks, no ingressives, no voiced alveolar lateral fricative, just the five canonical vowels, et cetera. My thoughts were, since Modern Hebrew is a revived language co-learned by people from very distinct linguistic backgrounds in a relatively messy (high-entropy) distribution, the phonetic portion of it evolved to a low-common-denominator, most phonetically boring language out there.

But where there's data, there's a chance to test out pet theories. So as soon as I got word of the phoible dataset I immediately jumped and put my theory to the test (then waited 15 months for absolutely no reason to actually publish my findings).

Phoible is an open, simple-format data source for phonetic inventories of language. A few clicks, and you have a table of all phonemes across all languages. Thus my definition for boringness of language converged to:

A language is boring if it chooses boring sounds for its inventory.

Now I need to figure out which sounds (phonemes) are boring, but that I just define based on their frequency across languages, which gives me a clear algorithm:

  1. Calculate each phoneme's frequency in the database
  2. For each language, calculate average phoneme frequency from its inventory
  3. Rank languages from high to low average (high = boring)

That's it! For my first finding, Modern Hebrew got a score of 0.415, which ranked it 1,426th most boring in a field of 2,155 languages, an utter refutation of my hypothesis. The most boring language according to this metric is Southern Nuautl with a score of 0.764; the most interesting is !xóõ (yes, that's a click sound it's starting with) with an astounding 0.103. The average score was 0.464 and the score progression is a normal-distributed thing of this:

Phonetic Score CDF

(CDF = cumulative distribution function, meaning: y many languages have score up to x)

Here's a taste of some languages I thought could be of interest. Check out that lovely long tail of Igbo, which has may phonemes but a lot of the frequent ones; or how fast Quechua plummets from frequent to semi-frequent to rare phonemes; or how boring Swahili, a high-contact language dominating the 20's of the x-axis, is (it's what I expected the Hebrew situation to be, and even so its score is a very unboring 0.292); or how English falls so quickly in the beginning, with all its weird vowels and labiodentals and taps and flaps.


This could mean a few things about why I didn't get what I expected, as well as some other unrelated reasons:

  1. Like always, data is dirty (or at least, this data, for my analysis needs). In this case, more well-documented languages may have more phonemes in their dataset, probably leading to some that are rare, than languages with less extensive research done upon.
  2. My metric must suck. See how Hebrew has the fewest phonemes in the selected sample? That's gotta account for boringness and yet, with my mean it doesn't. Look how many frequent phonemes Swahili has, and yet its average is very low. Let's consider some other metrics ("Future work". Remind me to upload the data if I don't do so soon):
    1. Number of phonemes (a boring metric for a boringness question)
    2. % of phonemes above a boringness threshold p.
    3. Area under the boringness curve (this is just the sum of boringnesses again – but maybe cut it off at some point?)
    4. Deep neural net trained on all these features with the single data point <Hebrew, TRUE>.
  3. bug in my code. As soon as I find it I see if I can look deeper. I mean it's kind of a miracle that I have the post-processed TSVs around, to be honest.


Bureaucratic Path to PhD Studies

12 מאי, 2017 ב- 20:09 | פורסם בEnglish, ג'ון נאש, יצירתי, מנהלי | כתיבת תגובה

Here's the path I took, as a non-US-citizen, before moving to the US and starting a CS PhD program. I took the GRE and TOEFL around summer of 2015 and moved in August 2016.

I provide it as a reference for similar-minded folk, but keep in mind times change, circumstances vary, and I may have forgotten crucial steps. In any case, enjoy.

(Created using GraphViz)


יו דוג, שמעתי שאתה אוהב לפחד אז שמתי לך פחד בפחד כדי שתוכל לפחד מהפחד עצמו

29 ספטמבר, 2012 ב- 14:23 | פורסם ביצירתי, פוליטיקה, תרבות | תגובה אחת

זהו, השיר החדש של שלמה ארצי סגר את הפינה האחרונה בטבלה.

זה נחמן מברסלב למעלה מימין.

אוסף אקראי של קישורים

21 דצמבר, 2010 ב- 09:58 | פורסם באנגלית, אקדמיה, חישובית, יצירתי, לקסיקון, עולם דיגיטלי | כתיבת תגובה

הבטחתי עוד רשומה בדגש, וקיימתי.

רשומה שלמה שכולה קישורים. משק כנפי ההיסטוריה.

רק (לא) רשת

14 נובמבר, 2010 ב- 17:23 | פורסם בהאקדמיה ללשון, יצירתי, לקסיקון, סמנטיקה, עולם דיגיטלי, ראיתי-שמעתי, תרגום | 15 תגובות

אם עד עכשיו לא הייתי סגור על זה שה-World Wide Web צריכה שם נפרד בעברית מה-Internet, באה הכתבה הזו של יובל דרור בעין השביעית ושכנעה אותי לגמרי. הנה אפילו בביקורת שלו על רדידותה של התייחסות ישראל היום ל-WWW הוא מצליח לבלבל את הקורא בין שני המושגים (למשל, במשפט הראשון בפסקה הראשונה).

אז מה נעשה?

ברור שאף אחד לא קורא ל-Internet מרשתת. נמשיך לקרוא לה "הרשת", או "האינטרנט". זה מתבקש.

ה-Web לעומתה היא ביטוי פחות שימושי. בתעשיות הרלוונטיות יקראו לה פשוט "ווב", אבל אנחנו רואים שלעיתונות (או אפילו אתרים הפונים לקהל רחב) זה בעייתי. כמו גם לפנות לתרגום המיידי, שהוא… "רשת". על זה מסכימים גם מורפיקס ומילון אוקספורד (הזה מבית-ספר). התרגום הנפוץ הבא בתור הוא "קורים", אבל זה בבירור לא מתאים (כי הוא מדבר על החלקים ולא על השלם). לאקדמיה (סליחה, מלמדה) ולויקי אין פתרונים.

אולי מארג? קצת חגיגי (וגם "מארג 2.0" לא נשמע טוב).

משהו שמזכיר פונטית את "ווב" המתגלגלת-בנקל-על-הלשון? לא עולה לי כרגע.

אנא עזרו, גולשים יקרים. ההצעה המוצלחת תזכה לתהילת עולם (ואני מבטיח להגיש אותה בשמכם לאקדמיה).

[עדכון, 21/11 10:20: שלחתי לאקדמיה שאלה עם הצעותינו ל"תסרוגת", "מארג" ו-"קורית". שמעתי שהם עונים מהר, אז צפו עדכון נוסף בקרוב]

[עדכון, 30/11: אכן עונים מהר. מארג איט איז]

תסמונת תי"מ מיותר

11 נובמבר, 2010 ב- 13:05 | פורסם ביצירתי, לקסיקון, עברית, ראיתי-שמעתי, רשימות | כתיבת תגובה

חידוש לשוני מטא-לשוני חידשתי בדגש, נראה כמה יתפוס.

הצעה לחוק *יעיל* נגד צואת כלבים על המדרכה

31 אוקטובר, 2010 ב- 04:32 | פורסם ביצירתי | 2 תגובות

א. והיה כי טייל אדם עם כלבו, וזה האחרון הטיל צרכיו ברשות הכלל, ובעליו לא אסף את הצואה לזורקה במיכל אשפה: בזאת מוסמך כל פקח עירייה* החוזה בעבירה לבוא אל אותו אדם, לאחוז בקדקודו בכף יד פתוחה, לדחוף את ראשו מטה כך שיתקרב אפו לכדי עשרה סנטימטר מן הצואה האמורה, ולצעוק מספר פעמים "בעלים רע! בעלים רע!".

ב. הקנס שהיה נהוג עד כה מבוטל בזאת.

Continue Reading הצעה לחוק *יעיל* נגד צואת כלבים על המדרכה…

Subjective Graphs: TV comedies progression

27 ספטמבר, 2010 ב- 21:54 | פורסם באנגלית, יצירתי, תרבות | 3 תגובות
Following is my opinion of twelve TV shows (session #1: Comedy), and one bonus comic strip, as they progress through their seasons.The x-axis is the season. The y-axis is the quality, and it is relative to each show, 10 being its peak (i.e. each show reaches 10 at some point) and 7 being the other significant barrier: shows below 7 are unsuitable for (my) viewing. This does not mean I haven't watched 6-and-under seasons – of course I did, or else I couldn't rate them – but I was hoping for them to crawl back up from the depths. As these charts show, I was being painfully naïve (bar one exception – Family Guy's 6th season slump).

So again, this is not a statistic made to simply compare show quality, but rather compare flow: which shows started at the top, which managed to end things before dropping too low, and which are miserably opening their 22nd season these very days despite being unwatchable since the turn of the millennium.

Note: the show grouping is for your viewing convenience alone.

Enjoy, and contest much.


Simpsons, Seinfeld, Friends, Scrubs

Simpsons, Seinfeld, Friends, Scrubs

2: (for xkcd, a "season" is 100 strips, so the eighth is set to end in four days; HIMYM is "How I Met Your Mother"; and yes, I know I'm behind on my The Office)

Family Guy, HIMYM, The Office (US), xkcd

Family Guy, HIMYM, The Office (US), xkcd

3: (impossible to tell: Coupling starts at 10-10-10)


Coupling (UK), 30 Rock, Blackadder, Arrested Development, Krovim Krovim

Coupling (UK), 30 Rock, Blackadder, Arrested Development, Krovim Krovim

Legend: circle – show ended; arrow – still on air.

ויקי פיפיות

28 פברואר, 2010 ב- 11:01 | פורסם ביצירתי, עולם דיגיטלי | 17 תגובות

להלן תרומתי הצנועה למערכת החינוך, בימים טרופים אלו של רפורמות ותוכניות לימוד חדשות ובחירות בעת'יסטיות ויאיר לפיד:

הבעיה: תלמידים רבים מעתיקים את עבודות הבית שלהם מויקיפדיה באמצעות הפעולה המתוחכמת הידועה כ"קופי פייסט". לרוב זה נעשה ביום שלפני ההגשה, אם משיקולי לחץ ואם כיוון שמראש הם ידעו שזה מה שהם הולכים לעשות ולכן לא חשו צורך לעבוד לפני אותו יום. הזזת פסקאות ופעולות מצא-החלף מקשות על המורה להוכיח שאכן מדובר בהעתקה.

רמז לפתרון: ויקיפדיה הינה אנציקלופדיה חופשית בה לכל אדם מותר לערוך כל ערך, ועריכות שגויות מתוקנות (אם בכלל) כעבור שעות (אנגלית) או אף ימים (עברית). בדוּק.

השראה: במפות עירוניות רבות מושתלות שגיאות קטנות מכוונות (למשל שביל הולכי רגל שמסומן ככביש) המיועדות להגנה על זכויות יוצרים מפני העתקת המפה.

פתרון: ייכנס המורה לויקיפדיה ביום-יומיים שלפני מועד ההגשה, וישתול שגיאות כתיב מינוריות, או כתיב לא סטנדרטי עקבי, או משפט משונה מבחינה תחבירית, בערך או שניים הרלוונטיים לעבודה. רצוי לתעד אותן או לשמור את כתובת הגרסה המשונה (ויקיפדיה מארכבת את כל הגרסאות של כל ערך). כך בהשקעה של רבע שעה יחסוך לעצמו פעולת בילוש ארוכה לגבי עשרות עבודות – המעתיקים יחזרו על השגיאות/על הניסוח המיוחד,  ואחרי כמה התפסויות יסורו מדרכם הרעה.

צריך קצת לחשוב על שינויים שאינם טריוויאליים, שלא יתגלו ע"י התלמידים הקצת-משקיענים (או בודק האיות של וורד) ויתוקנו. אשמח לשמוע רעיונות.

להגרני / לואיס קרול, תרגום: יובל פינטר

4 נובמבר, 2009 ב- 21:30 | פורסם ב15 דקות, אנגלית, יצירתי, עברית, תרגום | 9 תגובות

זה הפוסט הקודם, וזה השיר המלא:

עֵת מַרְתֵּחַ הַיְתָּה, הַלְּטוֹרוֹת הַגְּמוּסוֹת
סַבֵּגוּ ורָדְעוּ בְּחֵיק הַנַּרְחָק;
כֹּה מְעוּדָשׁוֹת הָיוּ הבֶּרְגּוּסוֹת,
והזּוּרָחים גַּעֲמוּ בַּפַּרְסְתָּק.

"הִשָּׁמֵר מֵהַלַּהֲגֶרָן, בֵּן יָקִיר!
מֶלְתַּעַת נוֹגֶסֶת, צִפֹּרֶן בִּנְעוֹץ!
גּוּרָה תָּגוּר מֵחוּבְחוּב, וְתָדִיר
אֶת מִלְהֶטֶת הַמַּעַף שֶׁהִיא הַלַּפְתּוֹץ!"

נָטַל הוּא חַרְבּוֹ הַשְּׁנוּטָה לְיָדוֹ:
זְמָן רַב תָּר אֲחַר הַצּוֹרֵר הַמַּצְלֵף —
אֲחַר-כָּךְ הוּא נָח תַּחַת עֵץ הַגְּרִידוֹ,
עָמַד בְּעוֹמְדּוֹ לִזְמָן-מָה וְשִׁרְעֵף.

וּבְעוֹד הוּא עוֹמֵד בְּמַחְשֶׁבֶת אִפְטוּף,
הלַּהֲגֶרָן, וְעֵינָיו לְהוּבוֹת,
קָרֵב ואִוְשֵׁשׁ בְּנִבְכֵי חֹרֶשׁ דּוּף,
בּוֹאוֹ מְרוּצָף בַּעְבּוּבֵי-בַּעְבּוּבוֹת!

חַת-שְׁתַיִים! חַת-שְׁתַיִים! בִּמְחִי וּבִמְחוֹ
גָּזִיר וגָזוֹר עָפָה חֶרֶב שְׁנוּטָה
הָרַג הַמִּפְלָץ, נָטַל בֵּית-מוֹחוֹ
וְרַכְדַּב חֲזָרָה בְּמִצְהוֹל וְגִיטָה.

"וּבְכֵן, הֲמִגַּרְתָּ אֶת הַלַּהֲגֶרָן?
בּוֹא, קְרָב-נָא אֶל תּוֹךְ זְרוֹעוֹתַי, בֵּן מוּצְקָר!
יְהוּלַל יוֹם נִדְלַץ! הֵידַח! הֶבְּרָאדַן!"
הָאָב הַמְּשׁוּלְהַב הִתְחַגֵּשׁ וְדִנְחַר.

עֵת מַרְתֵּחַ הַיְתָּה, הַלְּטוֹרוֹת הַגְּמוּסוֹת
סַבֵּגוּ ורָדְעוּ בְּחֵיק הַנַּרְחָק;
כֹּה מְעוּדָשׁוֹת הָיוּ הבֶּרְגּוּסוֹת,
והזּוּרָחים גַּעֲמוּ בַּפַּרְסְתָּק.

'Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.

"Beware the Jabberwock, my son!
The jaws that bite, the claws that catch!
Beware the Jubjub bird, and shun
The frumious Bandersnatch!"

He took his vorpal sword in hand:
Long time the manxome foe he sought—
So rested he by the Tumtum tree,
And stood awhile in thought.

And as in uffish thought he stood,
The Jabberwock, with eyes of flame,
Came whiffling through the tulgey wood,
And burbled as it came!

One, two! One, two! and through and through
The vorpal blade went snicker-snack!
He left it dead, and with its head
He went galumphing back.

"And hast thou slain the Jabberwock?
Come to my arms, my beamish boy!
O frabjous day! Callooh! Callay!"
He chortled in his joy.

'Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.

אשמח לשמוע תגובות.

העמוד הבא »

בלוג בוורדפרס.קום.
Entries וכן תגובות feeds.