In the POPFile UI tab "History" the messages are displayed with the wrong encoding. That happens with KOI8-R and UTF8 encodings, at least with quoted-printable encoding. I imagine this would also impact corpus construction.
Two examples follow:
1. Subject: =?koi8-r?B?89LF3cEgMiAgzcHS1CDyxcfMwc3FztQg2sEg0NLPxsXTyc/OwczOzyDSwdo=?=
=?koi8-r?B?18nUycU=?=
Content-Type: multipart/alternative;
boundary="----=_NextPart_000_0107_01CAB9B3.129DB390"
Content-Type: text/plain;
charset="koi8-r"
Content-Transfer-Encoding: quoted-printable
úÄÒÁ×ÅÊÔÅ ËÏÌÅÇÉ,
I see
Subject: óÒÅÝÁ 2 ÍÁÒÔ òÅÇÌÁÍÅÎÔ ÚÁ ÐÒÏÆÅÓÉÏÎÁÌÎÏ ÒÁÚ×ÉÔÉÅ
úÄÒÁ×ÅÊÔÅ ËÏÌÅÇÉ,
ðÏ ÐÒÅÄÌÏÖÅÎÉÅ
Instead I should see:
Subject: Среща 2 март
Здравейте колеги,
По предложение
2. Subject: =?UTF-8?B?W0pJUkFdIEFzc2lnbmVkOiAoUE9CRFctMQ==?=
=?UTF-8?B?MDQpINCh0YrQt9C00LDQstCw0L3QtSDQvtC/0LjRgdCw0L3QuNC1INC30LAg?=
=?UTF-8?B?0LjQt9Cy0LvQuNGH0LDQvdC10YLQviA=?=
=?UTF-8?B?0L3QsCDQv9GA0LXQv9C40YHQutC4INGB?=
=?UTF-8?B?INGA0LDQt9C70LjRh9C90LjRgtC1INGB?=
=?UTF-8?B?0YLQsNGC0YPRgdC4INC+0YIg0KPQmNCh?=
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable
Създаване опиÑание за извличането на препиÑки Ñ Ñ€Ð°Ð·Ð»Ð¸Ñ‡Ð½Ð¸Ñ‚Ðµ
ÑтатуÑи от УИС
I see
Subject: [JIRA] Assigned: (POBDW-104) Създаване опиÑание за извличането на препиÑки Ñ Ñ€Ð°Ð·Ð»Ð¸Ñ‡Ð½Ð¸Ñ‚Ðµ ÑтатуÑи от УИÐ
Създаване опиÑание за извличането на препиÑки Ñ Ñ€Ð°Ð·Ð»Ð¸Ñ‡Ð½Ð¸Ñ‚Ðµ
ÑтатуÑи от УИС
Instead I should see:
[JIRA] Assigned: (POBDW-104) Създаване описание за извличането на преписки с различните статуси от УИС
Създаване описание за извличането на преписки с различните статуси от УИС