predipath GWAS specific k-mers data

PREDIPATH predictions using the GWAS specific k-mers

Clickable table of contents

  1. Preparation and description of the data

  2. Prediction for the P and NP classes

  3. Concluding remarks

1. Preparation and description of the data
Data was given as a table of 59 lines by 512 columns. The 59 genomes were annotated NPA-NP, PA-NP or PA-P (NPA: non plant associated, PA: plant associated, NP: non pathogenic, P: pathogenic). Here are some names of the columns, which are obviously non explicit:
     512 Colums:
     ===========
     
           name
     [1,] "X977035"
     [2,] "X353930"
     [3,] "X660456"
     [4,] "X957389"
     [5,] "X761692"
     [6,] "X1081881"
     [...]
     [507,] "X1096408"
     [508,] "X1126723"
     [509,] "X841270"
     [510,] "X1077409"
     [511,] "X691797"
     [512,] "X1139556"
     
With a small R script, we checked that there were no constant columns.

With another small R script, it was easy to get rid of 326 columns equal to other columns, leaving using with only 186 columns:

n Name Columns that are equal to n 1 X977035 2 X353930 3 X660456 4 X957389 5 X761692 6 X1081881 7 X1125434 8 X1026271 9 X626933 10 X868767 11 X164361 X1056315 X1127472 14 X960658 15 X1046571 16 X796993 X1005605 X1036521 X1140755 20 X400739 X1045934 22 X577828 X829652 X924508 X1060282 26 X688541 27 X1111828 28 X907054 29 X745798 30 X416115 X532190 32 X668025 33 X1012033 34 X1140694 35 X624647 X1043837 37 X1119070 38 X388437 X648962 40 X1106871 41 X777169 X1068560 43 X508965 X1035185 X1051242 46 X704021 47 X372564 48 X1107946 49 X606155 50 X948978 51 X1033842 52 X231764 53 X780124 54 X1085719 55 X263637 X939317 57 X1126485 58 X1081844 X1130181 60 X1085951 61 X424521 X855669 63 X567309 64 X807761 65 X1097537 66 X1009922 X1054170 68 X5477 X137966 X155364 X312910 X313030 X515890 X651924 X750352 X753836 X805586 X847955 X877798 X883028 X914604 X939339 X942832 X983185 X1000861 X1043867 X1068708 X1070286 X1076864 X1079110 X1125909 X1126512 X1127624 69 X15477 X54772 X454770 X475477 X1105477 70 X25477 X154772 X154775 X547706 X547728 X547753 X554773 71 X35477 X254778 X354776 X415477 X535477 X547719 X547730 X547740 X547754 X547789 X585477 X745477 X1055477 72 X45477 X547751 X547760 X1035477 73 X54770 X54773 X155477 X205477 X547724 X547749 X754775 74 X54771 X54774 X154771 X275477 X547723 X547769 X547782 X547793 X615477 X635477 X654775 X785477 X805477 78 X54775 X65477 X245477 X425477 X547716 X547765 X547790 X665477 X1054775 X1054778 79 X54776 X455477 X547737 X547748 X547756 X547764 X554770 X654773 80 X54777 81 X54778 X175477 X354772 X1054779 82 X54779 X254775 X547714 X547776 X547781 X795477 X954779 83 X55477 X154774 X365477 X547705 X547736 X547788 X754778 X845477 85 X75477 X254772 X345477 X354779 X445477 X547704 X547731 X547733 X547777 X547798 X554772 X554776 X554778 X605477 X675477 X695477 X754776 X855477 X875477 X954770 X954773 86 X85477 X254773 X255477 X354770 X355477 X547702 X547709 X547717 X547775 X547785 X554774 X595477 X885477 87 X95477 X354771 X547718 X775477 X815477 X905477 88 X105477 X225477 X254779 X335477 X754773 89 X115477 X254770 X354774 X505477 X547710 X547727 X547752 X654776 X854774 X854775 X854778 90 X125477 X185477 X195477 X547701 X547707 X547792 X865477 91 X135477 92 X145477 X547711 X547750 X547780 X835477 X854773 93 X154770 X325477 X405477 X485477 X547708 X547768 X547791 X547796 X654779 96 X154773 X354773 X395477 X454775 X547712 X547774 X547784 X554777 X555477 X725477 X895477 99 X154776 100 X154777 X547734 X547767 X547779 X655477 X754779 101 X154778 X354777 X454771 X454777 X547735 X547739 X547766 X547772 X547778 X547795 X735477 X825477 X854771 102 X154779 X235477 X495477 X515477 X547700 X547763 104 X165477 X285477 X547787 X654774 109 X215477 X265477 114 X254771 X254776 X547720 X547747 X547758 X547773 X547797 X575477 X954775 117 X254774 X295477 X354775 X354778 X454776 X545477 X547703 X547771 X547783 X547794 X554771 X554775 X654770 X685477 X715477 X754772 X754777 X955477 120 X254777 X435477 X547725 X547742 X547746 X654778 X754771 X854776 X854779 128 X305477 129 X315477 X375477 X547726 X547732 X705477 X954774 146 X385477 155 X454772 X454774 X547721 X547755 X565477 X754770 156 X454773 X465477 X547722 X547743 161 X454778 162 X454779 170 X525477 X547762 X945477 186 X547713 188 X547715 X547786 X1135477 202 X547729 211 X547738 214 X547741 217 X547744 X654777 218 X547745 230 X547757 X754774 232 X547759 X547761 X554779 243 X547770 272 X547799 290 X625477 292 X645477 X1015477 X1054776 294 X654771 295 X654772 323 X755477 324 X765477 333 X854770 335 X854772 340 X854777 349 X915477 350 X925477 351 X935477 354 X954771 355 X954772 359 X954776 360 X954777 361 X954778 364 X965477 X995477 365 X975477 366 X985477 368 X1005477 370 X1025477 372 X1045477 373 X1054770 374 X1054771 375 X1054772 376 X1054773 377 X1054774 380 X1054777 384 X1065477 385 X1075477 386 X1085477 387 X1095477 389 X1115477 390 X1125477 393 X1137966 418 X393704 419 X279468 420 X602772 X1029501 X1052149 423 X1032810 424 X489606 425 X427449 X655892 427 X1122208 428 X1081410 429 X424856 430 X1059101 X1080069 432 X859226 433 X1034797 434 X774086 435 X912369 436 X777697 437 X427629 438 X347777 X720246 440 X895901 441 X1120392 442 X299121 443 X947339 X1012645 X1057241 X1067792 X1083038 X1090448 X1093307 X1137734 451 X926871 452 X816014 453 X829000 X1133405 455 X456522 456 X803296 457 X689950 458 X1041882 X1124221 460 X1093020 461 X649311 462 X957909 463 X704087 464 X1131997 465 X833362 X1100841 X1134076 468 X414914 X1059467 470 X931038 471 X1103257 472 X1015684 473 X668452 474 X863133 475 X981707 476 X350963 X419788 X433840 X436451 X463501 X586607 X618970 X627104 X701958 X789021 X804621 X809494 X832070 X838788 X864829 X914343 X929319 X961093 X977021 X989908 X1012855 X1013745 X1031241 X1062870 X1068369 X1111775 X1121760 X1134025 504 X969877 505 X1019483 506 X994619 507 X1096408 508 X1126723 509 X841270 510 X1077409 511 X691797 512 X1139556

For these remaining columns, we removed 39 columns with a near zero variance:
           names2rm
      [1,] "X15477"
      [2,] "X45477"
      [3,] "X54770"
      [4,] "X54771"
      [5,] "X54776"
      [6,] "X54777"
      [7,] "X54778"
      [8,] "X54779"
      [9,] "X55477"
     [10,] "X75477"
     [11,] "X85477"
     [12,] "X95477"
     [13,] "X105477"
     [14,] "X115477"
     [15,] "X125477"
     [16,] "X145477"
     [17,] "X154770"
     [18,] "X154777"
     [19,] "X154778"
     [20,] "X165477"
     [21,] "X254771"
     [22,] "X254774"
     [23,] "X254777"
     [24,] "X315477"
     [25,] "X454772"
     [26,] "X454773"
     [27,] "X454778"
     [28,] "X525477"
     [29,] "X547713"
     [30,] "X547741"
     [31,] "X547744"
     [32,] "X547745"
     [33,] "X547759"
     [34,] "X547799"
     [35,] "X625477"
     [36,] "X654771"
     [37,] "X954777"
     [38,] "X954778"
     [39,] "X1054771"
     
So for the remaining part of the analysis, we had only 147 columns and 59 genomes in three classes:

Description of the three classes for the 59 genomes =================================================== Num Effectif Pourcentage NPA-NP 0 7 12 % PA-NP 1 9 15 % PA-P 2 43 73 %

We tried to order the percentages of the presence in the three classes:

Ordered Percentages for columns in the three classes ============================================ NPA-NP PA-NP PA-P X353930 100 % 56 % 7 % X660456 100 % 56 % 0 % X957389 71 % 44 % 0 % X761692 86 % 67 % 0 % X1081881 71 % 22 % 0 % X1125434 0 % 33 % 23 % X1026271 100 % 56 % 2 % X626933 57 % 22 % 0 % X868767 0 % 33 % 7 % X164361 0 % 11 % 12 % X960658 86 % 0 % 0 % X1046571 100 % 56 % 9 % X796993 57 % 11 % 0 % X400739 71 % 33 % 0 % X577828 100 % 89 % 0 % X688541 71 % 22 % 2 % X1111828 0 % 56 % 7 % X907054 100 % 67 % 5 % X745798 100 % 67 % 0 % X416115 0 % 44 % 7 % X668025 71 % 44 % 0 % X1012033 57 % 11 % 0 % X1140694 100 % 67 % 12 % X624647 57 % 56 % 0 % X1119070 43 % 11 % 0 % X388437 86 % 56 % 0 % X1106871 71 % 22 % 12 % X777169 86 % 67 % 0 % X508965 57 % 22 % 0 % X704021 86 % 67 % 0 % X372564 29 % 56 % 23 % X1107946 0 % 22 % 12 % X606155 100 % 78 % 12 % X948978 29 % 78 % 21 % X1033842 0 % 11 % 23 % X231764 71 % 67 % 0 % X780124 100 % 44 % 5 % X1085719 71 % 33 % 7 % X263637 0 % 22 % 12 % X1126485 57 % 56 % 0 % X1081844 0 % 22 % 7 % X1085951 14 % 33 % 12 % X424521 43 % 22 % 0 % X567309 57 % 44 % 0 % X807761 100 % 56 % 7 % X1097537 71 % 0 % 0 % X1009922 0 % 11 % 9 % X5477 0 % 11 % 7 % X25477 0 % 0 % 7 % X35477 0 % 33 % 0 % X54775 0 % 0 % 9 % X135477 86 % 89 % 12 % X154773 100 % 100 % 23 % X154776 100 % 100 % 30 % X154779 100 % 100 % 26 % X215477 100 % 100 % 21 % X305477 0 % 0 % 53 % X385477 0 % 0 % 9 % X454779 86 % 89 % 14 % X547715 14 % 33 % 0 % X547729 100 % 100 % 26 % X547738 0 % 11 % 5 % X547757 100 % 100 % 28 % X547770 0 % 22 % 5 % X645477 0 % 0 % 12 % X654772 0 % 44 % 0 % X755477 57 % 11 % 16 % X765477 71 % 100 % 23 % X854770 0 % 11 % 5 % X854772 29 % 11 % 0 % X854777 0 % 11 % 12 % X915477 0 % 22 % 2 % X925477 43 % 11 % 0 % X935477 14 % 11 % 9 % X954771 29 % 11 % 7 % X954772 71 % 89 % 9 % X954776 14 % 22 % 0 % X965477 0 % 0 % 12 % X975477 0 % 11 % 5 % X985477 100 % 100 % 23 % X1005477 100 % 100 % 14 % X1025477 0 % 11 % 7 % X1045477 0 % 22 % 9 % X1054770 100 % 67 % 23 % X1054772 14 % 22 % 0 % X1054773 14 % 22 % 0 % X1054774 14 % 0 % 9 % X1054777 100 % 100 % 23 % X1065477 0 % 11 % 12 % X1075477 14 % 22 % 0 % X1085477 43 % 0 % 5 % X1095477 0 % 11 % 9 % X1115477 0 % 0 % 9 % X1125477 0 % 33 % 2 % X1137966 100 % 100 % 12 % X393704 71 % 56 % 0 % X279468 0 % 67 % 16 % X602772 14 % 44 % 12 % X1032810 14 % 44 % 14 % X489606 0 % 33 % 23 % X427449 0 % 11 % 16 % X1122208 100 % 89 % 2 % X1081410 86 % 67 % 0 % X424856 57 % 44 % 0 % X1059101 86 % 56 % 0 % X859226 86 % 44 % 5 % X1034797 71 % 44 % 0 % X774086 100 % 100 % 0 % X912369 29 % 67 % 23 % X777697 14 % 67 % 7 % X427629 0 % 33 % 7 % X347777 100 % 67 % 7 % X895901 0 % 33 % 14 % X1120392 29 % 44 % 19 % X299121 0 % 56 % 9 % X947339 0 % 56 % 7 % X926871 100 % 78 % 5 % X816014 100 % 33 % 16 % X829000 0 % 33 % 12 % X456522 86 % 56 % 0 % X803296 86 % 0 % 12 % X689950 57 % 11 % 9 % X1041882 43 % 22 % 0 % X1093020 0 % 67 % 12 % X649311 0 % 44 % 19 % X957909 71 % 11 % 0 % X704087 86 % 44 % 0 % X1131997 57 % 44 % 0 % X833362 100 % 89 % 5 % X414914 43 % 22 % 0 % X931038 0 % 56 % 19 % X1103257 29 % 67 % 12 % X1015684 86 % 56 % 0 % X668452 86 % 44 % 0 % X863133 71 % 56 % 0 % X981707 71 % 11 % 0 % X350963 43 % 11 % 0 % X969877 100 % 33 % 9 % X1019483 86 % 44 % 2 % X994619 0 % 22 % 19 % X1096408 43 % 78 % 12 % X1126723 100 % 100 % 2 % X841270 0 % 11 % 16 % X1077409 86 % 67 % 2 % X691797 86 % 33 % 5 % X1139556 71 % 33 % 0 %

and to order also the counts of the presence in the three classes:

Ordered counts for columns in the three classes =============================================== NPA-NP PA-NP PA-P total diff1 diff2 diff3 max1 max2 maxmax X305477 0 0 23 23 0 23 23 23 23 23 X1033842 0 1 10 11 1 10 9 10 9 10 X1125434 0 3 10 13 3 10 7 10 7 10 X489606 0 3 10 13 3 10 7 10 7 10 X774086 7 9 0 16 2 7 9 7 9 9 X577828 7 8 0 15 1 7 8 7 8 8 X1126723 7 9 1 17 2 6 8 6 8 8 X994619 0 2 8 10 2 8 6 8 6 8 X372564 2 5 10 17 3 8 5 8 5 8 X912369 2 6 10 18 4 8 4 8 8 8 X649311 0 4 8 12 4 8 4 8 8 8 X931038 0 5 8 13 5 8 3 8 8 8 X1122208 7 8 1 16 1 6 7 6 7 7 X745798 7 6 0 13 1 7 6 7 6 7 X427449 0 1 7 8 1 7 6 7 6 7 X841270 0 1 7 8 1 7 6 7 6 7 X660456 7 5 0 12 2 7 5 7 5 7 X948978 2 7 9 18 5 7 2 7 7 7 X279468 0 6 7 13 6 7 1 7 7 7 X761692 6 6 0 12 0 6 6 6 6 6 X777169 6 6 0 12 0 6 6 6 6 6 X704021 6 6 0 12 0 6 6 6 6 6 X231764 5 6 0 11 1 5 6 5 6 6 X755477 4 1 7 12 3 3 6 6 6 6 X1081410 6 6 0 12 0 6 6 6 6 6 X833362 7 8 2 17 1 5 6 5 6 6 X388437 6 5 0 11 1 6 5 6 5 6 X1059101 6 5 0 11 1 6 5 6 5 6 X456522 6 5 0 11 1 6 5 6 5 6 X803296 6 0 5 11 6 1 5 6 6 6 X1015684 6 5 0 11 1 6 5 6 5 6 X1026271 7 5 1 13 2 6 4 6 4 6 X154776 7 9 13 29 2 6 4 6 4 6 X1120392 2 4 8 14 2 6 4 6 4 6 X704087 6 4 0 10 2 6 4 6 4 6 X668452 6 4 0 10 2 6 4 6 4 6 X895901 0 3 6 9 3 6 3 6 6 6 X1093020 0 6 5 11 6 5 1 6 6 6 X960658 6 0 0 6 6 6 0 6 6 6 X624647 4 5 0 9 1 4 5 4 5 5 X1126485 4 5 0 9 1 4 5 4 5 5 X645477 0 0 5 5 0 5 5 5 5 5 X965477 0 0 5 5 0 5 5 5 5 5 X393704 5 5 0 10 0 5 5 5 5 5 X926871 7 7 2 16 0 5 5 5 5 5 X863133 5 5 0 10 0 5 5 5 5 5 X1077409 6 6 1 13 0 5 5 5 5 5 X957389 5 4 0 9 1 5 4 5 4 5 X164361 0 1 5 6 1 5 4 5 4 5 X907054 7 6 2 15 1 5 4 5 4 5 X668025 5 4 0 9 1 5 4 5 4 5 X854777 0 1 5 6 1 5 4 5 4 5 X1065477 0 1 5 6 1 5 4 5 4 5 X1034797 5 4 0 9 1 5 4 5 4 5 X400739 5 3 0 8 2 5 3 5 3 5 X1107946 0 2 5 7 2 5 3 5 3 5 X263637 0 2 5 7 2 5 3 5 3 5 X547757 7 9 12 28 2 5 3 5 3 5 X777697 1 6 3 10 5 2 3 5 5 5 X1019483 6 4 1 11 2 5 3 5 3 5 X1139556 5 3 0 8 2 5 3 5 3 5 X1081881 5 2 0 7 3 5 2 5 5 5 X1111828 0 5 3 8 5 3 2 5 5 5 X780124 7 4 2 13 3 5 2 5 5 5 X1032810 1 4 6 11 3 5 2 5 5 5 X947339 0 5 3 8 5 3 2 5 5 5 X829000 0 3 5 8 3 5 2 5 5 5 X765477 5 9 10 24 4 5 1 5 5 5 X299121 0 5 4 9 5 4 1 5 5 5 X957909 5 1 0 6 4 5 1 5 5 5 X981707 5 1 0 6 4 5 1 5 5 5 X1097537 5 0 0 5 5 5 0 5 5 5 X567309 4 4 0 8 0 4 4 4 4 4 X54775 0 0 4 4 0 4 4 4 4 4 X385477 0 0 4 4 0 4 4 4 4 4 X654772 0 4 0 4 4 0 4 4 4 4 X954772 5 8 4 17 3 1 4 4 4 4 X1054770 7 6 10 23 1 3 4 3 4 4 X1054774 1 0 4 5 1 3 4 3 4 4 X1115477 0 0 4 4 0 4 4 4 4 4 X1137966 7 9 5 21 2 2 4 4 4 4 X424856 4 4 0 8 0 4 4 4 4 4 X816014 7 3 7 17 4 0 4 4 4 4 X1131997 4 4 0 8 0 4 4 4 4 4 X1009922 0 1 4 5 1 4 3 4 3 4 X1095477 0 1 4 5 1 4 3 4 3 4 X347777 7 6 3 16 1 4 3 4 3 4 X353930 7 5 3 15 2 4 2 4 4 4 X626933 4 2 0 6 2 4 2 4 4 4 X508965 4 2 0 6 2 4 2 4 4 4 X1085951 1 3 5 9 2 4 2 4 4 4 X807761 7 5 3 15 2 4 2 4 4 4 X154779 7 9 11 27 2 4 2 4 4 4 X547729 7 9 11 27 2 4 2 4 4 4 X1045477 0 2 4 6 2 4 2 4 4 4 X859226 6 4 2 12 2 4 2 4 4 4 X1096408 3 7 5 15 4 2 2 4 4 4 X796993 4 1 0 5 3 4 1 4 4 4 X688541 5 2 1 8 3 4 1 4 4 4 X416115 0 4 3 7 4 3 1 4 4 4 X1012033 4 1 0 5 3 4 1 4 4 4 X602772 1 4 5 10 3 4 1 4 4 4 X1103257 2 6 5 13 4 3 1 4 4 4 X969877 7 3 4 14 4 3 1 4 4 4 X691797 6 3 2 11 3 4 1 4 4 4 X1106871 5 2 5 12 3 0 3 3 3 3 X25477 0 0 3 3 0 3 3 3 3 3 X35477 0 3 0 3 3 0 3 3 3 3 X135477 6 8 5 19 2 1 3 3 3 3 X547715 1 3 0 4 2 1 3 3 3 3 X935477 1 1 4 6 0 3 3 3 3 3 X1005477 7 9 6 22 2 1 3 3 3 3 X689950 4 1 4 9 3 0 3 3 3 3 X424521 3 2 0 5 1 3 2 3 2 3 X5477 0 1 3 4 1 3 2 3 2 3 X1025477 0 1 3 4 1 3 2 3 2 3 X1085477 3 0 2 5 3 1 2 3 3 3 X1125477 0 3 1 4 3 1 2 3 3 3 X1041882 3 2 0 5 1 3 2 3 2 3 X414914 3 2 0 5 1 3 2 3 2 3 X1046571 7 5 4 16 2 3 1 3 3 3 X1119070 3 1 0 4 2 3 1 3 3 3 X1081844 0 2 3 5 2 3 1 3 3 3 X154773 7 9 10 26 2 3 1 3 3 3 X925477 3 1 0 4 2 3 1 3 3 3 X985477 7 9 10 26 2 3 1 3 3 3 X1054777 7 9 10 26 2 3 1 3 3 3 X350963 3 1 0 4 2 3 1 3 3 3 X868767 0 3 3 6 3 3 0 3 3 3 X427629 0 3 3 6 3 3 0 3 3 3 X606155 7 7 5 19 0 2 2 2 2 2 X454779 6 8 6 20 2 0 2 2 2 2 X954771 2 1 3 6 1 1 2 2 2 2 X954776 1 2 0 3 1 1 2 2 2 2 X1054772 1 2 0 3 1 1 2 2 2 2 X1054773 1 2 0 3 1 1 2 2 2 2 X1075477 1 2 0 3 1 1 2 2 2 2 X1140694 7 6 5 18 1 2 1 2 2 2 X547738 0 1 2 3 1 2 1 2 2 2 X854770 0 1 2 3 1 2 1 2 2 2 X854772 2 1 0 3 1 2 1 2 2 2 X915477 0 2 1 3 2 1 1 2 2 2 X975477 0 1 2 3 1 2 1 2 2 2 X1085719 5 3 3 11 2 2 0 2 2 2 X215477 7 9 9 25 2 2 0 2 2 2 X547770 0 2 2 4 2 2 0 2 2 2

Some lines were equal, with distinct classes, thus leading to a contradiction to discriminate between the classes. 33 lines were removed, so only 26 profiles of lines remain.
     Detection of equal lines and contradictions
     ===========================================
     
     33 lines removed
        Line              Equals
     1  NPNP-000773975.1
     2  NPNP-001267535.1  3
     4  NPNP-001484765.1
     5  NPNP-002752575.1
     6  NPNP-002865965.1  14
     7  NPNP-900068895.1
     8  NPPA-000026185.1
     9  NPPA-000196615.1
     10 NPPA-000336255.1
     11 NPPA-000745075.1
     12 NPPA-000770305.1
     13 NPPA-001269445.1
     15 NPPA-001517405.1
     16 NPPA-002980095.1
     17 PATH-000026985.1  19 58
     18 PATH-000027205.1  20 22 23 24 25 26 27 28 31 32 33 35 42 43 44 47 51 56 57
     21 PATH-000165815.1
     29 PATH-000367665.1
     30 PATH-000404125.1  36
     34 PATH-000590885.1
     37 PATH-001050515.1
     38 PATH-001571305.1  59
     39 PATH-002732125.1  40 41 46 49 50 53 55
     45 PATH-002732285.1  52
     48 PATH-002732335.1
     54 PATH-002732445.1
     
     Classes and contradictions between classes
     ==========================================
     
           Line             Class Equal.Lines Classes
      [1,] NPNP-000773975.1 0     1           0
      [2,] NPNP-001267535.1 0     2           0 0
      [3,] NPNP-001484765.1 0     1           0
      [4,] NPNP-002752575.1 0     1           0
      [5,] NPNP-002865965.1 0     2           0 1
      [6,] NPNP-900068895.1 0     1           0
      [7,] NPPA-000026185.1 1     1           1
      [8,] NPPA-000196615.1 1     1           1
      [9,] NPPA-000336255.1 1     1           1
     [10,] NPPA-000745075.1 1     1           1
     [11,] NPPA-000770305.1 1     1           1
     [12,] NPPA-001269445.1 1     1           1
     [13,] NPPA-001517405.1 1     1           1
     [14,] NPPA-002980095.1 1     1           1
     [15,] PATH-000026985.1 2     3           2 2 2
     [16,] PATH-000027205.1 2     20          2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
     [17,] PATH-000165815.1 2     1           2
     [18,] PATH-000367665.1 2     1           2
     [19,] PATH-000404125.1 2     2           2 2
     [20,] PATH-000590885.1 2     1           2
     [21,] PATH-001050515.1 2     1           2
     [22,] PATH-001571305.1 2     2           2 2
     [23,] PATH-002732125.1 2     8           2 2 2 2 2 2 2 2
     [24,] PATH-002732285.1 2     2           2 2
     [25,] PATH-002732335.1 2     1           2
     [26,] PATH-002732445.1 2     1           2
     
Here are the genomes that are an issue:
                                    Classe X353930 X660456 X957389 X761692 X1081881 X1125434 X1026271 X626933 X868767 X164361 X960658 X1046571 X796993 X400739 X577828 X688541 X1111828 X907054 X745798 X416115 X668025 X1012033 X1140694 X624647 X1119070 X388437 X1106871 X777169 X508965 X704021 X372564 X1107946 X606155 X948978 X1033842 X231764 X780124 X1085719 X263637 X1126485 X1081844 X1085951 X424521 X567309 X807761 X1097537 X1009922 X5477 X25477 X35477 X54775 X135477 X154773 X154776 X154779 X215477 X305477 X385477 X454779 X547715 X547729 X547738 X547757 X547770 X645477 X654772 X755477 X765477 X854770 X854772 X854777 X915477 X925477 X935477 X954771 X954772 X954776 X965477 X975477 X985477 X1005477 X1025477 X1045477 X1054770 X1054772 X1054773 X1054774 X1054777 X1065477 X1075477 X1085477 X1095477 X1115477 X1125477 X1137966 X393704 X279468 X602772 X1032810 X489606 X427449 X1122208 X1081410 X424856 X1059101 X859226 X1034797 X774086 X912369 X777697 X427629 X347777 X895901
     002865965.1-Erwinia_sp.|B116        0       1       1       0       0        1        0        1       1       0       0       0        1       0       0       1       1        0       1       1       0       0        0        1       1        0       0        1       1       1       1       1        0       1       0        0       0       1        0       0        1        0        0       1       1       1        0        0     0      0      0      0       1       1       1       1       1       0       0       1       0       1       0       1       0       0       0       0       1       0       0       0       0       1       0       0       0       0       0       0       1        1        0        0        1        0        0        0        1        0        1        0        0        0        0        1       0       0       0        0       0       0        1        1       0        1       1        1       1       0       0       0       1       0
     001422605.1-Erwinia_sp.|Leaf53      1       1       1       0       0        1        0        1       1       0       0       0        1       0       0       1       1        0       1       1       0       0        0        1       1        0       0        1       1       1       1       1        0       1       0        0       0       1        0       0        1        0        0       1       1       1        0        0     0      0      0      0       1       1       1       1       1       0       0       1       0       1       0       1       0       0       0       0       1       0       0       0       0       1       0       0       0       0       0       0       1        1        0        0        1        0        0        0        1        0        1        0        0        0        0        1       0       0       0        0       0       0        1        1       0        1       1        1       1       0       0       0       1       0
     
2. Prediction for the P and NP classes
With only 7 genomes in class NPA-NP and 9 genomes in the PA-NP class, it is difficult to have any robust result. So, since also a same profile is found on the NPA-NP class and in the PA-NP class, we merged them in the NP class and we tried to predict the two classes NP and P using the 59 genomes.
     Description of the 2 classes for the 59 genomes
     ===============================================
     
              Num Effectif Pourcentage
           NP   1       16        27 %
           P    2       43        73 %
     
Below are the counts and percentages for these two classes that we also tried to order:

Decreasing global counts for the 147 specific k-mers ===================================================== NP P total X154776 16 13 29 X547757 16 12 28 X154779 16 11 27 X547729 16 11 27 X154773 16 10 26 X985477 16 10 26 X1054777 16 10 26 X215477 16 9 25 X765477 14 10 24 X305477 0 23 23 X1054770 13 10 23 X1005477 16 6 22 X1137966 16 5 21 X454779 14 6 20 X606155 14 5 19 X135477 14 5 19 X1140694 13 5 18 X948978 9 9 18 X912369 8 10 18 X372564 7 10 17 X954772 13 4 17 X816014 10 7 17 X833362 15 2 17 X1126723 16 1 17 X1046571 12 4 16 X1122208 15 1 16 X774086 16 0 16 X347777 13 3 16 X926871 14 2 16 X353930 12 3 15 X577828 15 0 15 X907054 13 2 15 X807761 12 3 15 X1096408 10 5 15 X1120392 6 8 14 X969877 10 4 14 X977035 13 0 13 X1125434 3 10 13 X1026271 12 1 13 X745798 13 0 13 X780124 11 2 13 X279468 6 7 13 X489606 3 10 13 X931038 5 8 13 X1103257 8 5 13 X1077409 12 1 13 X660456 12 0 12 X761692 12 0 12 X1106871 7 5 12 X777169 12 0 12 X704021 12 0 12 X755477 5 7 12 X1081410 12 0 12 X859226 10 2 12 X649311 4 8 12 X388437 11 0 11 X1033842 1 10 11 X231764 11 0 11 X1085719 8 3 11 X1032810 5 6 11 X1059101 11 0 11 X456522 11 0 11 X803296 6 5 11 X1093020 6 5 11 X1015684 11 0 11 X1019483 10 1 11 X691797 9 2 11 X393704 10 0 10 X602772 5 5 10 X777697 7 3 10 X704087 10 0 10 X668452 10 0 10 X863133 10 0 10 X994619 2 8 10 X957389 9 0 9 X668025 9 0 9 X624647 9 0 9 X1126485 9 0 9 X1085951 4 5 9 X1034797 9 0 9 X895901 3 6 9 X299121 5 4 9 X689950 5 4 9 X400739 8 0 8 X688541 7 1 8 X1111828 5 3 8 X567309 8 0 8 X427449 1 7 8 X424856 8 0 8 X947339 5 3 8 X829000 3 5 8 X1131997 8 0 8 X841270 1 7 8 X1139556 8 0 8 X1081881 7 0 7 X416115 4 3 7 X1107946 2 5 7 X263637 2 5 7 X626933 6 0 6 X868767 3 3 6 X164361 1 5 6 X960658 6 0 6 X508965 6 0 6 X854777 1 5 6 X935477 2 4 6 X954771 3 3 6 X1045477 2 4 6 X1065477 1 5 6 X427629 3 3 6 X957909 6 0 6 X981707 6 0 6 X796993 5 0 5 X1012033 5 0 5 X1081844 2 3 5 X424521 5 0 5 X1097537 5 0 5 X1009922 1 4 5 X645477 0 5 5 X965477 0 5 5 X1054774 1 4 5 X1085477 3 2 5 X1095477 1 4 5 X1041882 5 0 5 X414914 5 0 5 X1119070 4 0 4 X5477 1 3 4 X54775 0 4 4 X385477 0 4 4 X547715 4 0 4 X547770 2 2 4 X654772 4 0 4 X925477 4 0 4 X1025477 1 3 4 X1115477 0 4 4 X1125477 3 1 4 X350963 4 0 4 X25477 0 3 3 X35477 3 0 3 X547738 1 2 3 X854770 1 2 3 X854772 3 0 3 X915477 2 1 3 X954776 3 0 3 X975477 1 2 3 X1054772 3 0 3 X1054773 3 0 3 X1075477 3 0 3 Decreasing percentages for the 147 specific k-mers =================================================== NP P X774086 100 % 0 % X1126723 100 % 2 % X1137966 100 % 12 % X1005477 100 % 14 % X215477 100 % 21 % X154773 100 % 23 % X985477 100 % 23 % X1054777 100 % 23 % X154779 100 % 26 % X547729 100 % 26 % X547757 100 % 28 % X154776 100 % 30 % X577828 94 % 0 % X1122208 94 % 2 % X833362 94 % 5 % X926871 88 % 5 % X606155 88 % 12 % X135477 88 % 12 % X454779 88 % 14 % X765477 88 % 23 % X977035 81 % 0 % X745798 81 % 0 % X907054 81 % 5 % X347777 81 % 7 % X954772 81 % 9 % X1140694 81 % 12 % X1054770 81 % 23 % X660456 75 % 0 % X761692 75 % 0 % X777169 75 % 0 % X704021 75 % 0 % X1081410 75 % 0 % X1026271 75 % 2 % X1077409 75 % 2 % X353930 75 % 7 % X807761 75 % 7 % X1046571 75 % 9 % X388437 69 % 0 % X231764 69 % 0 % X1059101 69 % 0 % X456522 69 % 0 % X1015684 69 % 0 % X780124 69 % 5 % X393704 62 % 0 % X704087 62 % 0 % X668452 62 % 0 % X863133 62 % 0 % X1019483 62 % 2 % X859226 62 % 5 % X969877 62 % 9 % X1096408 62 % 12 % X816014 62 % 16 % X957389 56 % 0 % X668025 56 % 0 % X624647 56 % 0 % X1126485 56 % 0 % X1034797 56 % 0 % X691797 56 % 5 % X948978 56 % 21 % X400739 50 % 0 % X567309 50 % 0 % X424856 50 % 0 % X1131997 50 % 0 % X1139556 50 % 0 % X1085719 50 % 7 % X1103257 50 % 12 % X912369 50 % 23 % X1081881 44 % 0 % X688541 44 % 2 % X777697 44 % 7 % X1106871 44 % 12 % X372564 44 % 23 % X626933 38 % 0 % X960658 38 % 0 % X508965 38 % 0 % X957909 38 % 0 % X981707 38 % 0 % X803296 38 % 12 % X1093020 38 % 12 % X279468 38 % 16 % X1120392 38 % 19 % X796993 31 % 0 % X1012033 31 % 0 % X424521 31 % 0 % X1097537 31 % 0 % X1041882 31 % 0 % X414914 31 % 0 % X1111828 31 % 7 % X947339 31 % 7 % X299121 31 % 9 % X689950 31 % 9 % X602772 31 % 12 % X1032810 31 % 14 % X755477 31 % 16 % X931038 31 % 19 % X1119070 25 % 0 % X547715 25 % 0 % X654772 25 % 0 % X925477 25 % 0 % X350963 25 % 0 % X416115 25 % 7 % X1085951 25 % 12 % X649311 25 % 19 % X35477 19 % 0 % X854772 19 % 0 % X954776 19 % 0 % X1054772 19 % 0 % X1054773 19 % 0 % X1075477 19 % 0 % X1125477 19 % 2 % X1085477 19 % 5 % X868767 19 % 7 % X954771 19 % 7 % X427629 19 % 7 % X829000 19 % 12 % X895901 19 % 14 % X1125434 19 % 23 % X489606 19 % 23 % X915477 12 % 2 % X547770 12 % 5 % X1081844 12 % 7 % X935477 12 % 9 % X1045477 12 % 9 % X1107946 12 % 12 % X263637 12 % 12 % X994619 12 % 19 % X547738 6 % 5 % X854770 6 % 5 % X975477 6 % 5 % X5477 6 % 7 % X1025477 6 % 7 % X1009922 6 % 9 % X1054774 6 % 9 % X1095477 6 % 9 % X164361 6 % 12 % X854777 6 % 12 % X1065477 6 % 12 % X427449 6 % 16 % X841270 6 % 16 % X1033842 6 % 23 % X25477 0 % 7 % X54775 0 % 9 % X385477 0 % 9 % X1115477 0 % 9 % X645477 0 % 12 % X965477 0 % 12 % X305477 0 % 53 %

There is an obvious solution to our problem here: k-mer X774086 is 100% present for NP and 100% absent for PP.

One should also be interested in k-mer X1126723 which is 100% present for NP and 98% absent for PP (it is present only in 1 genome).
3. Concluding remarks

Though we do not have a lot of genomes in each class, it is possible to find a specific k-mer that is always associated with non pathogenicity and never associated with pathogenicity.
Retour à la page principale de (gH)

PREDIPATH predictions using the GWAS specific k-mers

Clickable table of contents

1. Preparation and description of the data

2. Prediction for the P and NP classes

3. Concluding remarks