]> git.openfabrics.org - ~shefty/rdma-dev.git/blob - kernel/sched.c
e9c24a1286557dfbe99cd58ce0e4668370e252a2
[~shefty/rdma-dev.git] / kernel / sched.c
1 /*
2  *  kernel/sched.c
3  *
4  *  Kernel scheduler and related syscalls
5  *
6  *  Copyright (C) 1991-2002  Linus Torvalds
7  *
8  *  1996-12-23  Modified by Dave Grothe to fix bugs in semaphores and
9  *              make semaphores SMP safe
10  *  1998-11-19  Implemented schedule_timeout() and related stuff
11  *              by Andrea Arcangeli
12  *  2002-01-04  New ultra-scalable O(1) scheduler by Ingo Molnar:
13  *              hybrid priority-list and round-robin design with
14  *              an array-switch method of distributing timeslices
15  *              and per-CPU runqueues.  Cleanups and useful suggestions
16  *              by Davide Libenzi, preemptible kernel bits by Robert Love.
17  *  2003-09-03  Interactivity tuning by Con Kolivas.
18  *  2004-04-02  Scheduler domains code by Nick Piggin
19  *  2007-04-15  Work begun on replacing all interactivity tuning with a
20  *              fair scheduling design by Con Kolivas.
21  *  2007-05-05  Load balancing (smp-nice) and other improvements
22  *              by Peter Williams
23  *  2007-05-06  Interactivity improvements to CFS by Mike Galbraith
24  *  2007-07-01  Group scheduling enhancements by Srivatsa Vaddagiri
25  *  2007-11-29  RT balancing improvements by Steven Rostedt, Gregory Haskins,
26  *              Thomas Gleixner, Mike Kravetz
27  */
28
29 #include <linux/mm.h>
30 #include <linux/module.h>
31 #include <linux/nmi.h>
32 #include <linux/init.h>
33 #include <linux/uaccess.h>
34 #include <linux/highmem.h>
35 #include <linux/smp_lock.h>
36 #include <asm/mmu_context.h>
37 #include <linux/interrupt.h>
38 #include <linux/capability.h>
39 #include <linux/completion.h>
40 #include <linux/kernel_stat.h>
41 #include <linux/debug_locks.h>
42 #include <linux/security.h>
43 #include <linux/notifier.h>
44 #include <linux/profile.h>
45 #include <linux/freezer.h>
46 #include <linux/vmalloc.h>
47 #include <linux/blkdev.h>
48 #include <linux/delay.h>
49 #include <linux/pid_namespace.h>
50 #include <linux/smp.h>
51 #include <linux/threads.h>
52 #include <linux/timer.h>
53 #include <linux/rcupdate.h>
54 #include <linux/cpu.h>
55 #include <linux/cpuset.h>
56 #include <linux/percpu.h>
57 #include <linux/kthread.h>
58 #include <linux/seq_file.h>
59 #include <linux/sysctl.h>
60 #include <linux/syscalls.h>
61 #include <linux/times.h>
62 #include <linux/tsacct_kern.h>
63 #include <linux/kprobes.h>
64 #include <linux/delayacct.h>
65 #include <linux/reciprocal_div.h>
66 #include <linux/unistd.h>
67 #include <linux/pagemap.h>
68 #include <linux/hrtimer.h>
69 #include <linux/tick.h>
70 #include <linux/bootmem.h>
71 #include <linux/debugfs.h>
72 #include <linux/ctype.h>
73
74 #include <asm/tlb.h>
75 #include <asm/irq_regs.h>
76
77 #include "sched_cpupri.h"
78
79 /*
80  * Convert user-nice values [ -20 ... 0 ... 19 ]
81  * to static priority [ MAX_RT_PRIO..MAX_PRIO-1 ],
82  * and back.
83  */
84 #define NICE_TO_PRIO(nice)      (MAX_RT_PRIO + (nice) + 20)
85 #define PRIO_TO_NICE(prio)      ((prio) - MAX_RT_PRIO - 20)
86 #define TASK_NICE(p)            PRIO_TO_NICE((p)->static_prio)
87
88 /*
89  * 'User priority' is the nice value converted to something we
90  * can work with better when scaling various scheduler parameters,
91  * it's a [ 0 ... 39 ] range.
92  */
93 #define USER_PRIO(p)            ((p)-MAX_RT_PRIO)
94 #define TASK_USER_PRIO(p)       USER_PRIO((p)->static_prio)
95 #define MAX_USER_PRIO           (USER_PRIO(MAX_PRIO))
96
97 /*
98  * Helpers for converting nanosecond timing to jiffy resolution
99  */
100 #define NS_TO_JIFFIES(TIME)     ((unsigned long)(TIME) / (NSEC_PER_SEC / HZ))
101
102 #define NICE_0_LOAD             SCHED_LOAD_SCALE
103 #define NICE_0_SHIFT            SCHED_LOAD_SHIFT
104
105 /*
106  * These are the 'tuning knobs' of the scheduler:
107  *
108  * default timeslice is 100 msecs (used only for SCHED_RR tasks).
109  * Timeslices get refilled after they expire.
110  */
111 #define DEF_TIMESLICE           (100 * HZ / 1000)
112
113 /*
114  * single value that denotes runtime == period, ie unlimited time.
115  */
116 #define RUNTIME_INF     ((u64)~0ULL)
117
118 #ifdef CONFIG_SMP
119 /*
120  * Divide a load by a sched group cpu_power : (load / sg->__cpu_power)
121  * Since cpu_power is a 'constant', we can use a reciprocal divide.
122  */
123 static inline u32 sg_div_cpu_power(const struct sched_group *sg, u32 load)
124 {
125         return reciprocal_divide(load, sg->reciprocal_cpu_power);
126 }
127
128 /*
129  * Each time a sched group cpu_power is changed,
130  * we must compute its reciprocal value
131  */
132 static inline void sg_inc_cpu_power(struct sched_group *sg, u32 val)
133 {
134         sg->__cpu_power += val;
135         sg->reciprocal_cpu_power = reciprocal_value(sg->__cpu_power);
136 }
137 #endif
138
139 static inline int rt_policy(int policy)
140 {
141         if (unlikely(policy == SCHED_FIFO || policy == SCHED_RR))
142                 return 1;
143         return 0;
144 }
145
146 static inline int task_has_rt_policy(struct task_struct *p)
147 {
148         return rt_policy(p->policy);
149 }
150
151 /*
152  * This is the priority-queue data structure of the RT scheduling class:
153  */
154 struct rt_prio_array {
155         DECLARE_BITMAP(bitmap, MAX_RT_PRIO+1); /* include 1 bit for delimiter */
156         struct list_head xqueue[MAX_RT_PRIO]; /* exclusive queue */
157         struct list_head squeue[MAX_RT_PRIO];  /* shared queue */
158 };
159
160 struct rt_bandwidth {
161         /* nests inside the rq lock: */
162         spinlock_t              rt_runtime_lock;
163         ktime_t                 rt_period;
164         u64                     rt_runtime;
165         struct hrtimer          rt_period_timer;
166 };
167
168 static struct rt_bandwidth def_rt_bandwidth;
169
170 static int do_sched_rt_period_timer(struct rt_bandwidth *rt_b, int overrun);
171
172 static enum hrtimer_restart sched_rt_period_timer(struct hrtimer *timer)
173 {
174         struct rt_bandwidth *rt_b =
175                 container_of(timer, struct rt_bandwidth, rt_period_timer);
176         ktime_t now;
177         int overrun;
178         int idle = 0;
179
180         for (;;) {
181                 now = hrtimer_cb_get_time(timer);
182                 overrun = hrtimer_forward(timer, now, rt_b->rt_period);
183
184                 if (!overrun)
185                         break;
186
187                 idle = do_sched_rt_period_timer(rt_b, overrun);
188         }
189
190         return idle ? HRTIMER_NORESTART : HRTIMER_RESTART;
191 }
192
193 static
194 void init_rt_bandwidth(struct rt_bandwidth *rt_b, u64 period, u64 runtime)
195 {
196         rt_b->rt_period = ns_to_ktime(period);
197         rt_b->rt_runtime = runtime;
198
199         spin_lock_init(&rt_b->rt_runtime_lock);
200
201         hrtimer_init(&rt_b->rt_period_timer,
202                         CLOCK_MONOTONIC, HRTIMER_MODE_REL);
203         rt_b->rt_period_timer.function = sched_rt_period_timer;
204         rt_b->rt_period_timer.cb_mode = HRTIMER_CB_IRQSAFE_NO_SOFTIRQ;
205 }
206
207 static void start_rt_bandwidth(struct rt_bandwidth *rt_b)
208 {
209         ktime_t now;
210
211         if (rt_b->rt_runtime == RUNTIME_INF)
212                 return;
213
214         if (hrtimer_active(&rt_b->rt_period_timer))
215                 return;
216
217         spin_lock(&rt_b->rt_runtime_lock);
218         for (;;) {
219                 if (hrtimer_active(&rt_b->rt_period_timer))
220                         break;
221
222                 now = hrtimer_cb_get_time(&rt_b->rt_period_timer);
223                 hrtimer_forward(&rt_b->rt_period_timer, now, rt_b->rt_period);
224                 hrtimer_start(&rt_b->rt_period_timer,
225                               rt_b->rt_period_timer.expires,
226                               HRTIMER_MODE_ABS);
227         }
228         spin_unlock(&rt_b->rt_runtime_lock);
229 }
230
231 #ifdef CONFIG_RT_GROUP_SCHED
232 static void destroy_rt_bandwidth(struct rt_bandwidth *rt_b)
233 {
234         hrtimer_cancel(&rt_b->rt_period_timer);
235 }
236 #endif
237
238 /*
239  * sched_domains_mutex serializes calls to arch_init_sched_domains,
240  * detach_destroy_domains and partition_sched_domains.
241  */
242 static DEFINE_MUTEX(sched_domains_mutex);
243
244 #ifdef CONFIG_GROUP_SCHED
245
246 #include <linux/cgroup.h>
247
248 struct cfs_rq;
249
250 static LIST_HEAD(task_groups);
251
252 /* task group related information */
253 struct task_group {
254 #ifdef CONFIG_CGROUP_SCHED
255         struct cgroup_subsys_state css;
256 #endif
257
258 #ifdef CONFIG_FAIR_GROUP_SCHED
259         /* schedulable entities of this group on each cpu */
260         struct sched_entity **se;
261         /* runqueue "owned" by this group on each cpu */
262         struct cfs_rq **cfs_rq;
263         unsigned long shares;
264 #endif
265
266 #ifdef CONFIG_RT_GROUP_SCHED
267         struct sched_rt_entity **rt_se;
268         struct rt_rq **rt_rq;
269
270         struct rt_bandwidth rt_bandwidth;
271 #endif
272
273         struct rcu_head rcu;
274         struct list_head list;
275
276         struct task_group *parent;
277         struct list_head siblings;
278         struct list_head children;
279 };
280
281 #ifdef CONFIG_USER_SCHED
282
283 /*
284  * Root task group.
285  *      Every UID task group (including init_task_group aka UID-0) will
286  *      be a child to this group.
287  */
288 struct task_group root_task_group;
289
290 #ifdef CONFIG_FAIR_GROUP_SCHED
291 /* Default task group's sched entity on each cpu */
292 static DEFINE_PER_CPU(struct sched_entity, init_sched_entity);
293 /* Default task group's cfs_rq on each cpu */
294 static DEFINE_PER_CPU(struct cfs_rq, init_cfs_rq) ____cacheline_aligned_in_smp;
295 #endif /* CONFIG_FAIR_GROUP_SCHED */
296
297 #ifdef CONFIG_RT_GROUP_SCHED
298 static DEFINE_PER_CPU(struct sched_rt_entity, init_sched_rt_entity);
299 static DEFINE_PER_CPU(struct rt_rq, init_rt_rq) ____cacheline_aligned_in_smp;
300 #endif /* CONFIG_RT_GROUP_SCHED */
301 #else /* !CONFIG_FAIR_GROUP_SCHED */
302 #define root_task_group init_task_group
303 #endif /* CONFIG_FAIR_GROUP_SCHED */
304
305 /* task_group_lock serializes add/remove of task groups and also changes to
306  * a task group's cpu shares.
307  */
308 static DEFINE_SPINLOCK(task_group_lock);
309
310 #ifdef CONFIG_FAIR_GROUP_SCHED
311 #ifdef CONFIG_USER_SCHED
312 # define INIT_TASK_GROUP_LOAD   (2*NICE_0_LOAD)
313 #else /* !CONFIG_USER_SCHED */
314 # define INIT_TASK_GROUP_LOAD   NICE_0_LOAD
315 #endif /* CONFIG_USER_SCHED */
316
317 /*
318  * A weight of 0, 1 or ULONG_MAX can cause arithmetics problems.
319  * (The default weight is 1024 - so there's no practical
320  *  limitation from this.)
321  */
322 #define MIN_SHARES      2
323 #define MAX_SHARES      (ULONG_MAX - 1)
324
325 static int init_task_group_load = INIT_TASK_GROUP_LOAD;
326 #endif
327
328 /* Default task group.
329  *      Every task in system belong to this group at bootup.
330  */
331 struct task_group init_task_group;
332
333 /* return group to which a task belongs */
334 static inline struct task_group *task_group(struct task_struct *p)
335 {
336         struct task_group *tg;
337
338 #ifdef CONFIG_USER_SCHED
339         tg = p->user->tg;
340 #elif defined(CONFIG_CGROUP_SCHED)
341         tg = container_of(task_subsys_state(p, cpu_cgroup_subsys_id),
342                                 struct task_group, css);
343 #else
344         tg = &init_task_group;
345 #endif
346         return tg;
347 }
348
349 /* Change a task's cfs_rq and parent entity if it moves across CPUs/groups */
350 static inline void set_task_rq(struct task_struct *p, unsigned int cpu)
351 {
352 #ifdef CONFIG_FAIR_GROUP_SCHED
353         p->se.cfs_rq = task_group(p)->cfs_rq[cpu];
354         p->se.parent = task_group(p)->se[cpu];
355 #endif
356
357 #ifdef CONFIG_RT_GROUP_SCHED
358         p->rt.rt_rq  = task_group(p)->rt_rq[cpu];
359         p->rt.parent = task_group(p)->rt_se[cpu];
360 #endif
361 }
362
363 #else
364
365 static inline void set_task_rq(struct task_struct *p, unsigned int cpu) { }
366
367 #endif  /* CONFIG_GROUP_SCHED */
368
369 /* CFS-related fields in a runqueue */
370 struct cfs_rq {
371         struct load_weight load;
372         unsigned long nr_running;
373
374         u64 exec_clock;
375         u64 min_vruntime;
376
377         struct rb_root tasks_timeline;
378         struct rb_node *rb_leftmost;
379
380         struct list_head tasks;
381         struct list_head *balance_iterator;
382
383         /*
384          * 'curr' points to currently running entity on this cfs_rq.
385          * It is set to NULL otherwise (i.e when none are currently running).
386          */
387         struct sched_entity *curr, *next;
388
389         unsigned long nr_spread_over;
390
391 #ifdef CONFIG_FAIR_GROUP_SCHED
392         struct rq *rq;  /* cpu runqueue to which this cfs_rq is attached */
393
394         /*
395          * leaf cfs_rqs are those that hold tasks (lowest schedulable entity in
396          * a hierarchy). Non-leaf lrqs hold other higher schedulable entities
397          * (like users, containers etc.)
398          *
399          * leaf_cfs_rq_list ties together list of leaf cfs_rq's in a cpu. This
400          * list is used during load balance.
401          */
402         struct list_head leaf_cfs_rq_list;
403         struct task_group *tg;  /* group that "owns" this runqueue */
404 #endif
405 };
406
407 /* Real-Time classes' related field in a runqueue: */
408 struct rt_rq {
409         struct rt_prio_array active;
410         unsigned long rt_nr_running;
411 #if defined CONFIG_SMP || defined CONFIG_RT_GROUP_SCHED
412         int highest_prio; /* highest queued rt task prio */
413 #endif
414 #ifdef CONFIG_SMP
415         unsigned long rt_nr_migratory;
416         int overloaded;
417 #endif
418         int rt_throttled;
419         u64 rt_time;
420         u64 rt_runtime;
421         /* Nests inside the rq lock: */
422         spinlock_t rt_runtime_lock;
423
424 #ifdef CONFIG_RT_GROUP_SCHED
425         unsigned long rt_nr_boosted;
426
427         struct rq *rq;
428         struct list_head leaf_rt_rq_list;
429         struct task_group *tg;
430         struct sched_rt_entity *rt_se;
431 #endif
432 };
433
434 #ifdef CONFIG_SMP
435
436 /*
437  * We add the notion of a root-domain which will be used to define per-domain
438  * variables. Each exclusive cpuset essentially defines an island domain by
439  * fully partitioning the member cpus from any other cpuset. Whenever a new
440  * exclusive cpuset is created, we also create and attach a new root-domain
441  * object.
442  *
443  */
444 struct root_domain {
445         atomic_t refcount;
446         cpumask_t span;
447         cpumask_t online;
448
449         /*
450          * The "RT overload" flag: it gets set if a CPU has more than
451          * one runnable RT task.
452          */
453         cpumask_t rto_mask;
454         atomic_t rto_count;
455 #ifdef CONFIG_SMP
456         struct cpupri cpupri;
457 #endif
458 };
459
460 /*
461  * By default the system creates a single root-domain with all cpus as
462  * members (mimicking the global state we have today).
463  */
464 static struct root_domain def_root_domain;
465
466 #endif
467
468 /*
469  * This is the main, per-CPU runqueue data structure.
470  *
471  * Locking rule: those places that want to lock multiple runqueues
472  * (such as the load balancing or the thread migration code), lock
473  * acquire operations must be ordered by ascending &runqueue.
474  */
475 struct rq {
476         /* runqueue lock: */
477         spinlock_t lock;
478
479         /*
480          * nr_running and cpu_load should be in the same cacheline because
481          * remote CPUs use both these fields when doing load calculation.
482          */
483         unsigned long nr_running;
484         #define CPU_LOAD_IDX_MAX 5
485         unsigned long cpu_load[CPU_LOAD_IDX_MAX];
486         unsigned char idle_at_tick;
487 #ifdef CONFIG_NO_HZ
488         unsigned long last_tick_seen;
489         unsigned char in_nohz_recently;
490 #endif
491         /* capture load from *all* tasks on this cpu: */
492         struct load_weight load;
493         unsigned long nr_load_updates;
494         u64 nr_switches;
495
496         struct cfs_rq cfs;
497         struct rt_rq rt;
498
499 #ifdef CONFIG_FAIR_GROUP_SCHED
500         /* list of leaf cfs_rq on this cpu: */
501         struct list_head leaf_cfs_rq_list;
502 #endif
503 #ifdef CONFIG_RT_GROUP_SCHED
504         struct list_head leaf_rt_rq_list;
505 #endif
506
507         /*
508          * This is part of a global counter where only the total sum
509          * over all CPUs matters. A task can increase this counter on
510          * one CPU and if it got migrated afterwards it may decrease
511          * it on another CPU. Always updated under the runqueue lock:
512          */
513         unsigned long nr_uninterruptible;
514
515         struct task_struct *curr, *idle;
516         unsigned long next_balance;
517         struct mm_struct *prev_mm;
518
519         u64 clock;
520
521         atomic_t nr_iowait;
522
523 #ifdef CONFIG_SMP
524         struct root_domain *rd;
525         struct sched_domain *sd;
526
527         /* For active balancing */
528         int active_balance;
529         int push_cpu;
530         /* cpu of this runqueue: */
531         int cpu;
532         int online;
533
534         struct task_struct *migration_thread;
535         struct list_head migration_queue;
536 #endif
537
538 #ifdef CONFIG_SCHED_HRTICK
539         unsigned long hrtick_flags;
540         ktime_t hrtick_expire;
541         struct hrtimer hrtick_timer;
542 #endif
543
544 #ifdef CONFIG_SCHEDSTATS
545         /* latency stats */
546         struct sched_info rq_sched_info;
547
548         /* sys_sched_yield() stats */
549         unsigned int yld_exp_empty;
550         unsigned int yld_act_empty;
551         unsigned int yld_both_empty;
552         unsigned int yld_count;
553
554         /* schedule() stats */
555         unsigned int sched_switch;
556         unsigned int sched_count;
557         unsigned int sched_goidle;
558
559         /* try_to_wake_up() stats */
560         unsigned int ttwu_count;
561         unsigned int ttwu_local;
562
563         /* BKL stats */
564         unsigned int bkl_count;
565 #endif
566         struct lock_class_key rq_lock_key;
567 };
568
569 static DEFINE_PER_CPU_SHARED_ALIGNED(struct rq, runqueues);
570
571 static inline void check_preempt_curr(struct rq *rq, struct task_struct *p)
572 {
573         rq->curr->sched_class->check_preempt_curr(rq, p);
574 }
575
576 static inline int cpu_of(struct rq *rq)
577 {
578 #ifdef CONFIG_SMP
579         return rq->cpu;
580 #else
581         return 0;
582 #endif
583 }
584
585 /*
586  * The domain tree (rq->sd) is protected by RCU's quiescent state transition.
587  * See detach_destroy_domains: synchronize_sched for details.
588  *
589  * The domain tree of any CPU may only be accessed from within
590  * preempt-disabled sections.
591  */
592 #define for_each_domain(cpu, __sd) \
593         for (__sd = rcu_dereference(cpu_rq(cpu)->sd); __sd; __sd = __sd->parent)
594
595 #define cpu_rq(cpu)             (&per_cpu(runqueues, (cpu)))
596 #define this_rq()               (&__get_cpu_var(runqueues))
597 #define task_rq(p)              cpu_rq(task_cpu(p))
598 #define cpu_curr(cpu)           (cpu_rq(cpu)->curr)
599
600 static inline void update_rq_clock(struct rq *rq)
601 {
602         rq->clock = sched_clock_cpu(cpu_of(rq));
603 }
604
605 /*
606  * Tunables that become constants when CONFIG_SCHED_DEBUG is off:
607  */
608 #ifdef CONFIG_SCHED_DEBUG
609 # define const_debug __read_mostly
610 #else
611 # define const_debug static const
612 #endif
613
614 /*
615  * Debugging: various feature bits
616  */
617
618 #define SCHED_FEAT(name, enabled)       \
619         __SCHED_FEAT_##name ,
620
621 enum {
622 #include "sched_features.h"
623 };
624
625 #undef SCHED_FEAT
626
627 #define SCHED_FEAT(name, enabled)       \
628         (1UL << __SCHED_FEAT_##name) * enabled |
629
630 const_debug unsigned int sysctl_sched_features =
631 #include "sched_features.h"
632         0;
633
634 #undef SCHED_FEAT
635
636 #ifdef CONFIG_SCHED_DEBUG
637 #define SCHED_FEAT(name, enabled)       \
638         #name ,
639
640 static __read_mostly char *sched_feat_names[] = {
641 #include "sched_features.h"
642         NULL
643 };
644
645 #undef SCHED_FEAT
646
647 static int sched_feat_open(struct inode *inode, struct file *filp)
648 {
649         filp->private_data = inode->i_private;
650         return 0;
651 }
652
653 static ssize_t
654 sched_feat_read(struct file *filp, char __user *ubuf,
655                 size_t cnt, loff_t *ppos)
656 {
657         char *buf;
658         int r = 0;
659         int len = 0;
660         int i;
661
662         for (i = 0; sched_feat_names[i]; i++) {
663                 len += strlen(sched_feat_names[i]);
664                 len += 4;
665         }
666
667         buf = kmalloc(len + 2, GFP_KERNEL);
668         if (!buf)
669                 return -ENOMEM;
670
671         for (i = 0; sched_feat_names[i]; i++) {
672                 if (sysctl_sched_features & (1UL << i))
673                         r += sprintf(buf + r, "%s ", sched_feat_names[i]);
674                 else
675                         r += sprintf(buf + r, "NO_%s ", sched_feat_names[i]);
676         }
677
678         r += sprintf(buf + r, "\n");
679         WARN_ON(r >= len + 2);
680
681         r = simple_read_from_buffer(ubuf, cnt, ppos, buf, r);
682
683         kfree(buf);
684
685         return r;
686 }
687
688 static ssize_t
689 sched_feat_write(struct file *filp, const char __user *ubuf,
690                 size_t cnt, loff_t *ppos)
691 {
692         char buf[64];
693         char *cmp = buf;
694         int neg = 0;
695         int i;
696
697         if (cnt > 63)
698                 cnt = 63;
699
700         if (copy_from_user(&buf, ubuf, cnt))
701                 return -EFAULT;
702
703         buf[cnt] = 0;
704
705         if (strncmp(buf, "NO_", 3) == 0) {
706                 neg = 1;
707                 cmp += 3;
708         }
709
710         for (i = 0; sched_feat_names[i]; i++) {
711                 int len = strlen(sched_feat_names[i]);
712
713                 if (strncmp(cmp, sched_feat_names[i], len) == 0) {
714                         if (neg)
715                                 sysctl_sched_features &= ~(1UL << i);
716                         else
717                                 sysctl_sched_features |= (1UL << i);
718                         break;
719                 }
720         }
721
722         if (!sched_feat_names[i])
723                 return -EINVAL;
724
725         filp->f_pos += cnt;
726
727         return cnt;
728 }
729
730 static struct file_operations sched_feat_fops = {
731         .open   = sched_feat_open,
732         .read   = sched_feat_read,
733         .write  = sched_feat_write,
734 };
735
736 static __init int sched_init_debug(void)
737 {
738         debugfs_create_file("sched_features", 0644, NULL, NULL,
739                         &sched_feat_fops);
740
741         return 0;
742 }
743 late_initcall(sched_init_debug);
744
745 #endif
746
747 #define sched_feat(x) (sysctl_sched_features & (1UL << __SCHED_FEAT_##x))
748
749 /*
750  * Number of tasks to iterate in a single balance run.
751  * Limited because this is done with IRQs disabled.
752  */
753 const_debug unsigned int sysctl_sched_nr_migrate = 32;
754
755 /*
756  * period over which we measure -rt task cpu usage in us.
757  * default: 1s
758  */
759 unsigned int sysctl_sched_rt_period = 1000000;
760
761 static __read_mostly int scheduler_running;
762
763 /*
764  * part of the period that we allow rt tasks to run in us.
765  * default: 0.95s
766  */
767 int sysctl_sched_rt_runtime = 950000;
768
769 static inline u64 global_rt_period(void)
770 {
771         return (u64)sysctl_sched_rt_period * NSEC_PER_USEC;
772 }
773
774 static inline u64 global_rt_runtime(void)
775 {
776         if (sysctl_sched_rt_period < 0)
777                 return RUNTIME_INF;
778
779         return (u64)sysctl_sched_rt_runtime * NSEC_PER_USEC;
780 }
781
782 unsigned long long time_sync_thresh = 100000;
783
784 static DEFINE_PER_CPU(unsigned long long, time_offset);
785 static DEFINE_PER_CPU(unsigned long long, prev_cpu_time);
786
787 /*
788  * Global lock which we take every now and then to synchronize
789  * the CPUs time. This method is not warp-safe, but it's good
790  * enough to synchronize slowly diverging time sources and thus
791  * it's good enough for tracing:
792  */
793 static DEFINE_SPINLOCK(time_sync_lock);
794 static unsigned long long prev_global_time;
795
796 static unsigned long long __sync_cpu_clock(unsigned long long time, int cpu)
797 {
798         /*
799          * We want this inlined, to not get tracer function calls
800          * in this critical section:
801          */
802         spin_acquire(&time_sync_lock.dep_map, 0, 0, _THIS_IP_);
803         __raw_spin_lock(&time_sync_lock.raw_lock);
804
805         if (time < prev_global_time) {
806                 per_cpu(time_offset, cpu) += prev_global_time - time;
807                 time = prev_global_time;
808         } else {
809                 prev_global_time = time;
810         }
811
812         __raw_spin_unlock(&time_sync_lock.raw_lock);
813         spin_release(&time_sync_lock.dep_map, 1, _THIS_IP_);
814
815         return time;
816 }
817
818 static unsigned long long __cpu_clock(int cpu)
819 {
820         unsigned long long now;
821
822         /*
823          * Only call sched_clock() if the scheduler has already been
824          * initialized (some code might call cpu_clock() very early):
825          */
826         if (unlikely(!scheduler_running))
827                 return 0;
828
829         now = sched_clock_cpu(cpu);
830
831         return now;
832 }
833
834 /*
835  * For kernel-internal use: high-speed (but slightly incorrect) per-cpu
836  * clock constructed from sched_clock():
837  */
838 unsigned long long cpu_clock(int cpu)
839 {
840         unsigned long long prev_cpu_time, time, delta_time;
841         unsigned long flags;
842
843         local_irq_save(flags);
844         prev_cpu_time = per_cpu(prev_cpu_time, cpu);
845         time = __cpu_clock(cpu) + per_cpu(time_offset, cpu);
846         delta_time = time-prev_cpu_time;
847
848         if (unlikely(delta_time > time_sync_thresh)) {
849                 time = __sync_cpu_clock(time, cpu);
850                 per_cpu(prev_cpu_time, cpu) = time;
851         }
852         local_irq_restore(flags);
853
854         return time;
855 }
856 EXPORT_SYMBOL_GPL(cpu_clock);
857
858 #ifndef prepare_arch_switch
859 # define prepare_arch_switch(next)      do { } while (0)
860 #endif
861 #ifndef finish_arch_switch
862 # define finish_arch_switch(prev)       do { } while (0)
863 #endif
864
865 static inline int task_current(struct rq *rq, struct task_struct *p)
866 {
867         return rq->curr == p;
868 }
869
870 #ifndef __ARCH_WANT_UNLOCKED_CTXSW
871 static inline int task_running(struct rq *rq, struct task_struct *p)
872 {
873         return task_current(rq, p);
874 }
875
876 static inline void prepare_lock_switch(struct rq *rq, struct task_struct *next)
877 {
878 }
879
880 static inline void finish_lock_switch(struct rq *rq, struct task_struct *prev)
881 {
882 #ifdef CONFIG_DEBUG_SPINLOCK
883         /* this is a valid case when another task releases the spinlock */
884         rq->lock.owner = current;
885 #endif
886         /*
887          * If we are tracking spinlock dependencies then we have to
888          * fix up the runqueue lock - which gets 'carried over' from
889          * prev into current:
890          */
891         spin_acquire(&rq->lock.dep_map, 0, 0, _THIS_IP_);
892
893         spin_unlock_irq(&rq->lock);
894 }
895
896 #else /* __ARCH_WANT_UNLOCKED_CTXSW */
897 static inline int task_running(struct rq *rq, struct task_struct *p)
898 {
899 #ifdef CONFIG_SMP
900         return p->oncpu;
901 #else
902         return task_current(rq, p);
903 #endif
904 }
905
906 static inline void prepare_lock_switch(struct rq *rq, struct task_struct *next)
907 {
908 #ifdef CONFIG_SMP
909         /*
910          * We can optimise this out completely for !SMP, because the
911          * SMP rebalancing from interrupt is the only thing that cares
912          * here.
913          */
914         next->oncpu = 1;
915 #endif
916 #ifdef __ARCH_WANT_INTERRUPTS_ON_CTXSW
917         spin_unlock_irq(&rq->lock);
918 #else
919         spin_unlock(&rq->lock);
920 #endif
921 }
922
923 static inline void finish_lock_switch(struct rq *rq, struct task_struct *prev)
924 {
925 #ifdef CONFIG_SMP
926         /*
927          * After ->oncpu is cleared, the task can be moved to a different CPU.
928          * We must ensure this doesn't happen until the switch is completely
929          * finished.
930          */
931         smp_wmb();
932         prev->oncpu = 0;
933 #endif
934 #ifndef __ARCH_WANT_INTERRUPTS_ON_CTXSW
935         local_irq_enable();
936 #endif
937 }
938 #endif /* __ARCH_WANT_UNLOCKED_CTXSW */
939
940 /*
941  * __task_rq_lock - lock the runqueue a given task resides on.
942  * Must be called interrupts disabled.
943  */
944 static inline struct rq *__task_rq_lock(struct task_struct *p)
945         __acquires(rq->lock)
946 {
947         for (;;) {
948                 struct rq *rq = task_rq(p);
949                 spin_lock(&rq->lock);
950                 if (likely(rq == task_rq(p)))
951                         return rq;
952                 spin_unlock(&rq->lock);
953         }
954 }
955
956 /*
957  * task_rq_lock - lock the runqueue a given task resides on and disable
958  * interrupts. Note the ordering: we can safely lookup the task_rq without
959  * explicitly disabling preemption.
960  */
961 static struct rq *task_rq_lock(struct task_struct *p, unsigned long *flags)
962         __acquires(rq->lock)
963 {
964         struct rq *rq;
965
966         for (;;) {
967                 local_irq_save(*flags);
968                 rq = task_rq(p);
969                 spin_lock(&rq->lock);
970                 if (likely(rq == task_rq(p)))
971                         return rq;
972                 spin_unlock_irqrestore(&rq->lock, *flags);
973         }
974 }
975
976 static void __task_rq_unlock(struct rq *rq)
977         __releases(rq->lock)
978 {
979         spin_unlock(&rq->lock);
980 }
981
982 static inline void task_rq_unlock(struct rq *rq, unsigned long *flags)
983         __releases(rq->lock)
984 {
985         spin_unlock_irqrestore(&rq->lock, *flags);
986 }
987
988 /*
989  * this_rq_lock - lock this runqueue and disable interrupts.
990  */
991 static struct rq *this_rq_lock(void)
992         __acquires(rq->lock)
993 {
994         struct rq *rq;
995
996         local_irq_disable();
997         rq = this_rq();
998         spin_lock(&rq->lock);
999
1000         return rq;
1001 }
1002
1003 static void __resched_task(struct task_struct *p, int tif_bit);
1004
1005 static inline void resched_task(struct task_struct *p)
1006 {
1007         __resched_task(p, TIF_NEED_RESCHED);
1008 }
1009
1010 #ifdef CONFIG_SCHED_HRTICK
1011 /*
1012  * Use HR-timers to deliver accurate preemption points.
1013  *
1014  * Its all a bit involved since we cannot program an hrt while holding the
1015  * rq->lock. So what we do is store a state in in rq->hrtick_* and ask for a
1016  * reschedule event.
1017  *
1018  * When we get rescheduled we reprogram the hrtick_timer outside of the
1019  * rq->lock.
1020  */
1021 static inline void resched_hrt(struct task_struct *p)
1022 {
1023         __resched_task(p, TIF_HRTICK_RESCHED);
1024 }
1025
1026 static inline void resched_rq(struct rq *rq)
1027 {
1028         unsigned long flags;
1029
1030         spin_lock_irqsave(&rq->lock, flags);
1031         resched_task(rq->curr);
1032         spin_unlock_irqrestore(&rq->lock, flags);
1033 }
1034
1035 enum {
1036         HRTICK_SET,             /* re-programm hrtick_timer */
1037         HRTICK_RESET,           /* not a new slice */
1038         HRTICK_BLOCK,           /* stop hrtick operations */
1039 };
1040
1041 /*
1042  * Use hrtick when:
1043  *  - enabled by features
1044  *  - hrtimer is actually high res
1045  */
1046 static inline int hrtick_enabled(struct rq *rq)
1047 {
1048         if (!sched_feat(HRTICK))
1049                 return 0;
1050         if (unlikely(test_bit(HRTICK_BLOCK, &rq->hrtick_flags)))
1051                 return 0;
1052         return hrtimer_is_hres_active(&rq->hrtick_timer);
1053 }
1054
1055 /*
1056  * Called to set the hrtick timer state.
1057  *
1058  * called with rq->lock held and irqs disabled
1059  */
1060 static void hrtick_start(struct rq *rq, u64 delay, int reset)
1061 {
1062         assert_spin_locked(&rq->lock);
1063
1064         /*
1065          * preempt at: now + delay
1066          */
1067         rq->hrtick_expire =
1068                 ktime_add_ns(rq->hrtick_timer.base->get_time(), delay);
1069         /*
1070          * indicate we need to program the timer
1071          */
1072         __set_bit(HRTICK_SET, &rq->hrtick_flags);
1073         if (reset)
1074                 __set_bit(HRTICK_RESET, &rq->hrtick_flags);
1075
1076         /*
1077          * New slices are called from the schedule path and don't need a
1078          * forced reschedule.
1079          */
1080         if (reset)
1081                 resched_hrt(rq->curr);
1082 }
1083
1084 static void hrtick_clear(struct rq *rq)
1085 {
1086         if (hrtimer_active(&rq->hrtick_timer))
1087                 hrtimer_cancel(&rq->hrtick_timer);
1088 }
1089
1090 /*
1091  * Update the timer from the possible pending state.
1092  */
1093 static void hrtick_set(struct rq *rq)
1094 {
1095         ktime_t time;
1096         int set, reset;
1097         unsigned long flags;
1098
1099         WARN_ON_ONCE(cpu_of(rq) != smp_processor_id());
1100
1101         spin_lock_irqsave(&rq->lock, flags);
1102         set = __test_and_clear_bit(HRTICK_SET, &rq->hrtick_flags);
1103         reset = __test_and_clear_bit(HRTICK_RESET, &rq->hrtick_flags);
1104         time = rq->hrtick_expire;
1105         clear_thread_flag(TIF_HRTICK_RESCHED);
1106         spin_unlock_irqrestore(&rq->lock, flags);
1107
1108         if (set) {
1109                 hrtimer_start(&rq->hrtick_timer, time, HRTIMER_MODE_ABS);
1110                 if (reset && !hrtimer_active(&rq->hrtick_timer))
1111                         resched_rq(rq);
1112         } else
1113                 hrtick_clear(rq);
1114 }
1115
1116 /*
1117  * High-resolution timer tick.
1118  * Runs from hardirq context with interrupts disabled.
1119  */
1120 static enum hrtimer_restart hrtick(struct hrtimer *timer)
1121 {
1122         struct rq *rq = container_of(timer, struct rq, hrtick_timer);
1123
1124         WARN_ON_ONCE(cpu_of(rq) != smp_processor_id());
1125
1126         spin_lock(&rq->lock);
1127         update_rq_clock(rq);
1128         rq->curr->sched_class->task_tick(rq, rq->curr, 1);
1129         spin_unlock(&rq->lock);
1130
1131         return HRTIMER_NORESTART;
1132 }
1133
1134 #ifdef CONFIG_SMP
1135 static void hotplug_hrtick_disable(int cpu)
1136 {
1137         struct rq *rq = cpu_rq(cpu);
1138         unsigned long flags;
1139
1140         spin_lock_irqsave(&rq->lock, flags);
1141         rq->hrtick_flags = 0;
1142         __set_bit(HRTICK_BLOCK, &rq->hrtick_flags);
1143         spin_unlock_irqrestore(&rq->lock, flags);
1144
1145         hrtick_clear(rq);
1146 }
1147
1148 static void hotplug_hrtick_enable(int cpu)
1149 {
1150         struct rq *rq = cpu_rq(cpu);
1151         unsigned long flags;
1152
1153         spin_lock_irqsave(&rq->lock, flags);
1154         __clear_bit(HRTICK_BLOCK, &rq->hrtick_flags);
1155         spin_unlock_irqrestore(&rq->lock, flags);
1156 }
1157
1158 static int
1159 hotplug_hrtick(struct notifier_block *nfb, unsigned long action, void *hcpu)
1160 {
1161         int cpu = (int)(long)hcpu;
1162
1163         switch (action) {
1164         case CPU_UP_CANCELED:
1165         case CPU_UP_CANCELED_FROZEN:
1166         case CPU_DOWN_PREPARE:
1167         case CPU_DOWN_PREPARE_FROZEN:
1168         case CPU_DEAD:
1169         case CPU_DEAD_FROZEN:
1170                 hotplug_hrtick_disable(cpu);
1171                 return NOTIFY_OK;
1172
1173         case CPU_UP_PREPARE:
1174         case CPU_UP_PREPARE_FROZEN:
1175         case CPU_DOWN_FAILED:
1176         case CPU_DOWN_FAILED_FROZEN:
1177         case CPU_ONLINE:
1178         case CPU_ONLINE_FROZEN:
1179                 hotplug_hrtick_enable(cpu);
1180                 return NOTIFY_OK;
1181         }
1182
1183         return NOTIFY_DONE;
1184 }
1185
1186 static void init_hrtick(void)
1187 {
1188         hotcpu_notifier(hotplug_hrtick, 0);
1189 }
1190 #endif /* CONFIG_SMP */
1191
1192 static void init_rq_hrtick(struct rq *rq)
1193 {
1194         rq->hrtick_flags = 0;
1195         hrtimer_init(&rq->hrtick_timer, CLOCK_MONOTONIC, HRTIMER_MODE_REL);
1196         rq->hrtick_timer.function = hrtick;
1197         rq->hrtick_timer.cb_mode = HRTIMER_CB_IRQSAFE_NO_SOFTIRQ;
1198 }
1199
1200 void hrtick_resched(void)
1201 {
1202         struct rq *rq;
1203         unsigned long flags;
1204
1205         if (!test_thread_flag(TIF_HRTICK_RESCHED))
1206                 return;
1207
1208         local_irq_save(flags);
1209         rq = cpu_rq(smp_processor_id());
1210         hrtick_set(rq);
1211         local_irq_restore(flags);
1212 }
1213 #else
1214 static inline void hrtick_clear(struct rq *rq)
1215 {
1216 }
1217
1218 static inline void hrtick_set(struct rq *rq)
1219 {
1220 }
1221
1222 static inline void init_rq_hrtick(struct rq *rq)
1223 {
1224 }
1225
1226 void hrtick_resched(void)
1227 {
1228 }
1229
1230 static inline void init_hrtick(void)
1231 {
1232 }
1233 #endif
1234
1235 /*
1236  * resched_task - mark a task 'to be rescheduled now'.
1237  *
1238  * On UP this means the setting of the need_resched flag, on SMP it
1239  * might also involve a cross-CPU call to trigger the scheduler on
1240  * the target CPU.
1241  */
1242 #ifdef CONFIG_SMP
1243
1244 #ifndef tsk_is_polling
1245 #define tsk_is_polling(t) test_tsk_thread_flag(t, TIF_POLLING_NRFLAG)
1246 #endif
1247
1248 static void __resched_task(struct task_struct *p, int tif_bit)
1249 {
1250         int cpu;
1251
1252         assert_spin_locked(&task_rq(p)->lock);
1253
1254         if (unlikely(test_tsk_thread_flag(p, tif_bit)))
1255                 return;
1256
1257         set_tsk_thread_flag(p, tif_bit);
1258
1259         cpu = task_cpu(p);
1260         if (cpu == smp_processor_id())
1261                 return;
1262
1263         /* NEED_RESCHED must be visible before we test polling */
1264         smp_mb();
1265         if (!tsk_is_polling(p))
1266                 smp_send_reschedule(cpu);
1267 }
1268
1269 static void resched_cpu(int cpu)
1270 {
1271         struct rq *rq = cpu_rq(cpu);
1272         unsigned long flags;
1273
1274         if (!spin_trylock_irqsave(&rq->lock, flags))
1275                 return;
1276         resched_task(cpu_curr(cpu));
1277         spin_unlock_irqrestore(&rq->lock, flags);
1278 }
1279
1280 #ifdef CONFIG_NO_HZ
1281 /*
1282  * When add_timer_on() enqueues a timer into the timer wheel of an
1283  * idle CPU then this timer might expire before the next timer event
1284  * which is scheduled to wake up that CPU. In case of a completely
1285  * idle system the next event might even be infinite time into the
1286  * future. wake_up_idle_cpu() ensures that the CPU is woken up and
1287  * leaves the inner idle loop so the newly added timer is taken into
1288  * account when the CPU goes back to idle and evaluates the timer
1289  * wheel for the next timer event.
1290  */
1291 void wake_up_idle_cpu(int cpu)
1292 {
1293         struct rq *rq = cpu_rq(cpu);
1294
1295         if (cpu == smp_processor_id())
1296                 return;
1297
1298         /*
1299          * This is safe, as this function is called with the timer
1300          * wheel base lock of (cpu) held. When the CPU is on the way
1301          * to idle and has not yet set rq->curr to idle then it will
1302          * be serialized on the timer wheel base lock and take the new
1303          * timer into account automatically.
1304          */
1305         if (rq->curr != rq->idle)
1306                 return;
1307
1308         /*
1309          * We can set TIF_RESCHED on the idle task of the other CPU
1310          * lockless. The worst case is that the other CPU runs the
1311          * idle task through an additional NOOP schedule()
1312          */
1313         set_tsk_thread_flag(rq->idle, TIF_NEED_RESCHED);
1314
1315         /* NEED_RESCHED must be visible before we test polling */
1316         smp_mb();
1317         if (!tsk_is_polling(rq->idle))
1318                 smp_send_reschedule(cpu);
1319 }
1320 #endif /* CONFIG_NO_HZ */
1321
1322 #else /* !CONFIG_SMP */
1323 static void __resched_task(struct task_struct *p, int tif_bit)
1324 {
1325         assert_spin_locked(&task_rq(p)->lock);
1326         set_tsk_thread_flag(p, tif_bit);
1327 }
1328 #endif /* CONFIG_SMP */
1329
1330 #if BITS_PER_LONG == 32
1331 # define WMULT_CONST    (~0UL)
1332 #else
1333 # define WMULT_CONST    (1UL << 32)
1334 #endif
1335
1336 #define WMULT_SHIFT     32
1337
1338 /*
1339  * Shift right and round:
1340  */
1341 #define SRR(x, y) (((x) + (1UL << ((y) - 1))) >> (y))
1342
1343 static unsigned long
1344 calc_delta_mine(unsigned long delta_exec, unsigned long weight,
1345                 struct load_weight *lw)
1346 {
1347         u64 tmp;
1348
1349         if (!lw->inv_weight)
1350                 lw->inv_weight = 1 + (WMULT_CONST-lw->weight/2)/(lw->weight+1);
1351
1352         tmp = (u64)delta_exec * weight;
1353         /*
1354          * Check whether we'd overflow the 64-bit multiplication:
1355          */
1356         if (unlikely(tmp > WMULT_CONST))
1357                 tmp = SRR(SRR(tmp, WMULT_SHIFT/2) * lw->inv_weight,
1358                         WMULT_SHIFT/2);
1359         else
1360                 tmp = SRR(tmp * lw->inv_weight, WMULT_SHIFT);
1361
1362         return (unsigned long)min(tmp, (u64)(unsigned long)LONG_MAX);
1363 }
1364
1365 static inline unsigned long
1366 calc_delta_fair(unsigned long delta_exec, struct load_weight *lw)
1367 {
1368         return calc_delta_mine(delta_exec, NICE_0_LOAD, lw);
1369 }
1370
1371 static inline void update_load_add(struct load_weight *lw, unsigned long inc)
1372 {
1373         lw->weight += inc;
1374         lw->inv_weight = 0;
1375 }
1376
1377 static inline void update_load_sub(struct load_weight *lw, unsigned long dec)
1378 {
1379         lw->weight -= dec;
1380         lw->inv_weight = 0;
1381 }
1382
1383 /*
1384  * To aid in avoiding the subversion of "niceness" due to uneven distribution
1385  * of tasks with abnormal "nice" values across CPUs the contribution that
1386  * each task makes to its run queue's load is weighted according to its
1387  * scheduling class and "nice" value. For SCHED_NORMAL tasks this is just a
1388  * scaled version of the new time slice allocation that they receive on time
1389  * slice expiry etc.
1390  */
1391
1392 #define WEIGHT_IDLEPRIO         2
1393 #define WMULT_IDLEPRIO          (1 << 31)
1394
1395 /*
1396  * Nice levels are multiplicative, with a gentle 10% change for every
1397  * nice level changed. I.e. when a CPU-bound task goes from nice 0 to
1398  * nice 1, it will get ~10% less CPU time than another CPU-bound task
1399  * that remained on nice 0.
1400  *
1401  * The "10% effect" is relative and cumulative: from _any_ nice level,
1402  * if you go up 1 level, it's -10% CPU usage, if you go down 1 level
1403  * it's +10% CPU usage. (to achieve that we use a multiplier of 1.25.
1404  * If a task goes up by ~10% and another task goes down by ~10% then
1405  * the relative distance between them is ~25%.)
1406  */
1407 static const int prio_to_weight[40] = {
1408  /* -20 */     88761,     71755,     56483,     46273,     36291,
1409  /* -15 */     29154,     23254,     18705,     14949,     11916,
1410  /* -10 */      9548,      7620,      6100,      4904,      3906,
1411  /*  -5 */      3121,      2501,      1991,      1586,      1277,
1412  /*   0 */      1024,       820,       655,       526,       423,
1413  /*   5 */       335,       272,       215,       172,       137,
1414  /*  10 */       110,        87,        70,        56,        45,
1415  /*  15 */        36,        29,        23,        18,        15,
1416 };
1417
1418 /*
1419  * Inverse (2^32/x) values of the prio_to_weight[] array, precalculated.
1420  *
1421  * In cases where the weight does not change often, we can use the
1422  * precalculated inverse to speed up arithmetics by turning divisions
1423  * into multiplications:
1424  */
1425 static const u32 prio_to_wmult[40] = {
1426  /* -20 */     48388,     59856,     76040,     92818,    118348,
1427  /* -15 */    147320,    184698,    229616,    287308,    360437,
1428  /* -10 */    449829,    563644,    704093,    875809,   1099582,
1429  /*  -5 */   1376151,   1717300,   2157191,   2708050,   3363326,
1430  /*   0 */   4194304,   5237765,   6557202,   8165337,  10153587,
1431  /*   5 */  12820798,  15790321,  19976592,  24970740,  31350126,
1432  /*  10 */  39045157,  49367440,  61356676,  76695844,  95443717,
1433  /*  15 */ 119304647, 148102320, 186737708, 238609294, 286331153,
1434 };
1435
1436 static void activate_task(struct rq *rq, struct task_struct *p, int wakeup);
1437
1438 /*
1439  * runqueue iterator, to support SMP load-balancing between different
1440  * scheduling classes, without having to expose their internal data
1441  * structures to the load-balancing proper:
1442  */
1443 struct rq_iterator {
1444         void *arg;
1445         struct task_struct *(*start)(void *);
1446         struct task_struct *(*next)(void *);
1447 };
1448
1449 #ifdef CONFIG_SMP
1450 static unsigned long
1451 balance_tasks(struct rq *this_rq, int this_cpu, struct rq *busiest,
1452               unsigned long max_load_move, struct sched_domain *sd,
1453               enum cpu_idle_type idle, int *all_pinned,
1454               int *this_best_prio, struct rq_iterator *iterator);
1455
1456 static int
1457 iter_move_one_task(struct rq *this_rq, int this_cpu, struct rq *busiest,
1458                    struct sched_domain *sd, enum cpu_idle_type idle,
1459                    struct rq_iterator *iterator);
1460 #endif
1461
1462 #ifdef CONFIG_CGROUP_CPUACCT
1463 static void cpuacct_charge(struct task_struct *tsk, u64 cputime);
1464 #else
1465 static inline void cpuacct_charge(struct task_struct *tsk, u64 cputime) {}
1466 #endif
1467
1468 static inline void inc_cpu_load(struct rq *rq, unsigned long load)
1469 {
1470         update_load_add(&rq->load, load);
1471 }
1472
1473 static inline void dec_cpu_load(struct rq *rq, unsigned long load)
1474 {
1475         update_load_sub(&rq->load, load);
1476 }
1477
1478 #ifdef CONFIG_SMP
1479 static unsigned long source_load(int cpu, int type);
1480 static unsigned long target_load(int cpu, int type);
1481 static unsigned long cpu_avg_load_per_task(int cpu);
1482 static int task_hot(struct task_struct *p, u64 now, struct sched_domain *sd);
1483 #else /* CONFIG_SMP */
1484
1485 #ifdef CONFIG_FAIR_GROUP_SCHED
1486 static void cfs_rq_set_shares(struct cfs_rq *cfs_rq, unsigned long shares)
1487 {
1488 }
1489 #endif
1490
1491 #endif /* CONFIG_SMP */
1492
1493 #include "sched_stats.h"
1494 #include "sched_idletask.c"
1495 #include "sched_fair.c"
1496 #include "sched_rt.c"
1497 #ifdef CONFIG_SCHED_DEBUG
1498 # include "sched_debug.c"
1499 #endif
1500
1501 #define sched_class_highest (&rt_sched_class)
1502 #define for_each_class(class) \
1503    for (class = sched_class_highest; class; class = class->next)
1504
1505 static inline void inc_load(struct rq *rq, const struct task_struct *p)
1506 {
1507         update_load_add(&rq->load, p->se.load.weight);
1508 }
1509
1510 static inline void dec_load(struct rq *rq, const struct task_struct *p)
1511 {
1512         update_load_sub(&rq->load, p->se.load.weight);
1513 }
1514
1515 static void inc_nr_running(struct task_struct *p, struct rq *rq)
1516 {
1517         rq->nr_running++;
1518         inc_load(rq, p);
1519 }
1520
1521 static void dec_nr_running(struct task_struct *p, struct rq *rq)
1522 {
1523         rq->nr_running--;
1524         dec_load(rq, p);
1525 }
1526
1527 static void set_load_weight(struct task_struct *p)
1528 {
1529         if (task_has_rt_policy(p)) {
1530                 p->se.load.weight = prio_to_weight[0] * 2;
1531                 p->se.load.inv_weight = prio_to_wmult[0] >> 1;
1532                 return;
1533         }
1534
1535         /*
1536          * SCHED_IDLE tasks get minimal weight:
1537          */
1538         if (p->policy == SCHED_IDLE) {
1539                 p->se.load.weight = WEIGHT_IDLEPRIO;
1540                 p->se.load.inv_weight = WMULT_IDLEPRIO;
1541                 return;
1542         }
1543
1544         p->se.load.weight = prio_to_weight[p->static_prio - MAX_RT_PRIO];
1545         p->se.load.inv_weight = prio_to_wmult[p->static_prio - MAX_RT_PRIO];
1546 }
1547
1548 static void enqueue_task(struct rq *rq, struct task_struct *p, int wakeup)
1549 {
1550         sched_info_queued(p);
1551         p->sched_class->enqueue_task(rq, p, wakeup);
1552         p->se.on_rq = 1;
1553 }
1554
1555 static void dequeue_task(struct rq *rq, struct task_struct *p, int sleep)
1556 {
1557         p->sched_class->dequeue_task(rq, p, sleep);
1558         p->se.on_rq = 0;
1559 }
1560
1561 /*
1562  * __normal_prio - return the priority that is based on the static prio
1563  */
1564 static inline int __normal_prio(struct task_struct *p)
1565 {
1566         return p->static_prio;
1567 }
1568
1569 /*
1570  * Calculate the expected normal priority: i.e. priority
1571  * without taking RT-inheritance into account. Might be
1572  * boosted by interactivity modifiers. Changes upon fork,
1573  * setprio syscalls, and whenever the interactivity
1574  * estimator recalculates.
1575  */
1576 static inline int normal_prio(struct task_struct *p)
1577 {
1578         int prio;
1579
1580         if (task_has_rt_policy(p))
1581                 prio = MAX_RT_PRIO-1 - p->rt_priority;
1582         else
1583                 prio = __normal_prio(p);
1584         return prio;
1585 }
1586
1587 /*
1588  * Calculate the current priority, i.e. the priority
1589  * taken into account by the scheduler. This value might
1590  * be boosted by RT tasks, or might be boosted by
1591  * interactivity modifiers. Will be RT if the task got
1592  * RT-boosted. If not then it returns p->normal_prio.
1593  */
1594 static int effective_prio(struct task_struct *p)
1595 {
1596         p->normal_prio = normal_prio(p);
1597         /*
1598          * If we are RT tasks or we were boosted to RT priority,
1599          * keep the priority unchanged. Otherwise, update priority
1600          * to the normal priority:
1601          */
1602         if (!rt_prio(p->prio))
1603                 return p->normal_prio;
1604         return p->prio;
1605 }
1606
1607 /*
1608  * activate_task - move a task to the runqueue.
1609  */
1610 static void activate_task(struct rq *rq, struct task_struct *p, int wakeup)
1611 {
1612         if (task_contributes_to_load(p))
1613                 rq->nr_uninterruptible--;
1614
1615         enqueue_task(rq, p, wakeup);
1616         inc_nr_running(p, rq);
1617 }
1618
1619 /*
1620  * deactivate_task - remove a task from the runqueue.
1621  */
1622 static void deactivate_task(struct rq *rq, struct task_struct *p, int sleep)
1623 {
1624         if (task_contributes_to_load(p))
1625                 rq->nr_uninterruptible++;
1626
1627         dequeue_task(rq, p, sleep);
1628         dec_nr_running(p, rq);
1629 }
1630
1631 /**
1632  * task_curr - is this task currently executing on a CPU?
1633  * @p: the task in question.
1634  */
1635 inline int task_curr(const struct task_struct *p)
1636 {
1637         return cpu_curr(task_cpu(p)) == p;
1638 }
1639
1640 static inline void __set_task_cpu(struct task_struct *p, unsigned int cpu)
1641 {
1642         set_task_rq(p, cpu);
1643 #ifdef CONFIG_SMP
1644         /*
1645          * After ->cpu is set up to a new value, task_rq_lock(p, ...) can be
1646          * successfuly executed on another CPU. We must ensure that updates of
1647          * per-task data have been completed by this moment.
1648          */
1649         smp_wmb();
1650         task_thread_info(p)->cpu = cpu;
1651 #endif
1652 }
1653
1654 static inline void check_class_changed(struct rq *rq, struct task_struct *p,
1655                                        const struct sched_class *prev_class,
1656                                        int oldprio, int running)
1657 {
1658         if (prev_class != p->sched_class) {
1659                 if (prev_class->switched_from)
1660                         prev_class->switched_from(rq, p, running);
1661                 p->sched_class->switched_to(rq, p, running);
1662         } else
1663                 p->sched_class->prio_changed(rq, p, oldprio, running);
1664 }
1665
1666 #ifdef CONFIG_SMP
1667
1668 /* Used instead of source_load when we know the type == 0 */
1669 static unsigned long weighted_cpuload(const int cpu)
1670 {
1671         return cpu_rq(cpu)->load.weight;
1672 }
1673
1674 /*
1675  * Is this task likely cache-hot:
1676  */
1677 static int
1678 task_hot(struct task_struct *p, u64 now, struct sched_domain *sd)
1679 {
1680         s64 delta;
1681
1682         /*
1683          * Buddy candidates are cache hot:
1684          */
1685         if (sched_feat(CACHE_HOT_BUDDY) && (&p->se == cfs_rq_of(&p->se)->next))
1686                 return 1;
1687
1688         if (p->sched_class != &fair_sched_class)
1689                 return 0;
1690
1691         if (sysctl_sched_migration_cost == -1)
1692                 return 1;
1693         if (sysctl_sched_migration_cost == 0)
1694                 return 0;
1695
1696         delta = now - p->se.exec_start;
1697
1698         return delta < (s64)sysctl_sched_migration_cost;
1699 }
1700
1701
1702 void set_task_cpu(struct task_struct *p, unsigned int new_cpu)
1703 {
1704         int old_cpu = task_cpu(p);
1705         struct rq *old_rq = cpu_rq(old_cpu), *new_rq = cpu_rq(new_cpu);
1706         struct cfs_rq *old_cfsrq = task_cfs_rq(p),
1707                       *new_cfsrq = cpu_cfs_rq(old_cfsrq, new_cpu);
1708         u64 clock_offset;
1709
1710         clock_offset = old_rq->clock - new_rq->clock;
1711
1712 #ifdef CONFIG_SCHEDSTATS
1713         if (p->se.wait_start)
1714                 p->se.wait_start -= clock_offset;
1715         if (p->se.sleep_start)
1716                 p->se.sleep_start -= clock_offset;
1717         if (p->se.block_start)
1718                 p->se.block_start -= clock_offset;
1719         if (old_cpu != new_cpu) {
1720                 schedstat_inc(p, se.nr_migrations);
1721                 if (task_hot(p, old_rq->clock, NULL))
1722                         schedstat_inc(p, se.nr_forced2_migrations);
1723         }
1724 #endif
1725         p->se.vruntime -= old_cfsrq->min_vruntime -
1726                                          new_cfsrq->min_vruntime;
1727
1728         __set_task_cpu(p, new_cpu);
1729 }
1730
1731 struct migration_req {
1732         struct list_head list;
1733
1734         struct task_struct *task;
1735         int dest_cpu;
1736
1737         struct completion done;
1738 };
1739
1740 /*
1741  * The task's runqueue lock must be held.
1742  * Returns true if you have to wait for migration thread.
1743  */
1744 static int
1745 migrate_task(struct task_struct *p, int dest_cpu, struct migration_req *req)
1746 {
1747         struct rq *rq = task_rq(p);
1748
1749         /*
1750          * If the task is not on a runqueue (and not running), then
1751          * it is sufficient to simply update the task's cpu field.
1752          */
1753         if (!p->se.on_rq && !task_running(rq, p)) {
1754                 set_task_cpu(p, dest_cpu);
1755                 return 0;
1756         }
1757
1758         init_completion(&req->done);
1759         req->task = p;
1760         req->dest_cpu = dest_cpu;
1761         list_add(&req->list, &rq->migration_queue);
1762
1763         return 1;
1764 }
1765
1766 /*
1767  * wait_task_inactive - wait for a thread to unschedule.
1768  *
1769  * The caller must ensure that the task *will* unschedule sometime soon,
1770  * else this function might spin for a *long* time. This function can't
1771  * be called with interrupts off, or it may introduce deadlock with
1772  * smp_call_function() if an IPI is sent by the same process we are
1773  * waiting to become inactive.
1774  */
1775 void wait_task_inactive(struct task_struct *p)
1776 {
1777         unsigned long flags;
1778         int running, on_rq;
1779         struct rq *rq;
1780
1781         for (;;) {
1782                 /*
1783                  * We do the initial early heuristics without holding
1784                  * any task-queue locks at all. We'll only try to get
1785                  * the runqueue lock when things look like they will
1786                  * work out!
1787                  */
1788                 rq = task_rq(p);
1789
1790                 /*
1791                  * If the task is actively running on another CPU
1792                  * still, just relax and busy-wait without holding
1793                  * any locks.
1794                  *
1795                  * NOTE! Since we don't hold any locks, it's not
1796                  * even sure that "rq" stays as the right runqueue!
1797                  * But we don't care, since "task_running()" will
1798                  * return false if the runqueue has changed and p
1799                  * is actually now running somewhere else!
1800                  */
1801                 while (task_running(rq, p))
1802                         cpu_relax();
1803
1804                 /*
1805                  * Ok, time to look more closely! We need the rq
1806                  * lock now, to be *sure*. If we're wrong, we'll
1807                  * just go back and repeat.
1808                  */
1809                 rq = task_rq_lock(p, &flags);
1810                 running = task_running(rq, p);
1811                 on_rq = p->se.on_rq;
1812                 task_rq_unlock(rq, &flags);
1813
1814                 /*
1815                  * Was it really running after all now that we
1816                  * checked with the proper locks actually held?
1817                  *
1818                  * Oops. Go back and try again..
1819                  */
1820                 if (unlikely(running)) {
1821                         cpu_relax();
1822                         continue;
1823                 }
1824
1825                 /*
1826                  * It's not enough that it's not actively running,
1827                  * it must be off the runqueue _entirely_, and not
1828                  * preempted!
1829                  *
1830                  * So if it wa still runnable (but just not actively
1831                  * running right now), it's preempted, and we should
1832                  * yield - it could be a while.
1833                  */
1834                 if (unlikely(on_rq)) {
1835                         schedule_timeout_uninterruptible(1);
1836                         continue;
1837                 }
1838
1839                 /*
1840                  * Ahh, all good. It wasn't running, and it wasn't
1841                  * runnable, which means that it will never become
1842                  * running in the future either. We're all done!
1843                  */
1844                 break;
1845         }
1846 }
1847
1848 /***
1849  * kick_process - kick a running thread to enter/exit the kernel
1850  * @p: the to-be-kicked thread
1851  *
1852  * Cause a process which is running on another CPU to enter
1853  * kernel-mode, without any delay. (to get signals handled.)
1854  *
1855  * NOTE: this function doesnt have to take the runqueue lock,
1856  * because all it wants to ensure is that the remote task enters
1857  * the kernel. If the IPI races and the task has been migrated
1858  * to another CPU then no harm is done and the purpose has been
1859  * achieved as well.
1860  */
1861 void kick_process(struct task_struct *p)
1862 {
1863         int cpu;
1864
1865         preempt_disable();
1866         cpu = task_cpu(p);
1867         if ((cpu != smp_processor_id()) && task_curr(p))
1868                 smp_send_reschedule(cpu);
1869         preempt_enable();
1870 }
1871
1872 /*
1873  * Return a low guess at the load of a migration-source cpu weighted
1874  * according to the scheduling class and "nice" value.
1875  *
1876  * We want to under-estimate the load of migration sources, to
1877  * balance conservatively.
1878  */
1879 static unsigned long source_load(int cpu, int type)
1880 {
1881         struct rq *rq = cpu_rq(cpu);
1882         unsigned long total = weighted_cpuload(cpu);
1883
1884         if (type == 0)
1885                 return total;
1886
1887         return min(rq->cpu_load[type-1], total);
1888 }
1889
1890 /*
1891  * Return a high guess at the load of a migration-target cpu weighted
1892  * according to the scheduling class and "nice" value.
1893  */
1894 static unsigned long target_load(int cpu, int type)
1895 {
1896         struct rq *rq = cpu_rq(cpu);
1897         unsigned long total = weighted_cpuload(cpu);
1898
1899         if (type == 0)
1900                 return total;
1901
1902         return max(rq->cpu_load[type-1], total);
1903 }
1904
1905 /*
1906  * Return the average load per task on the cpu's run queue
1907  */
1908 static unsigned long cpu_avg_load_per_task(int cpu)
1909 {
1910         struct rq *rq = cpu_rq(cpu);
1911         unsigned long total = weighted_cpuload(cpu);
1912         unsigned long n = rq->nr_running;
1913
1914         return n ? total / n : SCHED_LOAD_SCALE;
1915 }
1916
1917 /*
1918  * find_idlest_group finds and returns the least busy CPU group within the
1919  * domain.
1920  */
1921 static struct sched_group *
1922 find_idlest_group(struct sched_domain *sd, struct task_struct *p, int this_cpu)
1923 {
1924         struct sched_group *idlest = NULL, *this = NULL, *group = sd->groups;
1925         unsigned long min_load = ULONG_MAX, this_load = 0;
1926         int load_idx = sd->forkexec_idx;
1927         int imbalance = 100 + (sd->imbalance_pct-100)/2;
1928
1929         do {
1930                 unsigned long load, avg_load;
1931                 int local_group;
1932                 int i;
1933
1934                 /* Skip over this group if it has no CPUs allowed */
1935                 if (!cpus_intersects(group->cpumask, p->cpus_allowed))
1936                         continue;
1937
1938                 local_group = cpu_isset(this_cpu, group->cpumask);
1939
1940                 /* Tally up the load of all CPUs in the group */
1941                 avg_load = 0;
1942
1943                 for_each_cpu_mask(i, group->cpumask) {
1944                         /* Bias balancing toward cpus of our domain */
1945                         if (local_group)
1946                                 load = source_load(i, load_idx);
1947                         else
1948                                 load = target_load(i, load_idx);
1949
1950                         avg_load += load;
1951                 }
1952
1953                 /* Adjust by relative CPU power of the group */
1954                 avg_load = sg_div_cpu_power(group,
1955                                 avg_load * SCHED_LOAD_SCALE);
1956
1957                 if (local_group) {
1958                         this_load = avg_load;
1959                         this = group;
1960                 } else if (avg_load < min_load) {
1961                         min_load = avg_load;
1962                         idlest = group;
1963                 }
1964         } while (group = group->next, group != sd->groups);
1965
1966         if (!idlest || 100*this_load < imbalance*min_load)
1967                 return NULL;
1968         return idlest;
1969 }
1970
1971 /*
1972  * find_idlest_cpu - find the idlest cpu among the cpus in group.
1973  */
1974 static int
1975 find_idlest_cpu(struct sched_group *group, struct task_struct *p, int this_cpu,
1976                 cpumask_t *tmp)
1977 {
1978         unsigned long load, min_load = ULONG_MAX;
1979         int idlest = -1;
1980         int i;
1981
1982         /* Traverse only the allowed CPUs */
1983         cpus_and(*tmp, group->cpumask, p->cpus_allowed);
1984
1985         for_each_cpu_mask(i, *tmp) {
1986                 load = weighted_cpuload(i);
1987
1988                 if (load < min_load || (load == min_load && i == this_cpu)) {
1989                         min_load = load;
1990                         idlest = i;
1991                 }
1992         }
1993
1994         return idlest;
1995 }
1996
1997 /*
1998  * sched_balance_self: balance the current task (running on cpu) in domains
1999  * that have the 'flag' flag set. In practice, this is SD_BALANCE_FORK and
2000  * SD_BALANCE_EXEC.
2001  *
2002  * Balance, ie. select the least loaded group.
2003  *
2004  * Returns the target CPU number, or the same CPU if no balancing is needed.
2005  *
2006  * preempt must be disabled.
2007  */
2008 static int sched_balance_self(int cpu, int flag)
2009 {
2010         struct task_struct *t = current;
2011         struct sched_domain *tmp, *sd = NULL;
2012
2013         for_each_domain(cpu, tmp) {
2014                 /*
2015                  * If power savings logic is enabled for a domain, stop there.
2016                  */
2017                 if (tmp->flags & SD_POWERSAVINGS_BALANCE)
2018                         break;
2019                 if (tmp->flags & flag)
2020                         sd = tmp;
2021         }
2022
2023         while (sd) {
2024                 cpumask_t span, tmpmask;
2025                 struct sched_group *group;
2026                 int new_cpu, weight;
2027
2028                 if (!(sd->flags & flag)) {
2029                         sd = sd->child;
2030                         continue;
2031                 }
2032
2033                 span = sd->span;
2034                 group = find_idlest_group(sd, t, cpu);
2035                 if (!group) {
2036                         sd = sd->child;
2037                         continue;
2038                 }
2039
2040                 new_cpu = find_idlest_cpu(group, t, cpu, &tmpmask);
2041                 if (new_cpu == -1 || new_cpu == cpu) {
2042                         /* Now try balancing at a lower domain level of cpu */
2043                         sd = sd->child;
2044                         continue;
2045                 }
2046
2047                 /* Now try balancing at a lower domain level of new_cpu */
2048                 cpu = new_cpu;
2049                 sd = NULL;
2050                 weight = cpus_weight(span);
2051                 for_each_domain(cpu, tmp) {
2052                         if (weight <= cpus_weight(tmp->span))
2053                                 break;
2054                         if (tmp->flags & flag)
2055                                 sd = tmp;
2056                 }
2057                 /* while loop will break here if sd == NULL */
2058         }
2059
2060         return cpu;
2061 }
2062
2063 #endif /* CONFIG_SMP */
2064
2065 /***
2066  * try_to_wake_up - wake up a thread
2067  * @p: the to-be-woken-up thread
2068  * @state: the mask of task states that can be woken
2069  * @sync: do a synchronous wakeup?
2070  *
2071  * Put it on the run-queue if it's not already there. The "current"
2072  * thread is always on the run-queue (except when the actual
2073  * re-schedule is in progress), and as such you're allowed to do
2074  * the simpler "current->state = TASK_RUNNING" to mark yourself
2075  * runnable without the overhead of this.
2076  *
2077  * returns failure only if the task is already active.
2078  */
2079 static int try_to_wake_up(struct task_struct *p, unsigned int state, int sync)
2080 {
2081         int cpu, orig_cpu, this_cpu, success = 0;
2082         unsigned long flags;
2083         long old_state;
2084         struct rq *rq;
2085
2086         if (!sched_feat(SYNC_WAKEUPS))
2087                 sync = 0;
2088
2089         smp_wmb();
2090         rq = task_rq_lock(p, &flags);
2091         old_state = p->state;
2092         if (!(old_state & state))
2093                 goto out;
2094
2095         if (p->se.on_rq)
2096                 goto out_running;
2097
2098         cpu = task_cpu(p);
2099         orig_cpu = cpu;
2100         this_cpu = smp_processor_id();
2101
2102 #ifdef CONFIG_SMP
2103         if (unlikely(task_running(rq, p)))
2104                 goto out_activate;
2105
2106         cpu = p->sched_class->select_task_rq(p, sync);
2107         if (cpu != orig_cpu) {
2108                 set_task_cpu(p, cpu);
2109                 task_rq_unlock(rq, &flags);
2110                 /* might preempt at this point */
2111                 rq = task_rq_lock(p, &flags);
2112                 old_state = p->state;
2113                 if (!(old_state & state))
2114                         goto out;
2115                 if (p->se.on_rq)
2116                         goto out_running;
2117
2118                 this_cpu = smp_processor_id();
2119                 cpu = task_cpu(p);
2120         }
2121
2122 #ifdef CONFIG_SCHEDSTATS
2123         schedstat_inc(rq, ttwu_count);
2124         if (cpu == this_cpu)
2125                 schedstat_inc(rq, ttwu_local);
2126         else {
2127                 struct sched_domain *sd;
2128                 for_each_domain(this_cpu, sd) {
2129                         if (cpu_isset(cpu, sd->span)) {
2130                                 schedstat_inc(sd, ttwu_wake_remote);
2131                                 break;
2132                         }
2133                 }
2134         }
2135 #endif /* CONFIG_SCHEDSTATS */
2136
2137 out_activate:
2138 #endif /* CONFIG_SMP */
2139         schedstat_inc(p, se.nr_wakeups);
2140         if (sync)
2141                 schedstat_inc(p, se.nr_wakeups_sync);
2142         if (orig_cpu != cpu)
2143                 schedstat_inc(p, se.nr_wakeups_migrate);
2144         if (cpu == this_cpu)
2145                 schedstat_inc(p, se.nr_wakeups_local);
2146         else
2147                 schedstat_inc(p, se.nr_wakeups_remote);
2148         update_rq_clock(rq);
2149         activate_task(rq, p, 1);
2150         success = 1;
2151
2152 out_running:
2153         check_preempt_curr(rq, p);
2154
2155         p->state = TASK_RUNNING;
2156 #ifdef CONFIG_SMP
2157         if (p->sched_class->task_wake_up)
2158                 p->sched_class->task_wake_up(rq, p);
2159 #endif
2160 out:
2161         task_rq_unlock(rq, &flags);
2162
2163         return success;
2164 }
2165
2166 int wake_up_process(struct task_struct *p)
2167 {
2168         return try_to_wake_up(p, TASK_ALL, 0);
2169 }
2170 EXPORT_SYMBOL(wake_up_process);
2171
2172 int wake_up_state(struct task_struct *p, unsigned int state)
2173 {
2174         return try_to_wake_up(p, state, 0);
2175 }
2176
2177 /*
2178  * Perform scheduler related setup for a newly forked process p.
2179  * p is forked by current.
2180  *
2181  * __sched_fork() is basic setup used by init_idle() too:
2182  */
2183 static void __sched_fork(struct task_struct *p)
2184 {
2185         p->se.exec_start                = 0;
2186         p->se.sum_exec_runtime          = 0;
2187         p->se.prev_sum_exec_runtime     = 0;
2188         p->se.last_wakeup               = 0;
2189         p->se.avg_overlap               = 0;
2190
2191 #ifdef CONFIG_SCHEDSTATS
2192         p->se.wait_start                = 0;
2193         p->se.sum_sleep_runtime         = 0;
2194         p->se.sleep_start               = 0;
2195         p->se.block_start               = 0;
2196         p->se.sleep_max                 = 0;
2197         p->se.block_max                 = 0;
2198         p->se.exec_max                  = 0;
2199         p->se.slice_max                 = 0;
2200         p->se.wait_max                  = 0;
2201 #endif
2202
2203         INIT_LIST_HEAD(&p->rt.run_list);
2204         p->se.on_rq = 0;
2205         INIT_LIST_HEAD(&p->se.group_node);
2206
2207 #ifdef CONFIG_PREEMPT_NOTIFIERS
2208         INIT_HLIST_HEAD(&p->preempt_notifiers);
2209 #endif
2210
2211         /*
2212          * We mark the process as running here, but have not actually
2213          * inserted it onto the runqueue yet. This guarantees that
2214          * nobody will actually run it, and a signal or other external
2215          * event cannot wake it up and insert it on the runqueue either.
2216          */
2217         p->state = TASK_RUNNING;
2218 }
2219
2220 /*
2221  * fork()/clone()-time setup:
2222  */
2223 void sched_fork(struct task_struct *p, int clone_flags)
2224 {
2225         int cpu = get_cpu();
2226
2227         __sched_fork(p);
2228
2229 #ifdef CONFIG_SMP
2230         cpu = sched_balance_self(cpu, SD_BALANCE_FORK);
2231 #endif
2232         set_task_cpu(p, cpu);
2233
2234         /*
2235          * Make sure we do not leak PI boosting priority to the child:
2236          */
2237         p->prio = current->normal_prio;
2238         if (!rt_prio(p->prio))
2239                 p->sched_class = &fair_sched_class;
2240
2241 #if defined(CONFIG_SCHEDSTATS) || defined(CONFIG_TASK_DELAY_ACCT)
2242         if (likely(sched_info_on()))
2243                 memset(&p->sched_info, 0, sizeof(p->sched_info));
2244 #endif
2245 #if defined(CONFIG_SMP) && defined(__ARCH_WANT_UNLOCKED_CTXSW)
2246         p->oncpu = 0;
2247 #endif
2248 #ifdef CONFIG_PREEMPT
2249         /* Want to start with kernel preemption disabled. */
2250         task_thread_info(p)->preempt_count = 1;
2251 #endif
2252         put_cpu();
2253 }
2254
2255 /*
2256  * wake_up_new_task - wake up a newly created task for the first time.
2257  *
2258  * This function will do some initial scheduler statistics housekeeping
2259  * that must be done for every newly created context, then puts the task
2260  * on the runqueue and wakes it.
2261  */
2262 void wake_up_new_task(struct task_struct *p, unsigned long clone_flags)
2263 {
2264         unsigned long flags;
2265         struct rq *rq;
2266
2267         rq = task_rq_lock(p, &flags);
2268         BUG_ON(p->state != TASK_RUNNING);
2269         update_rq_clock(rq);
2270
2271         p->prio = effective_prio(p);
2272
2273         if (!p->sched_class->task_new || !current->se.on_rq) {
2274                 activate_task(rq, p, 0);
2275         } else {
2276                 /*
2277                  * Let the scheduling class do new task startup
2278                  * management (if any):
2279                  */
2280                 p->sched_class->task_new(rq, p);
2281                 inc_nr_running(p, rq);
2282         }
2283         check_preempt_curr(rq, p);
2284 #ifdef CONFIG_SMP
2285         if (p->sched_class->task_wake_up)
2286                 p->sched_class->task_wake_up(rq, p);
2287 #endif
2288         task_rq_unlock(rq, &flags);
2289 }
2290
2291 #ifdef CONFIG_PREEMPT_NOTIFIERS
2292
2293 /**
2294  * preempt_notifier_register - tell me when current is being being preempted & rescheduled
2295  * @notifier: notifier struct to register
2296  */
2297 void preempt_notifier_register(struct preempt_notifier *notifier)
2298 {
2299         hlist_add_head(&notifier->link, &current->preempt_notifiers);
2300 }
2301 EXPORT_SYMBOL_GPL(preempt_notifier_register);
2302
2303 /**
2304  * preempt_notifier_unregister - no longer interested in preemption notifications
2305  * @notifier: notifier struct to unregister
2306  *
2307  * This is safe to call from within a preemption notifier.
2308  */
2309 void preempt_notifier_unregister(struct preempt_notifier *notifier)
2310 {
2311         hlist_del(&notifier->link);
2312 }
2313 EXPORT_SYMBOL_GPL(preempt_notifier_unregister);
2314
2315 static void fire_sched_in_preempt_notifiers(struct task_struct *curr)
2316 {
2317         struct preempt_notifier *notifier;
2318         struct hlist_node *node;
2319
2320         hlist_for_each_entry(notifier, node, &curr->preempt_notifiers, link)
2321                 notifier->ops->sched_in(notifier, raw_smp_processor_id());
2322 }
2323
2324 static void
2325 fire_sched_out_preempt_notifiers(struct task_struct *curr,
2326                                  struct task_struct *next)
2327 {
2328         struct preempt_notifier *notifier;
2329         struct hlist_node *node;
2330
2331         hlist_for_each_entry(notifier, node, &curr->preempt_notifiers, link)
2332                 notifier->ops->sched_out(notifier, next);
2333 }
2334
2335 #else /* !CONFIG_PREEMPT_NOTIFIERS */
2336
2337 static void fire_sched_in_preempt_notifiers(struct task_struct *curr)
2338 {
2339 }
2340
2341 static void
2342 fire_sched_out_preempt_notifiers(struct task_struct *curr,
2343                                  struct task_struct *next)
2344 {
2345 }
2346
2347 #endif /* CONFIG_PREEMPT_NOTIFIERS */
2348
2349 /**
2350  * prepare_task_switch - prepare to switch tasks
2351  * @rq: the runqueue preparing to switch
2352  * @prev: the current task that is being switched out
2353  * @next: the task we are going to switch to.
2354  *
2355  * This is called with the rq lock held and interrupts off. It must
2356  * be paired with a subsequent finish_task_switch after the context
2357  * switch.
2358  *
2359  * prepare_task_switch sets up locking and calls architecture specific
2360  * hooks.
2361  */
2362 static inline void
2363 prepare_task_switch(struct rq *rq, struct task_struct *prev,
2364                     struct task_struct *next)
2365 {
2366         fire_sched_out_preempt_notifiers(prev, next);
2367         prepare_lock_switch(rq, next);
2368         prepare_arch_switch(next);
2369 }
2370
2371 /**
2372  * finish_task_switch - clean up after a task-switch
2373  * @rq: runqueue associated with task-switch
2374  * @prev: the thread we just switched away from.
2375  *
2376  * finish_task_switch must be called after the context switch, paired
2377  * with a prepare_task_switch call before the context switch.
2378  * finish_task_switch will reconcile locking set up by prepare_task_switch,
2379  * and do any other architecture-specific cleanup actions.
2380  *
2381  * Note that we may have delayed dropping an mm in context_switch(). If
2382  * so, we finish that here outside of the runqueue lock. (Doing it
2383  * with the lock held can cause deadlocks; see schedule() for
2384  * details.)
2385  */
2386 static void finish_task_switch(struct rq *rq, struct task_struct *prev)
2387         __releases(rq->lock)
2388 {
2389         struct mm_struct *mm = rq->prev_mm;
2390         long prev_state;
2391
2392         rq->prev_mm = NULL;
2393
2394         /*
2395          * A task struct has one reference for the use as "current".
2396          * If a task dies, then it sets TASK_DEAD in tsk->state and calls
2397          * schedule one last time. The schedule call will never return, and
2398          * the scheduled task must drop that reference.
2399          * The test for TASK_DEAD must occur while the runqueue locks are
2400          * still held, otherwise prev could be scheduled on another cpu, die
2401          * there before we look at prev->state, and then the reference would
2402          * be dropped twice.
2403          *              Manfred Spraul <manfred@colorfullife.com>
2404          */
2405         prev_state = prev->state;
2406         finish_arch_switch(prev);
2407         finish_lock_switch(rq, prev);
2408 #ifdef CONFIG_SMP
2409         if (current->sched_class->post_schedule)
2410                 current->sched_class->post_schedule(rq);
2411 #endif
2412
2413         fire_sched_in_preempt_notifiers(current);
2414         if (mm)
2415                 mmdrop(mm);
2416         if (unlikely(prev_state == TASK_DEAD)) {
2417                 /*
2418                  * Remove function-return probe instances associated with this
2419                  * task and put them back on the free list.
2420                  */
2421                 kprobe_flush_task(prev);
2422                 put_task_struct(prev);
2423         }
2424 }
2425
2426 /**
2427  * schedule_tail - first thing a freshly forked thread must call.
2428  * @prev: the thread we just switched away from.
2429  */
2430 asmlinkage void schedule_tail(struct task_struct *prev)
2431         __releases(rq->lock)
2432 {
2433         struct rq *rq = this_rq();
2434
2435         finish_task_switch(rq, prev);
2436 #ifdef __ARCH_WANT_UNLOCKED_CTXSW
2437         /* In this case, finish_task_switch does not reenable preemption */
2438         preempt_enable();
2439 #endif
2440         if (current->set_child_tid)
2441                 put_user(task_pid_vnr(current), current->set_child_tid);
2442 }
2443
2444 /*
2445  * context_switch - switch to the new MM and the new
2446  * thread's register state.
2447  */
2448 static inline void
2449 context_switch(struct rq *rq, struct task_struct *prev,
2450                struct task_struct *next)
2451 {
2452         struct mm_struct *mm, *oldmm;
2453
2454         prepare_task_switch(rq, prev, next);
2455         mm = next->mm;
2456         oldmm = prev->active_mm;
2457         /*
2458          * For paravirt, this is coupled with an exit in switch_to to
2459          * combine the page table reload and the switch backend into
2460          * one hypercall.
2461          */
2462         arch_enter_lazy_cpu_mode();
2463
2464         if (unlikely(!mm)) {
2465                 next->active_mm = oldmm;
2466                 atomic_inc(&oldmm->mm_count);
2467                 enter_lazy_tlb(oldmm, next);
2468         } else
2469                 switch_mm(oldmm, mm, next);
2470
2471         if (unlikely(!prev->mm)) {
2472                 prev->active_mm = NULL;
2473                 rq->prev_mm = oldmm;
2474         }
2475         /*
2476          * Since the runqueue lock will be released by the next
2477          * task (which is an invalid locking op but in the case
2478          * of the scheduler it's an obvious special-case), so we
2479          * do an early lockdep release here:
2480          */
2481 #ifndef __ARCH_WANT_UNLOCKED_CTXSW
2482         spin_release(&rq->lock.dep_map, 1, _THIS_IP_);
2483 #endif
2484
2485         /* Here we just switch the register state and the stack. */
2486         switch_to(prev, next, prev);
2487
2488         barrier();
2489         /*
2490          * this_rq must be evaluated again because prev may have moved
2491          * CPUs since it called schedule(), thus the 'rq' on its stack
2492          * frame will be invalid.
2493          */
2494         finish_task_switch(this_rq(), prev);
2495 }
2496
2497 /*
2498  * nr_running, nr_uninterruptible and nr_context_switches:
2499  *
2500  * externally visible scheduler statistics: current number of runnable
2501  * threads, current number of uninterruptible-sleeping threads, total
2502  * number of context switches performed since bootup.
2503  */
2504 unsigned long nr_running(void)
2505 {
2506         unsigned long i, sum = 0;
2507
2508         for_each_online_cpu(i)
2509                 sum += cpu_rq(i)->nr_running;
2510
2511         return sum;
2512 }
2513
2514 unsigned long nr_uninterruptible(void)
2515 {
2516         unsigned long i, sum = 0;
2517
2518         for_each_possible_cpu(i)
2519                 sum += cpu_rq(i)->nr_uninterruptible;
2520
2521         /*
2522          * Since we read the counters lockless, it might be slightly
2523          * inaccurate. Do not allow it to go below zero though:
2524          */
2525         if (unlikely((long)sum < 0))
2526                 sum = 0;
2527
2528         return sum;
2529 }
2530
2531 unsigned long long nr_context_switches(void)
2532 {
2533         int i;
2534         unsigned long long sum = 0;
2535
2536         for_each_possible_cpu(i)
2537                 sum += cpu_rq(i)->nr_switches;
2538
2539         return sum;
2540 }
2541
2542 unsigned long nr_iowait(void)
2543 {
2544         unsigned long i, sum = 0;
2545
2546         for_each_possible_cpu(i)
2547                 sum += atomic_read(&cpu_rq(i)->nr_iowait);
2548
2549         return sum;
2550 }
2551
2552 unsigned long nr_active(void)
2553 {
2554         unsigned long i, running = 0, uninterruptible = 0;
2555
2556         for_each_online_cpu(i) {
2557                 running += cpu_rq(i)->nr_running;
2558                 uninterruptible += cpu_rq(i)->nr_uninterruptible;
2559         }
2560
2561         if (unlikely((long)uninterruptible < 0))
2562                 uninterruptible = 0;
2563
2564         return running + uninterruptible;
2565 }
2566
2567 /*
2568  * Update rq->cpu_load[] statistics. This function is usually called every
2569  * scheduler tick (TICK_NSEC).
2570  */
2571 static void update_cpu_load(struct rq *this_rq)
2572 {
2573         unsigned long this_load = this_rq->load.weight;
2574         int i, scale;
2575
2576         this_rq->nr_load_updates++;
2577
2578         /* Update our load: */
2579         for (i = 0, scale = 1; i < CPU_LOAD_IDX_MAX; i++, scale += scale) {
2580                 unsigned long old_load, new_load;
2581
2582                 /* scale is effectively 1 << i now, and >> i divides by scale */
2583
2584                 old_load = this_rq->cpu_load[i];
2585                 new_load = this_load;
2586                 /*
2587                  * Round up the averaging division if load is increasing. This
2588                  * prevents us from getting stuck on 9 if the load is 10, for
2589                  * example.
2590                  */
2591                 if (new_load > old_load)
2592                         new_load += scale-1;
2593                 this_rq->cpu_load[i] = (old_load*(scale-1) + new_load) >> i;
2594         }
2595 }
2596
2597 #ifdef CONFIG_SMP
2598
2599 /*
2600  * double_rq_lock - safely lock two runqueues
2601  *
2602  * Note this does not disable interrupts like task_rq_lock,
2603  * you need to do so manually before calling.
2604  */
2605 static void double_rq_lock(struct rq *rq1, struct rq *rq2)
2606         __acquires(rq1->lock)
2607         __acquires(rq2->lock)
2608 {
2609         BUG_ON(!irqs_disabled());
2610         if (rq1 == rq2) {
2611                 spin_lock(&rq1->lock);
2612                 __acquire(rq2->lock);   /* Fake it out ;) */
2613         } else {
2614                 if (rq1 < rq2) {
2615                         spin_lock(&rq1->lock);
2616                         spin_lock(&rq2->lock);
2617                 } else {
2618                         spin_lock(&rq2->lock);
2619                         spin_lock(&rq1->lock);
2620                 }
2621         }
2622         update_rq_clock(rq1);
2623         update_rq_clock(rq2);
2624 }
2625
2626 /*
2627  * double_rq_unlock - safely unlock two runqueues
2628  *
2629  * Note this does not restore interrupts like task_rq_unlock,
2630  * you need to do so manually after calling.
2631  */
2632 static void double_rq_unlock(struct rq *rq1, struct rq *rq2)
2633         __releases(rq1->lock)
2634         __releases(rq2->lock)
2635 {
2636         spin_unlock(&rq1->lock);
2637         if (rq1 != rq2)
2638                 spin_unlock(&rq2->lock);
2639         else
2640                 __release(rq2->lock);
2641 }
2642
2643 /*
2644  * double_lock_balance - lock the busiest runqueue, this_rq is locked already.
2645  */
2646 static int double_lock_balance(struct rq *this_rq, struct rq *busiest)
2647         __releases(this_rq->lock)
2648         __acquires(busiest->lock)
2649         __acquires(this_rq->lock)
2650 {
2651         int ret = 0;
2652
2653         if (unlikely(!irqs_disabled())) {
2654                 /* printk() doesn't work good under rq->lock */
2655                 spin_unlock(&this_rq->lock);
2656                 BUG_ON(1);
2657         }
2658         if (unlikely(!spin_trylock(&busiest->lock))) {
2659                 if (busiest < this_rq) {
2660                         spin_unlock(&this_rq->lock);
2661                         spin_lock(&busiest->lock);
2662                         spin_lock(&this_rq->lock);
2663                         ret = 1;
2664                 } else
2665                         spin_lock(&busiest->lock);
2666         }
2667         return ret;
2668 }
2669
2670 /*
2671  * If dest_cpu is allowed for this process, migrate the task to it.
2672  * This is accomplished by forcing the cpu_allowed mask to only
2673  * allow dest_cpu, which will force the cpu onto dest_cpu. Then
2674  * the cpu_allowed mask is restored.
2675  */
2676 static void sched_migrate_task(struct task_struct *p, int dest_cpu)
2677 {
2678         struct migration_req req;
2679         unsigned long flags;
2680         struct rq *rq;
2681
2682         rq = task_rq_lock(p, &flags);
2683         if (!cpu_isset(dest_cpu, p->cpus_allowed)
2684             || unlikely(cpu_is_offline(dest_cpu)))
2685                 goto out;
2686
2687         /* force the process onto the specified CPU */
2688         if (migrate_task(p, dest_cpu, &req)) {
2689                 /* Need to wait for migration thread (might exit: take ref). */
2690                 struct task_struct *mt = rq->migration_thread;
2691
2692                 get_task_struct(mt);
2693                 task_rq_unlock(rq, &flags);
2694                 wake_up_process(mt);
2695                 put_task_struct(mt);
2696                 wait_for_completion(&req.done);
2697
2698                 return;
2699         }
2700 out:
2701         task_rq_unlock(rq, &flags);
2702 }
2703
2704 /*
2705  * sched_exec - execve() is a valuable balancing opportunity, because at
2706  * this point the task has the smallest effective memory and cache footprint.
2707  */
2708 void sched_exec(void)
2709 {
2710         int new_cpu, this_cpu = get_cpu();
2711         new_cpu = sched_balance_self(this_cpu, SD_BALANCE_EXEC);
2712         put_cpu();
2713         if (new_cpu != this_cpu)
2714                 sched_migrate_task(current, new_cpu);
2715 }
2716
2717 /*
2718  * pull_task - move a task from a remote runqueue to the local runqueue.
2719  * Both runqueues must be locked.
2720  */
2721 static void pull_task(struct rq *src_rq, struct task_struct *p,
2722                       struct rq *this_rq, int this_cpu)
2723 {
2724         deactivate_task(src_rq, p, 0);
2725         set_task_cpu(p, this_cpu);
2726         activate_task(this_rq, p, 0);
2727         /*
2728          * Note that idle threads have a prio of MAX_PRIO, for this test
2729          * to be always true for them.
2730          */
2731         check_preempt_curr(this_rq, p);
2732 }
2733
2734 /*
2735  * can_migrate_task - may task p from runqueue rq be migrated to this_cpu?
2736  */
2737 static
2738 int can_migrate_task(struct task_struct *p, struct rq *rq, int this_cpu,
2739                      struct sched_domain *sd, enum cpu_idle_type idle,
2740                      int *all_pinned)
2741 {
2742         /*
2743          * We do not migrate tasks that are:
2744          * 1) running (obviously), or
2745          * 2) cannot be migrated to this CPU due to cpus_allowed, or
2746          * 3) are cache-hot on their current CPU.
2747          */
2748         if (!cpu_isset(this_cpu, p->cpus_allowed)) {
2749                 schedstat_inc(p, se.nr_failed_migrations_affine);
2750                 return 0;
2751         }
2752         *all_pinned = 0;
2753
2754         if (task_running(rq, p)) {
2755                 schedstat_inc(p, se.nr_failed_migrations_running);
2756                 return 0;
2757         }
2758
2759         /*
2760          * Aggressive migration if:
2761          * 1) task is cache cold, or
2762          * 2) too many balance attempts have failed.
2763          */
2764
2765         if (!task_hot(p, rq->clock, sd) ||
2766                         sd->nr_balance_failed > sd->cache_nice_tries) {
2767 #ifdef CONFIG_SCHEDSTATS
2768                 if (task_hot(p, rq->clock, sd)) {
2769                         schedstat_inc(sd, lb_hot_gained[idle]);
2770                         schedstat_inc(p, se.nr_forced_migrations);
2771                 }
2772 #endif
2773                 return 1;
2774         }
2775
2776         if (task_hot(p, rq->clock, sd)) {
2777                 schedstat_inc(p, se.nr_failed_migrations_hot);
2778                 return 0;
2779         }
2780         return 1;
2781 }
2782
2783 static unsigned long
2784 balance_tasks(struct rq *this_rq, int this_cpu, struct rq *busiest,
2785               unsigned long max_load_move, struct sched_domain *sd,
2786               enum cpu_idle_type idle, int *all_pinned,
2787               int *this_best_prio, struct rq_iterator *iterator)
2788 {
2789         int loops = 0, pulled = 0, pinned = 0, skip_for_load;
2790         struct task_struct *p;
2791         long rem_load_move = max_load_move;
2792
2793         if (max_load_move == 0)
2794                 goto out;
2795
2796         pinned = 1;
2797
2798         /*
2799          * Start the load-balancing iterator:
2800          */
2801         p = iterator->start(iterator->arg);
2802 next:
2803         if (!p || loops++ > sysctl_sched_nr_migrate)
2804                 goto out;
2805         /*
2806          * To help distribute high priority tasks across CPUs we don't
2807          * skip a task if it will be the highest priority task (i.e. smallest
2808          * prio value) on its new queue regardless of its load weight
2809          */
2810         skip_for_load = (p->se.load.weight >> 1) > rem_load_move +
2811                                                          SCHED_LOAD_SCALE_FUZZ;
2812         if ((skip_for_load && p->prio >= *this_best_prio) ||
2813             !can_migrate_task(p, busiest, this_cpu, sd, idle, &pinned)) {
2814                 p = iterator->next(iterator->arg);
2815                 goto next;
2816         }
2817
2818         pull_task(busiest, p, this_rq, this_cpu);
2819         pulled++;
2820         rem_load_move -= p->se.load.weight;
2821
2822         /*
2823          * We only want to steal up to the prescribed amount of weighted load.
2824          */
2825         if (rem_load_move > 0) {
2826                 if (p->prio < *this_best_prio)
2827                         *this_best_prio = p->prio;
2828                 p = iterator->next(iterator->arg);
2829                 goto next;
2830         }
2831 out:
2832         /*
2833          * Right now, this is one of only two places pull_task() is called,
2834          * so we can safely collect pull_task() stats here rather than
2835          * inside pull_task().
2836          */
2837         schedstat_add(sd, lb_gained[idle], pulled);
2838
2839         if (all_pinned)
2840                 *all_pinned = pinned;
2841
2842         return max_load_move - rem_load_move;
2843 }
2844
2845 /*
2846  * move_tasks tries to move up to max_load_move weighted load from busiest to
2847  * this_rq, as part of a balancing operation within domain "sd".
2848  * Returns 1 if successful and 0 otherwise.
2849  *
2850  * Called with both runqueues locked.
2851  */
2852 static int move_tasks(struct rq *this_rq, int this_cpu, struct rq *busiest,
2853                       unsigned long max_load_move,
2854                       struct sched_domain *sd, enum cpu_idle_type idle,
2855                       int *all_pinned)
2856 {
2857         const struct sched_class *class = sched_class_highest;
2858         unsigned long total_load_moved = 0;
2859         int this_best_prio = this_rq->curr->prio;
2860
2861         do {
2862                 total_load_moved +=
2863                         class->load_balance(this_rq, this_cpu, busiest,
2864                                 max_load_move - total_load_moved,
2865                                 sd, idle, all_pinned, &this_best_prio);
2866                 class = class->next;
2867         } while (class && max_load_move > total_load_moved);
2868
2869         return total_load_moved > 0;
2870 }
2871
2872 static int
2873 iter_move_one_task(struct rq *this_rq, int this_cpu, struct rq *busiest,
2874                    struct sched_domain *sd, enum cpu_idle_type idle,
2875                    struct rq_iterator *iterator)
2876 {
2877         struct task_struct *p = iterator->start(iterator->arg);
2878         int pinned = 0;
2879
2880         while (p) {
2881                 if (can_migrate_task(p, busiest, this_cpu, sd, idle, &pinned)) {
2882                         pull_task(busiest, p, this_rq, this_cpu);
2883                         /*
2884                          * Right now, this is only the second place pull_task()
2885                          * is called, so we can safely collect pull_task()
2886                          * stats here rather than inside pull_task().
2887                          */
2888                         schedstat_inc(sd, lb_gained[idle]);
2889
2890                         return 1;
2891                 }
2892                 p = iterator->next(iterator->arg);
2893         }
2894
2895         return 0;
2896 }
2897
2898 /*
2899  * move_one_task tries to move exactly one task from busiest to this_rq, as
2900  * part of active balancing operations within "domain".
2901  * Returns 1 if successful and 0 otherwise.
2902  *
2903  * Called with both runqueues locked.
2904  */
2905 static int move_one_task(struct rq *this_rq, int this_cpu, struct rq *busiest,
2906                          struct sched_domain *sd, enum cpu_idle_type idle)
2907 {
2908         const struct sched_class *class;
2909
2910         for (class = sched_class_highest; class; class = class->next)
2911                 if (class->move_one_task(this_rq, this_cpu, busiest, sd, idle))
2912                         return 1;
2913
2914         return 0;
2915 }
2916
2917 /*
2918  * find_busiest_group finds and returns the busiest CPU group within the
2919  * domain. It calculates and returns the amount of weighted load which
2920  * should be moved to restore balance via the imbalance parameter.
2921  */
2922 static struct sched_group *
2923 find_busiest_group(struct sched_domain *sd, int this_cpu,
2924                    unsigned long *imbalance, enum cpu_idle_type idle,
2925                    int *sd_idle, const cpumask_t *cpus, int *balance)
2926 {
2927         struct sched_group *busiest = NULL, *this = NULL, *group = sd->groups;
2928         unsigned long max_load, avg_load, total_load, this_load, total_pwr;
2929         unsigned long max_pull;
2930         unsigned long busiest_load_per_task, busiest_nr_running;
2931         unsigned long this_load_per_task, this_nr_running;
2932         int load_idx, group_imb = 0;
2933 #if defined(CONFIG_SCHED_MC) || defined(CONFIG_SCHED_SMT)
2934         int power_savings_balance = 1;
2935         unsigned long leader_nr_running = 0, min_load_per_task = 0;
2936         unsigned long min_nr_running = ULONG_MAX;
2937         struct sched_group *group_min = NULL, *group_leader = NULL;
2938 #endif
2939
2940         max_load = this_load = total_load = total_pwr = 0;
2941         busiest_load_per_task = busiest_nr_running = 0;
2942         this_load_per_task = this_nr_running = 0;
2943         if (idle == CPU_NOT_IDLE)
2944                 load_idx = sd->busy_idx;
2945         else if (idle == CPU_NEWLY_IDLE)
2946                 load_idx = sd->newidle_idx;
2947         else
2948                 load_idx = sd->idle_idx;
2949
2950         do {
2951                 unsigned long load, group_capacity, max_cpu_load, min_cpu_load;
2952                 int local_group;
2953                 int i;
2954                 int __group_imb = 0;
2955                 unsigned int balance_cpu = -1, first_idle_cpu = 0;
2956                 unsigned long sum_nr_running, sum_weighted_load;
2957
2958                 local_group = cpu_isset(this_cpu, group->cpumask);
2959
2960                 if (local_group)
2961                         balance_cpu = first_cpu(group->cpumask);
2962
2963                 /* Tally up the load of all CPUs in the group */
2964                 sum_weighted_load = sum_nr_running = avg_load = 0;
2965                 max_cpu_load = 0;
2966                 min_cpu_load = ~0UL;
2967
2968                 for_each_cpu_mask(i, group->cpumask) {
2969                         struct rq *rq;
2970
2971                         if (!cpu_isset(i, *cpus))
2972                                 continue;
2973
2974                         rq = cpu_rq(i);
2975
2976                         if (*sd_idle && rq->nr_running)
2977                                 *sd_idle = 0;
2978
2979                         /* Bias balancing toward cpus of our domain */
2980                         if (local_group) {
2981                                 if (idle_cpu(i) && !first_idle_cpu) {
2982                                         first_idle_cpu = 1;
2983                                         balance_cpu = i;
2984                                 }
2985
2986                                 load = target_load(i, load_idx);
2987                         } else {
2988                                 load = source_load(i, load_idx);
2989                                 if (load > max_cpu_load)
2990                                         max_cpu_load = load;
2991                                 if (min_cpu_load > load)
2992                                         min_cpu_load = load;
2993                         }
2994
2995                         avg_load += load;
2996                         sum_nr_running += rq->nr_running;
2997                         sum_weighted_load += weighted_cpuload(i);
2998                 }
2999
3000                 /*
3001                  * First idle cpu or the first cpu(busiest) in this sched group
3002                  * is eligible for doing load balancing at this and above
3003                  * domains. In the newly idle case, we will allow all the cpu's
3004                  * to do the newly idle load balance.
3005                  */
3006                 if (idle != CPU_NEWLY_IDLE && local_group &&
3007                     balance_cpu != this_cpu && balance) {
3008                         *balance = 0;
3009                         goto ret;
3010                 }
3011
3012                 total_load += avg_load;
3013                 total_pwr += group->__cpu_power;
3014
3015                 /* Adjust by relative CPU power of the group */
3016                 avg_load = sg_div_cpu_power(group,
3017                                 avg_load * SCHED_LOAD_SCALE);
3018
3019                 if ((max_cpu_load - min_cpu_load) > SCHED_LOAD_SCALE)
3020                         __group_imb = 1;
3021
3022                 group_capacity = group->__cpu_power / SCHED_LOAD_SCALE;
3023
3024                 if (local_group) {
3025                         this_load = avg_load;
3026                         this = group;
3027                         this_nr_running = sum_nr_running;
3028                         this_load_per_task = sum_weighted_load;
3029                 } else if (avg_load > max_load &&
3030                            (sum_nr_running > group_capacity || __group_imb)) {
3031                         max_load = avg_load;
3032                         busiest = group;
3033                         busiest_nr_running = sum_nr_running;
3034                         busiest_load_per_task = sum_weighted_load;
3035                         group_imb = __group_imb;
3036                 }
3037
3038 #if defined(CONFIG_SCHED_MC) || defined(CONFIG_SCHED_SMT)
3039                 /*
3040                  * Busy processors will not participate in power savings
3041                  * balance.
3042                  */
3043                 if (idle == CPU_NOT_IDLE ||
3044                                 !(sd->flags & SD_POWERSAVINGS_BALANCE))
3045                         goto group_next;
3046
3047                 /*
3048                  * If the local group is idle or completely loaded
3049                  * no need to do power savings balance at this domain
3050                  */
3051                 if (local_group && (this_nr_running >= group_capacity ||
3052                                     !this_nr_running))
3053                         power_savings_balance = 0;
3054
3055                 /*
3056                  * If a group is already running at full capacity or idle,
3057                  * don't include that group in power savings calculations
3058                  */
3059                 if (!power_savings_balance || sum_nr_running >= group_capacity
3060                     || !sum_nr_running)
3061                         goto group_next;
3062
3063                 /*
3064                  * Calculate the group which has the least non-idle load.
3065                  * This is the group from where we need to pick up the load
3066                  * for saving power
3067                  */
3068                 if ((sum_nr_running < min_nr_running) ||
3069                     (sum_nr_running == min_nr_running &&
3070                      first_cpu(group->cpumask) <
3071                      first_cpu(group_min->cpumask))) {
3072                         group_min = group;
3073                         min_nr_running = sum_nr_running;
3074                         min_load_per_task = sum_weighted_load /
3075                                                 sum_nr_running;
3076                 }
3077
3078                 /*
3079                  * Calculate the group which is almost near its
3080                  * capacity but still has some space to pick up some load
3081                  * from other group and save more power
3082                  */
3083                 if (sum_nr_running <= group_capacity - 1) {
3084                         if (sum_nr_running > leader_nr_running ||
3085                             (sum_nr_running == leader_nr_running &&
3086                              first_cpu(group->cpumask) >
3087                               first_cpu(group_leader->cpumask))) {
3088                                 group_leader = group;
3089                                 leader_nr_running = sum_nr_running;
3090                         }
3091                 }
3092 group_next:
3093 #endif
3094                 group = group->next;
3095         } while (group != sd->groups);
3096
3097         if (!busiest || this_load >= max_load || busiest_nr_running == 0)
3098                 goto out_balanced;
3099
3100         avg_load = (SCHED_LOAD_SCALE * total_load) / total_pwr;
3101
3102         if (this_load >= avg_load ||
3103                         100*max_load <= sd->imbalance_pct*this_load)
3104                 goto out_balanced;
3105
3106         busiest_load_per_task /= busiest_nr_running;
3107         if (group_imb)
3108                 busiest_load_per_task = min(busiest_load_per_task, avg_load);
3109
3110         /*
3111          * We're trying to get all the cpus to the average_load, so we don't
3112          * want to push ourselves above the average load, nor do we wish to
3113          * reduce the max loaded cpu below the average load, as either of these
3114          * actions would just result in more rebalancing later, and ping-pong
3115          * tasks around. Thus we look for the minimum possible imbalance.
3116          * Negative imbalances (*we* are more loaded than anyone else) will
3117          * be counted as no imbalance for these purposes -- we can't fix that
3118          * by pulling tasks to us. Be careful of negative numbers as they'll
3119          * appear as very large values with unsigned longs.
3120          */
3121         if (max_load <= busiest_load_per_task)
3122                 goto out_balanced;
3123
3124         /*
3125          * In the presence of smp nice balancing, certain scenarios can have
3126          * max load less than avg load(as we skip the groups at or below
3127          * its cpu_power, while calculating max_load..)
3128          */
3129         if (max_load < avg_load) {
3130                 *imbalance = 0;
3131                 goto small_imbalance;
3132         }
3133
3134         /* Don't want to pull so many tasks that a group would go idle */
3135         max_pull = min(max_load - avg_load, max_load - busiest_load_per_task);
3136
3137         /* How much load to actually move to equalise the imbalance */
3138         *imbalance = min(max_pull * busiest->__cpu_power,
3139                                 (avg_load - this_load) * this->__cpu_power)
3140                         / SCHED_LOAD_SCALE;
3141
3142         /*
3143          * if *imbalance is less than the average load per runnable task
3144          * there is no gaurantee that any tasks will be moved so we'll have
3145          * a think about bumping its value to force at least one task to be
3146          * moved
3147          */
3148         if (*imbalance < busiest_load_per_task) {
3149                 unsigned long tmp, pwr_now, pwr_move;
3150                 unsigned int imbn;
3151
3152 small_imbalance:
3153                 pwr_move = pwr_now = 0;
3154                 imbn = 2;
3155                 if (this_nr_running) {
3156                         this_load_per_task /= this_nr_running;
3157                         if (busiest_load_per_task > this_load_per_task)
3158                                 imbn = 1;
3159                 } else
3160                         this_load_per_task = SCHED_LOAD_SCALE;
3161
3162                 if (max_load - this_load + SCHED_LOAD_SCALE_FUZZ >=
3163                                         busiest_load_per_task * imbn) {
3164                         *imbalance = busiest_load_per_task;
3165                         return busiest;
3166                 }
3167
3168                 /*
3169                  * OK, we don't have enough imbalance to justify moving tasks,
3170                  * however we may be able to increase total CPU power used by
3171                  * moving them.
3172                  */
3173
3174                 pwr_now += busiest->__cpu_power *
3175                                 min(busiest_load_per_task, max_load);
3176                 pwr_now += this->__cpu_power *
3177                                 min(this_load_per_task, this_load);
3178                 pwr_now /= SCHED_LOAD_SCALE;
3179
3180                 /* Amount of load we'd subtract */
3181                 tmp = sg_div_cpu_power(busiest,
3182                                 busiest_load_per_task * SCHED_LOAD_SCALE);
3183                 if (max_load > tmp)
3184                         pwr_move += busiest->__cpu_power *
3185                                 min(busiest_load_per_task, max_load - tmp);
3186
3187                 /* Amount of load we'd add */
3188                 if (max_load * busiest->__cpu_power <
3189                                 busiest_load_per_task * SCHED_LOAD_SCALE)
3190                         tmp = sg_div_cpu_power(this,
3191                                         max_load * busiest->__cpu_power);
3192                 else
3193                         tmp = sg_div_cpu_power(this,
3194                                 busiest_load_per_task * SCHED_LOAD_SCALE);
3195                 pwr_move += this->__cpu_power *
3196                                 min(this_load_per_task, this_load + tmp);
3197                 pwr_move /= SCHED_LOAD_SCALE;
3198
3199                 /* Move if we gain throughput */
3200                 if (pwr_move > pwr_now)
3201                         *imbalance = busiest_load_per_task;
3202         }
3203
3204         return busiest;
3205
3206 out_balanced:
3207 #if defined(CONFIG_SCHED_MC) || defined(CONFIG_SCHED_SMT)
3208         if (idle == CPU_NOT_IDLE || !(sd->flags & SD_POWERSAVINGS_BALANCE))
3209                 goto ret;
3210
3211         if (this == group_leader && group_leader != group_min) {
3212                 *imbalance = min_load_per_task;
3213                 return group_min;
3214         }
3215 #endif
3216 ret:
3217         *imbalance = 0;
3218         return NULL;
3219 }
3220
3221 /*
3222  * find_busiest_queue - find the busiest runqueue among the cpus in group.
3223  */
3224 static struct rq *
3225 find_busiest_queue(struct sched_group *group, enum cpu_idle_type idle,
3226                    unsigned long imbalance, const cpumask_t *cpus)
3227 {
3228         struct rq *busiest = NULL, *rq;
3229         unsigned long max_load = 0;
3230         int i;
3231
3232         for_each_cpu_mask(i, group->cpumask) {
3233                 unsigned long wl;
3234
3235                 if (!cpu_isset(i, *cpus))
3236                         continue;
3237
3238                 rq = cpu_rq(i);
3239                 wl = weighted_cpuload(i);
3240
3241                 if (rq->nr_running == 1 && wl > imbalance)
3242                         continue;
3243
3244                 if (wl > max_load) {
3245                         max_load = wl;
3246                         busiest = rq;
3247                 }
3248         }
3249
3250         return busiest;
3251 }
3252
3253 /*
3254  * Max backoff if we encounter pinned tasks. Pretty arbitrary value, but
3255  * so long as it is large enough.
3256  */
3257 #define MAX_PINNED_INTERVAL     512
3258
3259 /*
3260  * Check this_cpu to ensure it is balanced within domain. Attempt to move
3261  * tasks if there is an imbalance.
3262  */
3263 static int load_balance(int this_cpu, struct rq *this_rq,
3264                         struct sched_domain *sd, enum cpu_idle_type idle,
3265                         int *balance, cpumask_t *cpus)
3266 {
3267         int ld_moved, all_pinned = 0, active_balance = 0, sd_idle = 0;
3268         struct sched_group *group;
3269         unsigned long imbalance;
3270         struct rq *busiest;
3271         unsigned long flags;
3272
3273         cpus_setall(*cpus);
3274
3275         /*
3276          * When power savings policy is enabled for the parent domain, idle
3277          * sibling can pick up load irrespective of busy siblings. In this case,
3278          * let the state of idle sibling percolate up as CPU_IDLE, instead of
3279          * portraying it as CPU_NOT_IDLE.
3280          */
3281         if (idle != CPU_NOT_IDLE && sd->flags & SD_SHARE_CPUPOWER &&
3282             !test_sd_parent(sd, SD_POWERSAVINGS_BALANCE))
3283                 sd_idle = 1;
3284
3285         schedstat_inc(sd, lb_count[idle]);
3286
3287 redo:
3288         group = find_busiest_group(sd, this_cpu, &imbalance, idle, &sd_idle,
3289                                    cpus, balance);
3290
3291         if (*balance == 0)
3292                 goto out_balanced;
3293
3294         if (!group) {
3295                 schedstat_inc(sd, lb_nobusyg[idle]);
3296                 goto out_balanced;
3297         }
3298
3299         busiest = find_busiest_queue(group, idle, imbalance, cpus);
3300         if (!busiest) {
3301                 schedstat_inc(sd, lb_nobusyq[idle]);
3302                 goto out_balanced;
3303         }
3304
3305         BUG_ON(busiest == this_rq);
3306
3307         schedstat_add(sd, lb_imbalance[idle], imbalance);
3308
3309         ld_moved = 0;
3310         if (busiest->nr_running > 1) {
3311                 /*
3312                  * Attempt to move tasks. If find_busiest_group has found
3313                  * an imbalance but busiest->nr_running <= 1, the group is
3314                  * still unbalanced. ld_moved simply stays zero, so it is
3315                  * correctly treated as an imbalance.
3316                  */
3317                 local_irq_save(flags);
3318                 double_rq_lock(this_rq, busiest);
3319                 ld_moved = move_tasks(this_rq, this_cpu, busiest,
3320                                       imbalance, sd, idle, &all_pinned);
3321                 double_rq_unlock(this_rq, busiest);
3322                 local_irq_restore(flags);
3323
3324                 /*
3325                  * some other cpu did the load balance for us.
3326                  */
3327                 if (ld_moved && this_cpu != smp_processor_id())
3328                         resched_cpu(this_cpu);
3329
3330                 /* All tasks on this runqueue were pinned by CPU affinity */
3331                 if (unlikely(all_pinned)) {
3332                         cpu_clear(cpu_of(busiest), *cpus);
3333                         if (!cpus_empty(*cpus))
3334                                 goto redo;
3335                         goto out_balanced;
3336                 }
3337         }
3338
3339         if (!ld_moved) {
3340                 schedstat_inc(sd, lb_failed[idle]);
3341                 sd->nr_balance_failed++;
3342
3343                 if (unlikely(sd->nr_balance_failed > sd->cache_nice_tries+2)) {
3344
3345                         spin_lock_irqsave(&busiest->lock, flags);
3346
3347                         /* don't kick the migration_thread, if the curr
3348                          * task on busiest cpu can't be moved to this_cpu
3349                          */
3350                         if (!cpu_isset(this_cpu, busiest->curr->cpus_allowed)) {
3351                                 spin_unlock_irqrestore(&busiest->lock, flags);
3352                                 all_pinned = 1;
3353                                 goto out_one_pinned;
3354                         }
3355
3356                         if (!busiest->active_balance) {
3357                                 busiest->active_balance = 1;
3358                                 busiest->push_cpu = this_cpu;
3359                                 active_balance = 1;
3360                         }
3361                         spin_unlock_irqrestore(&busiest->lock, flags);
3362                         if (active_balance)
3363                                 wake_up_process(busiest->migration_thread);
3364
3365                         /*
3366                          * We've kicked active balancing, reset the failure
3367                          * counter.
3368                          */
3369                         sd->nr_balance_failed = sd->cache_nice_tries+1;
3370                 }
3371         } else
3372                 sd->nr_balance_failed = 0;
3373
3374         if (likely(!active_balance)) {
3375                 /* We were unbalanced, so reset the balancing interval */
3376                 sd->balance_interval = sd->min_interval;
3377         } else {
3378                 /*
3379                  * If we've begun active balancing, start to back off. This
3380                  * case may not be covered by the all_pinned logic if there
3381                  * is only 1 task on the busy runqueue (because we don't call
3382                  * move_tasks).
3383                  */
3384                 if (sd->balance_interval < sd->max_interval)
3385                         sd->balance_interval *= 2;
3386         }
3387
3388         if (!ld_moved && !sd_idle && sd->flags & SD_SHARE_CPUPOWER &&
3389             !test_sd_parent(sd, SD_POWERSAVINGS_BALANCE))
3390                 return -1;
3391         return ld_moved;
3392
3393 out_balanced:
3394         schedstat_inc(sd, lb_balanced[idle]);
3395
3396         sd->nr_balance_failed = 0;
3397
3398 out_one_pinned:
3399         /* tune up the balancing interval */
3400         if ((all_pinned && sd->balance_interval < MAX_PINNED_INTERVAL) ||
3401                         (sd->balance_interval < sd->max_interval))
3402                 sd->balance_interval *= 2;
3403
3404         if (!sd_idle && sd->flags & SD_SHARE_CPUPOWER &&
3405             !test_sd_parent(sd, SD_POWERSAVINGS_BALANCE))
3406                 return -1;
3407         return 0;
3408 }
3409
3410 /*
3411  * Check this_cpu to ensure it is balanced within domain. Attempt to move
3412  * tasks if there is an imbalance.
3413  *
3414  * Called from schedule when this_rq is about to become idle (CPU_NEWLY_IDLE).
3415  * this_rq is locked.
3416  */
3417 static int
3418 load_balance_newidle(int this_cpu, struct rq *this_rq, struct sched_domain *sd,
3419                         cpumask_t *cpus)
3420 {
3421         struct sched_group *group;
3422         struct rq *busiest = NULL;
3423         unsigned long imbalance;
3424         int ld_moved = 0;
3425         int sd_idle = 0;
3426         int all_pinned = 0;
3427
3428         cpus_setall(*cpus);
3429
3430         /*
3431          * When power savings policy is enabled for the parent domain, idle
3432          * sibling can pick up load irrespective of busy siblings. In this case,
3433          * let the state of idle sibling percolate up as IDLE, instead of
3434          * portraying it as CPU_NOT_IDLE.
3435          */
3436         if (sd->flags & SD_SHARE_CPUPOWER &&
3437             !test_sd_parent(sd, SD_POWERSAVINGS_BALANCE))
3438                 sd_idle = 1;
3439
3440         schedstat_inc(sd, lb_count[CPU_NEWLY_IDLE]);
3441 redo:
3442         group = find_busiest_group(sd, this_cpu, &imbalance, CPU_NEWLY_IDLE,
3443                                    &sd_idle, cpus, NULL);
3444         if (!group) {
3445                 schedstat_inc(sd, lb_nobusyg[CPU_NEWLY_IDLE]);
3446                 goto out_balanced;
3447         }
3448
3449         busiest = find_busiest_queue(group, CPU_NEWLY_IDLE, imbalance, cpus);
3450         if (!busiest) {
3451                 schedstat_inc(sd, lb_nobusyq[CPU_NEWLY_IDLE]);
3452                 goto out_balanced;
3453         }
3454
3455         BUG_ON(busiest == this_rq);
3456
3457         schedstat_add(sd, lb_imbalance[CPU_NEWLY_IDLE], imbalance);
3458
3459         ld_moved = 0;
3460         if (busiest->nr_running > 1) {
3461                 /* Attempt to move tasks */
3462                 double_lock_balance(this_rq, busiest);
3463                 /* this_rq->clock is already updated */
3464                 update_rq_clock(busiest);
3465                 ld_moved = move_tasks(this_rq, this_cpu, busiest,
3466                                         imbalance, sd, CPU_NEWLY_IDLE,
3467                                         &all_pinned);
3468                 spin_unlock(&busiest->lock);
3469
3470                 if (unlikely(all_pinned)) {
3471                         cpu_clear(cpu_of(busiest), *cpus);
3472                         if (!cpus_empty(*cpus))
3473                                 goto redo;
3474                 }
3475         }
3476
3477         if (!ld_moved) {
3478                 schedstat_inc(sd, lb_failed[CPU_NEWLY_IDLE]);
3479                 if (!sd_idle && sd->flags & SD_SHARE_CPUPOWER &&
3480                     !test_sd_parent(sd, SD_POWERSAVINGS_BALANCE))
3481                         return -1;
3482         } else
3483                 sd->nr_balance_failed = 0;
3484
3485         return ld_moved;
3486
3487 out_balanced:
3488         schedstat_inc(sd, lb_balanced[CPU_NEWLY_IDLE]);
3489         if (!sd_idle && sd->flags & SD_SHARE_CPUPOWER &&
3490             !test_sd_parent(sd, SD_POWERSAVINGS_BALANCE))
3491                 return -1;
3492         sd->nr_balance_failed = 0;
3493
3494         return 0;
3495 }
3496
3497 /*
3498  * idle_balance is called by schedule() if this_cpu is about to become
3499  * idle. Attempts to pull tasks from other CPUs.
3500  */
3501 static void idle_balance(int this_cpu, struct rq *this_rq)
3502 {
3503         struct sched_domain *sd;
3504         int pulled_task = -1;
3505         unsigned long next_balance = jiffies + HZ;
3506         cpumask_t tmpmask;
3507
3508         for_each_domain(this_cpu, sd) {
3509                 unsigned long interval;
3510
3511                 if (!(sd->flags & SD_LOAD_BALANCE))
3512                         continue;
3513
3514                 if (sd->flags & SD_BALANCE_NEWIDLE)
3515                         /* If we've pulled tasks over stop searching: */
3516                         pulled_task = load_balance_newidle(this_cpu, this_rq,
3517                                                            sd, &tmpmask);
3518
3519                 interval = msecs_to_jiffies(sd->balance_interval);
3520                 if (time_after(next_balance, sd->last_balance + interval))
3521                         next_balance = sd->last_balance + interval;
3522                 if (pulled_task)
3523                         break;
3524         }
3525         if (pulled_task || time_after(jiffies, this_rq->next_balance)) {
3526                 /*
3527                  * We are going idle. next_balance may be set based on
3528                  * a busy processor. So reset next_balance.
3529                  */
3530                 this_rq->next_balance = next_balance;
3531         }
3532 }
3533
3534 /*
3535  * active_load_balance is run by migration threads. It pushes running tasks
3536  * off the busiest CPU onto idle CPUs. It requires at least 1 task to be
3537  * running on each physical CPU where possible, and avoids physical /
3538  * logical imbalances.
3539  *
3540  * Called with busiest_rq locked.
3541  */
3542 static void active_load_balance(struct rq *busiest_rq, int busiest_cpu)
3543 {
3544         int target_cpu = busiest_rq->push_cpu;
3545         struct sched_domain *sd;
3546         struct rq *target_rq;
3547
3548         /* Is there any task to move? */
3549         if (busiest_rq->nr_running <= 1)
3550                 return;
3551
3552         target_rq = cpu_rq(target_cpu);
3553
3554         /*
3555          * This condition is "impossible", if it occurs
3556          * we need to fix it. Originally reported by
3557          * Bjorn Helgaas on a 128-cpu setup.
3558          */
3559         BUG_ON(busiest_rq == target_rq);
3560
3561         /* move a task from busiest_rq to target_rq */
3562         double_lock_balance(busiest_rq, target_rq);
3563         update_rq_clock(busiest_rq);
3564         update_rq_clock(target_rq);
3565
3566         /* Search for an sd spanning us and the target CPU. */
3567         for_each_domain(target_cpu, sd) {
3568                 if ((sd->flags & SD_LOAD_BALANCE) &&
3569                     cpu_isset(busiest_cpu, sd->span))
3570                                 break;
3571         }
3572
3573         if (likely(sd)) {
3574                 schedstat_inc(sd, alb_count);
3575
3576                 if (move_one_task(target_rq, target_cpu, busiest_rq,
3577                                   sd, CPU_IDLE))
3578                         schedstat_inc(sd, alb_pushed);
3579                 else
3580                         schedstat_inc(sd, alb_failed);
3581         }
3582         spin_unlock(&target_rq->lock);
3583 }
3584
3585 #ifdef CONFIG_NO_HZ
3586 static struct {
3587         atomic_t load_balancer;
3588         cpumask_t cpu_mask;
3589 } nohz ____cacheline_aligned = {
3590         .load_balancer = ATOMIC_INIT(-1),
3591         .cpu_mask = CPU_MASK_NONE,
3592 };
3593
3594 /*
3595  * This routine will try to nominate the ilb (idle load balancing)
3596  * owner among the cpus whose ticks are stopped. ilb owner will do the idle
3597  * load balancing on behalf of all those cpus. If all the cpus in the system
3598  * go into this tickless mode, then there will be no ilb owner (as there is
3599  * no need for one) and all the cpus will sleep till the next wakeup event
3600  * arrives...
3601  *
3602  * For the ilb owner, tick is not stopped. And this tick will be used
3603  * for idle load balancing. ilb owner will still be part of
3604  * nohz.cpu_mask..
3605  *
3606  * While stopping the tick, this cpu will become the ilb owner if there
3607  * is no other owner. And will be the owner till that cpu becomes busy
3608  * or if all cpus in the system stop their ticks at which point
3609  * there is no need for ilb owner.
3610  *
3611  * When the ilb owner becomes busy, it nominates another owner, during the
3612  * next busy scheduler_tick()
3613  */
3614 int select_nohz_load_balancer(int stop_tick)
3615 {
3616         int cpu = smp_processor_id();
3617
3618         if (stop_tick) {
3619                 cpu_set(cpu, nohz.cpu_mask);
3620                 cpu_rq(cpu)->in_nohz_recently = 1;
3621
3622                 /*
3623                  * If we are going offline and still the leader, give up!
3624                  */
3625                 if (cpu_is_offline(cpu) &&
3626                     atomic_read(&nohz.load_balancer) == cpu) {
3627                         if (atomic_cmpxchg(&nohz.load_balancer, cpu, -1) != cpu)
3628                                 BUG();
3629                         return 0;
3630                 }
3631
3632                 /* time for ilb owner also to sleep */
3633                 if (cpus_weight(nohz.cpu_mask) == num_online_cpus()) {
3634                         if (atomic_read(&nohz.load_balancer) == cpu)
3635                                 atomic_set(&nohz.load_balancer, -1);
3636                         return 0;
3637                 }
3638
3639                 if (atomic_read(&nohz.load_balancer) == -1) {
3640                         /* make me the ilb owner */
3641                         if (atomic_cmpxchg(&nohz.load_balancer, -1, cpu) == -1)
3642                                 return 1;
3643                 } else if (atomic_read(&nohz.load_balancer) == cpu)
3644                         return 1;
3645         } else {
3646                 if (!cpu_isset(cpu, nohz.cpu_mask))
3647                         return 0;
3648
3649                 cpu_clear(cpu, nohz.cpu_mask);
3650
3651                 if (atomic_read(&nohz.load_balancer) == cpu)
3652                         if (atomic_cmpxchg(&nohz.load_balancer, cpu, -1) != cpu)
3653                                 BUG();
3654         }
3655         return 0;
3656 }
3657 #endif
3658
3659 static DEFINE_SPINLOCK(balancing);
3660
3661 /*
3662  * It checks each scheduling domain to see if it is due to be balanced,
3663  * and initiates a balancing operation if so.
3664  *
3665  * Balancing parameters are set up in arch_init_sched_domains.
3666  */
3667 static void rebalance_domains(int cpu, enum cpu_idle_type idle)
3668 {
3669         int balance = 1;
3670         struct rq *rq = cpu_rq(cpu);
3671         unsigned long interval;
3672         struct sched_domain *sd;
3673         /* Earliest time when we have to do rebalance again */
3674         unsigned long next_balance = jiffies + 60*HZ;
3675         int update_next_balance = 0;
3676         int need_serialize;
3677         cpumask_t tmp;
3678
3679         for_each_domain(cpu, sd) {
3680                 if (!(sd->flags & SD_LOAD_BALANCE))
3681                         continue;
3682
3683                 interval = sd->balance_interval;
3684                 if (idle != CPU_IDLE)
3685                         interval *= sd->busy_factor;
3686
3687                 /* scale ms to jiffies */
3688                 interval = msecs_to_jiffies(interval);
3689                 if (unlikely(!interval))
3690                         interval = 1;
3691                 if (interval > HZ*NR_CPUS/10)
3692                         interval = HZ*NR_CPUS/10;
3693
3694                 need_serialize = sd->flags & SD_SERIALIZE;
3695
3696                 if (need_serialize) {
3697                         if (!spin_trylock(&balancing))
3698                                 goto out;
3699                 }
3700
3701                 if (time_after_eq(jiffies, sd->last_balance + interval)) {
3702                         if (load_balance(cpu, rq, sd, idle, &balance, &tmp)) {
3703                                 /*
3704                                  * We've pulled tasks over so either we're no
3705                                  * longer idle, or one of our SMT siblings is
3706                                  * not idle.
3707                                  */
3708                                 idle = CPU_NOT_IDLE;
3709                         }
3710                         sd->last_balance = jiffies;
3711                 }
3712                 if (need_serialize)
3713                         spin_unlock(&balancing);
3714 out:
3715                 if (time_after(next_balance, sd->last_balance + interval)) {
3716                         next_balance = sd->last_balance + interval;
3717                         update_next_balance = 1;
3718                 }
3719
3720                 /*
3721                  * Stop the load balance at this level. There is another
3722                  * CPU in our sched group which is doing load balancing more
3723                  * actively.
3724                  */
3725                 if (!balance)
3726                         break;
3727         }
3728
3729         /*
3730          * next_balance will be updated only when there is a need.
3731          * When the cpu is attached to null domain for ex, it will not be
3732          * updated.
3733          */
3734         if (likely(update_next_balance))
3735                 rq->next_balance = next_balance;
3736 }
3737
3738 /*
3739  * run_rebalance_domains is triggered when needed from the scheduler tick.
3740  * In CONFIG_NO_HZ case, the idle load balance owner will do the
3741  * rebalancing for all the cpus for whom scheduler ticks are stopped.
3742  */
3743 static void run_rebalance_domains(struct softirq_action *h)
3744 {
3745         int this_cpu = smp_processor_id();
3746         struct rq *this_rq = cpu_rq(this_cpu);
3747         enum cpu_idle_type idle = this_rq->idle_at_tick ?
3748                                                 CPU_IDLE : CPU_NOT_IDLE;
3749
3750         rebalance_domains(this_cpu, idle);
3751
3752 #ifdef CONFIG_NO_HZ
3753         /*
3754          * If this cpu is the owner for idle load balancing, then do the
3755          * balancing on behalf of the other idle cpus whose ticks are
3756          * stopped.
3757          */
3758         if (this_rq->idle_at_tick &&
3759             atomic_read(&nohz.load_balancer) == this_cpu) {
3760                 cpumask_t cpus = nohz.cpu_mask;
3761                 struct rq *rq;
3762                 int balance_cpu;
3763
3764                 cpu_clear(this_cpu, cpus);
3765                 for_each_cpu_mask(balance_cpu, cpus) {
3766                         /*
3767                          * If this cpu gets work to do, stop the load balancing
3768                          * work being done for other cpus. Next load
3769                          * balancing owner will pick it up.
3770                          */
3771                         if (need_resched())
3772                                 break;
3773
3774                         rebalance_domains(balance_cpu, CPU_IDLE);
3775
3776                         rq = cpu_rq(balance_cpu);
3777                         if (time_after(this_rq->next_balance, rq->next_balance))
3778                                 this_rq->next_balance = rq->next_balance;
3779                 }
3780         }
3781 #endif
3782 }
3783
3784 /*
3785  * Trigger the SCHED_SOFTIRQ if it is time to do periodic load balancing.
3786  *
3787  * In case of CONFIG_NO_HZ, this is the place where we nominate a new
3788  * idle load balancing owner or decide to stop the periodic load balancing,
3789  * if the whole system is idle.
3790  */
3791 static inline void trigger_load_balance(struct rq *rq, int cpu)
3792 {
3793 #ifdef CONFIG_NO_HZ
3794         /*
3795          * If we were in the nohz mode recently and busy at the current
3796          * scheduler tick, then check if we need to nominate new idle
3797          * load balancer.
3798          */
3799         if (rq->in_nohz_recently && !rq->idle_at_tick) {
3800                 rq->in_nohz_recently = 0;
3801
3802                 if (atomic_read(&nohz.load_balancer) == cpu) {
3803                         cpu_clear(cpu, nohz.cpu_mask);
3804                         atomic_set(&nohz.load_balancer, -1);
3805                 }
3806
3807                 if (atomic_read(&nohz.load_balancer) == -1) {
3808                         /*
3809                          * simple selection for now: Nominate the
3810                          * first cpu in the nohz list to be the next
3811                          * ilb owner.
3812                          *
3813                          * TBD: Traverse the sched domains and nominate
3814                          * the nearest cpu in the nohz.cpu_mask.
3815                          */
3816                         int ilb = first_cpu(nohz.cpu_mask);
3817
3818                         if (ilb < nr_cpu_ids)
3819                                 resched_cpu(ilb);
3820                 }
3821         }
3822
3823         /*
3824          * If this cpu is idle and doing idle load balancing for all the
3825          * cpus with ticks stopped, is it time for that to stop?
3826          */
3827         if (rq->idle_at_tick && atomic_read(&nohz.load_balancer) == cpu &&
3828             cpus_weight(nohz.cpu_mask) == num_online_cpus()) {
3829                 resched_cpu(cpu);
3830                 return;
3831         }
3832
3833         /*
3834          * If this cpu is idle and the idle load balancing is done by
3835          * someone else, then no need raise the SCHED_SOFTIRQ
3836          */
3837         if (rq->idle_at_tick && atomic_read(&nohz.load_balancer) != cpu &&
3838             cpu_isset(cpu, nohz.cpu_mask))
3839                 return;
3840 #endif
3841         if (time_after_eq(jiffies, rq->next_balance))
3842                 raise_softirq(SCHED_SOFTIRQ);
3843 }
3844
3845 #else   /* CONFIG_SMP */
3846
3847 /*
3848  * on UP we do not need to balance between CPUs:
3849  */
3850 static inline void idle_balance(int cpu, struct rq *rq)
3851 {
3852 }
3853
3854 #endif
3855
3856 DEFINE_PER_CPU(struct kernel_stat, kstat);
3857
3858 EXPORT_PER_CPU_SYMBOL(kstat);
3859
3860 /*
3861  * Return p->sum_exec_runtime plus any more ns on the sched_clock
3862  * that have not yet been banked in case the task is currently running.
3863  */
3864 unsigned long long task_sched_runtime(struct task_struct *p)
3865 {
3866         unsigned long flags;
3867         u64 ns, delta_exec;
3868         struct rq *rq;
3869
3870         rq = task_rq_lock(p, &flags);
3871         ns = p->se.sum_exec_runtime;
3872         if (task_current(rq, p)) {
3873                 update_rq_clock(rq);
3874                 delta_exec = rq->clock - p->se.exec_start;
3875                 if ((s64)delta_exec > 0)
3876                         ns += delta_exec;
3877         }
3878         task_rq_unlock(rq, &flags);
3879
3880         return ns;
3881 }
3882
3883 /*
3884  * Account user cpu time to a process.
3885  * @p: the process that the cpu time gets accounted to
3886  * @cputime: the cpu time spent in user space since the last update
3887  */
3888 void account_user_time(struct task_struct *p, cputime_t cputime)
3889 {
3890         struct cpu_usage_stat *cpustat = &kstat_this_cpu.cpustat;
3891         cputime64_t tmp;
3892
3893         p->utime = cputime_add(p->utime, cputime);
3894
3895         /* Add user time to cpustat. */
3896         tmp = cputime_to_cputime64(cputime);
3897         if (TASK_NICE(p) > 0)
3898                 cpustat->nice = cputime64_add(cpustat->nice, tmp);
3899         else
3900                 cpustat->user = cputime64_add(cpustat->user, tmp);
3901 }
3902
3903 /*
3904  * Account guest cpu time to a process.
3905  * @p: the process that the cpu time gets accounted to
3906  * @cputime: the cpu time spent in virtual machine since the last update
3907  */
3908 static void account_guest_time(struct task_struct *p, cputime_t cputime)
3909 {
3910         cputime64_t tmp;
3911         struct cpu_usage_stat *cpustat = &kstat_this_cpu.cpustat;
3912
3913         tmp = cputime_to_cputime64(cputime);
3914
3915         p->utime = cputime_add(p->utime, cputime);
3916         p->gtime = cputime_add(p->gtime, cputime);
3917
3918         cpustat->user = cputime64_add(cpustat->user, tmp);
3919         cpustat->guest = cputime64_add(cpustat->guest, tmp);
3920 }
3921
3922 /*
3923  * Account scaled user cpu time to a process.
3924  * @p: the process that the cpu time gets accounted to
3925  * @cputime: the cpu time spent in user space since the last update
3926  */
3927 void account_user_time_scaled(struct task_struct *p, cputime_t cputime)
3928 {
3929         p->utimescaled = cputime_add(p->utimescaled, cputime);
3930 }
3931
3932 /*
3933  * Account system cpu time to a process.
3934  * @p: the process that the cpu time gets accounted to
3935  * @hardirq_offset: the offset to subtract from hardirq_count()
3936  * @cputime: the cpu time spent in kernel space since the last update
3937  */
3938 void account_system_time(struct task_struct *p, int hardirq_offset,
3939                          cputime_t cputime)
3940 {
3941         struct cpu_usage_stat *cpustat = &kstat_this_cpu.cpustat;
3942         struct rq *rq = this_rq();
3943         cputime64_t tmp;
3944
3945         if ((p->flags & PF_VCPU) && (irq_count() - hardirq_offset == 0)) {
3946                 account_guest_time(p, cputime);
3947                 return;
3948         }
3949
3950         p->stime = cputime_add(p->stime, cputime);
3951
3952         /* Add system time to cpustat. */
3953         tmp = cputime_to_cputime64(cputime);
3954         if (hardirq_count() - hardirq_offset)
3955                 cpustat->irq = cputime64_add(cpustat->irq, tmp);
3956         else if (softirq_count())
3957                 cpustat->softirq = cputime64_add(cpustat->softirq, tmp);
3958         else if (p != rq->idle)
3959                 cpustat->system = cputime64_add(cpustat->system, tmp);
3960         else if (atomic_read(&rq->nr_iowait) > 0)
3961                 cpustat->iowait = cputime64_add(cpustat->iowait, tmp);
3962         else
3963                 cpustat->idle = cputime64_add(cpustat->idle, tmp);
3964         /* Account for system time used */
3965         acct_update_integrals(p);
3966 }
3967
3968 /*
3969  * Account scaled system cpu time to a process.
3970  * @p: the process that the cpu time gets accounted to
3971  * @hardirq_offset: the offset to subtract from hardirq_count()
3972  * @cputime: the cpu time spent in kernel space since the last update
3973  */
3974 void account_system_time_scaled(struct task_struct *p, cputime_t cputime)
3975 {
3976         p->stimescaled = cputime_add(p->stimescaled, cputime);
3977 }
3978
3979 /*
3980  * Account for involuntary wait time.
3981  * @p: the process from which the cpu time has been stolen
3982  * @steal: the cpu time spent in involuntary wait
3983  */
3984 void account_steal_time(struct task_struct *p, cputime_t steal)
3985 {
3986         struct cpu_usage_stat *cpustat = &kstat_this_cpu.cpustat;
3987         cputime64_t tmp = cputime_to_cputime64(steal);
3988         struct rq *rq = this_rq();
3989
3990         if (p == rq->idle) {
3991                 p->stime = cputime_add(p->stime, steal);
3992                 if (atomic_read(&rq->nr_iowait) > 0)
3993                         cpustat->iowait = cputime64_add(cpustat->iowait, tmp);
3994                 else
3995                         cpustat->idle = cputime64_add(cpustat->idle, tmp);
3996         } else
3997                 cpustat->steal = cputime64_add(cpustat->steal, tmp);
3998 }
3999
4000 /*
4001  * This function gets called by the timer code, with HZ frequency.
4002  * We call it with interrupts disabled.
4003  *
4004  * It also gets called by the fork code, when changing the parent's
4005  * timeslices.
4006  */
4007 void scheduler_tick(void)
4008 {
4009         int cpu = smp_processor_id();
4010         struct rq *rq = cpu_rq(cpu);
4011         struct task_struct *curr = rq->curr;
4012
4013         sched_clock_tick();
4014
4015         spin_lock(&rq->lock);
4016         update_rq_clock(rq);
4017         update_cpu_load(rq);
4018         curr->sched_class->task_tick(rq, curr, 0);
4019         spin_unlock(&rq->lock);
4020
4021 #ifdef CONFIG_SMP
4022         rq->idle_at_tick = idle_cpu(cpu);
4023         trigger_load_balance(rq, cpu);
4024 #endif
4025 }
4026
4027 #if defined(CONFIG_PREEMPT) && defined(CONFIG_DEBUG_PREEMPT)
4028
4029 void __kprobes add_preempt_count(int val)
4030 {
4031         /*
4032          * Underflow?
4033          */
4034         if (DEBUG_LOCKS_WARN_ON((preempt_count() < 0)))
4035                 return;
4036         preempt_count() += val;
4037         /*
4038          * Spinlock count overflowing soon?
4039          */
4040         DEBUG_LOCKS_WARN_ON((preempt_count() & PREEMPT_MASK) >=
4041                                 PREEMPT_MASK - 10);
4042 }
4043 EXPORT_SYMBOL(add_preempt_count);
4044
4045 void __kprobes sub_preempt_count(int val)
4046 {
4047         /*
4048          * Underflow?
4049          */
4050         if (DEBUG_LOCKS_WARN_ON(val > preempt_count()))
4051                 return;
4052         /*
4053          * Is the spinlock portion underflowing?
4054          */
4055         if (DEBUG_LOCKS_WARN_ON((val < PREEMPT_MASK) &&
4056                         !(preempt_count() & PREEMPT_MASK)))
4057                 return;
4058
4059         preempt_count() -= val;
4060 }
4061 EXPORT_SYMBOL(sub_preempt_count);
4062
4063 #endif
4064
4065 /*
4066  * Print scheduling while atomic bug:
4067  */
4068 static noinline void __schedule_bug(struct task_struct *prev)
4069 {
4070         struct pt_regs *regs = get_irq_regs();
4071
4072         printk(KERN_ERR "BUG: scheduling while atomic: %s/%d/0x%08x\n",
4073                 prev->comm, prev->pid, preempt_count());
4074
4075         debug_show_held_locks(prev);
4076         print_modules();
4077         if (irqs_disabled())
4078                 print_irqtrace_events(prev);
4079
4080         if (regs)
4081                 show_regs(regs);
4082         else
4083                 dump_stack();
4084 }
4085
4086 /*
4087  * Various schedule()-time debugging checks and statistics:
4088  */
4089 static inline void schedule_debug(struct task_struct *prev)
4090 {
4091         /*
4092          * Test if we are atomic. Since do_exit() needs to call into
4093          * schedule() atomically, we ignore that path for now.
4094          * Otherwise, whine if we are scheduling when we should not be.
4095          */
4096         if (unlikely(in_atomic_preempt_off() && !prev->exit_state))
4097                 __schedule_bug(prev);
4098
4099         profile_hit(SCHED_PROFILING, __builtin_return_address(0));
4100
4101         schedstat_inc(this_rq(), sched_count);
4102 #ifdef CONFIG_SCHEDSTATS
4103         if (unlikely(prev->lock_depth >= 0)) {
4104                 schedstat_inc(this_rq(), bkl_count);
4105                 schedstat_inc(prev, sched_info.bkl_count);
4106         }
4107 #endif
4108 }
4109
4110 /*
4111  * Pick up the highest-prio task:
4112  */
4113 static inline struct task_struct *
4114 pick_next_task(struct rq *rq, struct task_struct *prev)
4115 {
4116         const struct sched_class *class;
4117         struct task_struct *p;
4118
4119         /*
4120          * Optimization: we know that if all tasks are in
4121          * the fair class we can call that function directly:
4122          */
4123         if (likely(rq->nr_running == rq->cfs.nr_running)) {
4124                 p = fair_sched_class.pick_next_task(rq);
4125                 if (likely(p))
4126                         return p;
4127         }
4128
4129         class = sched_class_highest;
4130         for ( ; ; ) {
4131                 p = class->pick_next_task(rq);
4132                 if (p)
4133                         return p;
4134                 /*
4135                  * Will never be NULL as the idle class always
4136                  * returns a non-NULL p:
4137                  */
4138                 class = class->next;
4139         }
4140 }
4141
4142 /*
4143  * schedule() is the main scheduler function.
4144  */
4145 asmlinkage void __sched schedule(void)
4146 {
4147         struct task_struct *prev, *next;
4148         unsigned long *switch_count;
4149         struct rq *rq;
4150         int cpu, hrtick = sched_feat(HRTICK);
4151
4152 need_resched:
4153         preempt_disable();
4154         cpu = smp_processor_id();
4155         rq = cpu_rq(cpu);
4156         rcu_qsctr_inc(cpu);
4157         prev = rq->curr;
4158         switch_count = &prev->nivcsw;
4159
4160         release_kernel_lock(prev);
4161 need_resched_nonpreemptible:
4162
4163         schedule_debug(prev);
4164
4165         if (hrtick)
4166                 hrtick_clear(rq);
4167
4168         /*
4169          * Do the rq-clock update outside the rq lock:
4170          */
4171         local_irq_disable();
4172         update_rq_clock(rq);
4173         spin_lock(&rq->lock);
4174         clear_tsk_need_resched(prev);
4175
4176         if (prev->state && !(preempt_count() & PREEMPT_ACTIVE)) {
4177                 if (unlikely((prev->state & TASK_INTERRUPTIBLE) &&
4178                                 signal_pending(prev))) {
4179                         prev->state = TASK_RUNNING;
4180                 } else {
4181                         deactivate_task(rq, prev, 1);
4182                 }
4183                 switch_count = &prev->nvcsw;
4184         }
4185
4186 #ifdef CONFIG_SMP
4187         if (prev->sched_class->pre_schedule)
4188                 prev->sched_class->pre_schedule(rq, prev);
4189 #endif
4190
4191         if (unlikely(!rq->nr_running))
4192                 idle_balance(cpu, rq);
4193
4194         prev->sched_class->put_prev_task(rq, prev);
4195         next = pick_next_task(rq, prev);
4196
4197         if (likely(prev != next)) {
4198                 sched_info_switch(prev, next);
4199
4200                 rq->nr_switches++;
4201                 rq->curr = next;
4202                 ++*switch_count;
4203
4204                 context_switch(rq, prev, next); /* unlocks the rq */
4205                 /*
4206                  * the context switch might have flipped the stack from under
4207                  * us, hence refresh the local variables.
4208                  */
4209                 cpu = smp_processor_id();
4210                 rq = cpu_rq(cpu);
4211         } else
4212                 spin_unlock_irq(&rq->lock);
4213
4214         if (hrtick)
4215                 hrtick_set(rq);
4216
4217         if (unlikely(reacquire_kernel_lock(current) < 0))
4218                 goto need_resched_nonpreemptible;
4219
4220         preempt_enable_no_resched();
4221         if (unlikely(test_thread_flag(TIF_NEED_RESCHED)))
4222                 goto need_resched;
4223 }
4224 EXPORT_SYMBOL(schedule);
4225
4226 #ifdef CONFIG_PREEMPT
4227 /*
4228  * this is the entry point to schedule() from in-kernel preemption
4229  * off of preempt_enable. Kernel preemptions off return from interrupt
4230  * occur there and call schedule directly.
4231  */
4232 asmlinkage void __sched preempt_schedule(void)
4233 {
4234         struct thread_info *ti = current_thread_info();
4235
4236         /*
4237          * If there is a non-zero preempt_count or interrupts are disabled,
4238          * we do not want to preempt the current task. Just return..
4239          */
4240         if (likely(ti->preempt_count || irqs_disabled()))
4241                 return;
4242
4243         do {
4244                 add_preempt_count(PREEMPT_ACTIVE);
4245                 schedule();
4246                 sub_preempt_count(PREEMPT_ACTIVE);
4247
4248                 /*
4249                  * Check again in case we missed a preemption opportunity
4250                  * between schedule and now.
4251                  */
4252                 barrier();
4253         } while (unlikely(test_thread_flag(TIF_NEED_RESCHED)));
4254 }
4255 EXPORT_SYMBOL(preempt_schedule);
4256
4257 /*
4258  * this is the entry point to schedule() from kernel preemption
4259  * off of irq context.
4260  * Note, that this is called and return with irqs disabled. This will
4261  * protect us against recursive calling from irq.
4262  */
4263 asmlinkage void __sched preempt_schedule_irq(void)
4264 {
4265         struct thread_info *ti = current_thread_info();
4266
4267         /* Catch callers which need to be fixed */
4268         BUG_ON(ti->preempt_count || !irqs_disabled());
4269
4270         do {
4271                 add_preempt_count(PREEMPT_ACTIVE);
4272                 local_irq_enable();
4273                 schedule();
4274                 local_irq_disable();
4275                 sub_preempt_count(PREEMPT_ACTIVE);
4276
4277